Transkripsiyon

Transkripsiyonun nasıl çalıştığı, doğruluk, diller, işlem süresi ve ses kalitesi ipuçları.

Transkripsiyon ne kadar doğru?

Desteklenen dillerdeki net ses için doğruluk genellikle %95'i aşar. Arka planda, birçok profesyonel transkripsiyon aracını çalıştıran modelin aynısı olan OpenAI'nin sektör lideri konuşma tanımasını kullanıyoruz.

Gerçek dünya doğruluğu üç şeye bağlıdır: ses netliği (arka plan gürültüsü zararlıdır), konuşmacı aksanları (ağır bölgesel aksanlar birkaç puan düşürebilir) ve dilin kendisi (İngilizce ve İspanyolca genelde en yüksek puanı alır). Maksimum doğruluk istiyorsan, büyük fark yaratan küçük şeyler için En iyi sonuçları hangi ses kalitesi verir? bölümüne bak.

SoundScript.AI sesimdeki farklı konuşmacıları tanıyabilir mi?

Evet — konuşmacı tanıma, Ücretsiz plan dahil her planda mevcuttur. Yükleme formunda Konuşmacıları Tanımla seçeneğini Evet yap; her konuşmacıyı transkripsiyonunda otomatik olarak Speaker 1, Speaker 2 şeklinde etiketleyelim.

Toplantılar, röportajlar, podcast'ler ve birden fazla kişinin yer aldığı her türlü konuşma için harika çalışır. Algılayacağımız konuşmacı sayısında bir sınır yoktur. Konuşmacı tanıma biraz işlem süresi ekler, bu nedenle tek kişilik kayıtlarda (dersler, sesli notlar, tek anlatıcılı içerik) daha hızlı sonuçlar için kapalı tut.

Hangi dilleri transkribe edebilirim?

Transkripsiyon için 99 dil destekliyoruz: İngilizce, İspanyolca, Portekizce, Fransızca, Almanca, İtalyanca, Japonca, Çince, Korece, Rusça, Arapça, Hintçe ve çok daha fazlası.

En iyi doğruluk için yükleme formunda dili açıkça seçebilir ya da Otomatik olarak bırakıp algılamamıza izin verebilirsin. Dil listesi, OpenAI Whisper'ın desteklediği setin aynısıdır ve SoundScript.AI arayüzünün kendisi de bu 99 dilin tamamında mevcuttur — kendi dilini değiştirmek için Arayüz dilimi nereden güncellerim? bölümüne bak.

En iyi sonuçları hangi ses kalitesi verir?

Mikrofona yakın kaydedilmiş, arka plan gürültüsü en aza indirilmiş net sesler. Kısa versiyonu bu. En çok yardımcı olan şeyler:

  • Düzgün bir mikrofon kullan — giriş seviyesinde bir USB mikrofon veya modern bir telefon bile dizüstü bilgisayarın dahili mikrofonundan çok daha iyidir.
  • Sessiz bir odada kayıt yap — pencereleri kapat, fanları kapat ve yankı yapan sert yüzeylerden kaçın.
  • Mikrofona yakın dur — doğal konuşma için 15-30 cm ideal mesafedir.
  • Mümkünse arka plan müziğinden kaçın — müzik kaçınılmaz olduğunda neler beklenebileceği için SoundScript.AI arka plan müziği veya gürültüsünü nasıl ele alır? bölümüne bak.

İşlem genellikle ne kadar sürer?

Çoğu dosya saniyeler içinde ila birkaç dakika içinde tamamlanır. Tipik bir 10 dakikalık ses dosyası genellikle 30 saniyenin altında biter.

25MB boyutundan büyük dosyalar otomatik olarak parçalara bölünüp paralel olarak işlenir, bu nedenle bir saatlik kayıt bile genellikle 2-3 dakika içinde hazırdır. Konuşmacı tanımayı etkinleştirmek biraz ek süre ekler. İlerleme çubuğu gerçek zamanlı olarak güncellenir — yenilenecek hiçbir şey yok.

25MB'tan büyük dosyalarda ne olur?

Büyük dosyaları arka planda otomatik olarak daha küçük parçalara böler, paralel olarak transkribe eder ve sonuçları geri birleştiririz. Senin bir şey yapmana gerek yok — dosyanı her zamanki gibi yükle yeter.

Maksimum yükleme boyutu 1GB. Her parça bağımsız olarak işlenir, bu yüzden bir saatlik bir dosya sadece birkaç dakikada hazır olabilir. Parça sınırları, kelimeleri cümlenin ortasında kesmemek için mümkün olduğunca doğal sessizliklere yerleştirilir.

Transkripsiyonumda özel adlarda neden hatalar var?

Özel adlar — isimler, marka isimleri, teknik terimler, kısaltmalar — normal dil kalıplarını izlemedikleri için transkripsiyonun en zor kısmıdır. Harika bir ses bile yanlış yazılmış isimler üretebilir.

Yardımcı olan birkaç şey:

  • Otomatik algılama yerine dili açıkça seç.
  • Kayıt sırasında özel adları net bir şekilde söyle ve etraflarında küçük bir duraklama bırak.
  • Transkripsiyonu sonradan düzenle — metni herhangi bir editöre kopyalayıp bul-değiştir ile isimleri düzeltebilirsin. Şu anda özel sözlük listesini desteklemiyoruz, ama bu radarımızda.

Transkripsiyon metnini düzenleyebilir miyim?

Transkripsiyon metnini sonuç sayfasından kopyalayıp herhangi bir metin editöründe veya kelime işlemcisinde — Google Dokümanlar, Microsoft Word, Not Defteri, hangisini tercih edersen — düzenleyebilirsin.

Henüz uygulama içi bir editörümüz yok, bu yüzden SoundScript.AI dışında yaptığın değişiklikler sunucularımıza kaydedilmez. Orijinal transkripsiyon panonda kalır, böylece her zaman taze bir kopya indirebilirsin. Biçimlendirmeyi koruyarak düzenlemek istiyorsan .doc veya .txt indirme formatlarını kullan.

SRT ve TXT indirme formatları ne işe yarar?

SRT standart altyazı formatıdır — zaman damgaları içerir, böylece her metin satırı videonda doğru anda görünür. YouTube, Vimeo, Premiere veya Final Cut gibi video editörleri ya da altyazı destekli her oynatıcı için kullan.

TXT zaman damgasız düz metindir — belgeler, blog yazıları, transkribe edilmiş röportajlar veya sadece kelimeleri istediğin her şey için mükemmeldir. Ayrıca DOC (biçimlendirilmiş Word belgesi) ve PDF (yazdırılabilir) de sunuyoruz — ayrıntılar için TXT, DOC veya PDF olarak nasıl indiririm? bölümüne bak.

SoundScript.AI arka plan müziği veya gürültüsünü nasıl ele alır?

Elimizden gelenin en iyisini yaparız, ancak ağır arka plan müziği veya gürültüsü doğruluğu düşürür. Hafif ortam gürültüsü (sakin bir kafe, çalışan bir fan) genellikle sorun yaratmaz. Yüksek sesli müzik veya rekabet eden sesler en zor durumlardır.

Giriş müziği olan röportaj tarzı içerik için genellikle müziği anlamsız sözler olarak transkribe edilmiş ya da atlanmış görürsün; ardından konuşma başladığında doğruluk geri döner. Sadece konuşmadan oluşan bir sürümü kaydedebilirsen (veya önceden Audacity gibi bir araçla müziği temizleyebilirsen) doğruluk gözle görülür şekilde daha iyi olacaktır.

Hâlâ yardıma mı ihtiyacınız var?

Aradığınız yanıtı bulamıyor musunuz? SoundScript.AI'yi ücretsiz deneyin — kredi kartı gerekmez.

Ücretsiz dene

veya e-posta [email protected]