Transkripsi

Cara kerja transkripsi, akurasi, bahasa, waktu pemrosesan, dan kiat kualitas audio.

Seberapa akurat transkripsinya?

Akurasi biasanya melebihi 95% untuk audio yang jernih dalam bahasa yang didukung. Kami menggunakan pengenalan suara terdepan dari OpenAI di balik layar, model yang sama yang menggerakkan banyak alat transkripsi profesional.

Akurasi di dunia nyata bergantung pada tiga hal: kejernihan audio (kebisingan latar merugikan), aksen pembicara (aksen daerah yang kental dapat menurunkan beberapa poin), dan bahasa itu sendiri (bahasa Inggris dan Spanyol cenderung memperoleh skor tertinggi). Jika Anda menginginkan akurasi maksimum, lihat Kualitas audio apa yang memberikan hasil terbaik? untuk hal-hal kecil yang membuat perbedaan besar.

Bisakah SoundScript.AI mengidentifikasi pembicara yang berbeda dalam audio saya?

Ya — identifikasi pembicara tersedia di setiap paket, termasuk Paket Gratis. Pada formulir unggahan, atur Identifikasi Pembicara ke Ya dan kami akan secara otomatis melabeli setiap pembicara dalam transkripsi Anda sebagai Speaker 1, Speaker 2, dan seterusnya.

Ini bekerja dengan baik untuk rapat, wawancara, podcast, dan percakapan multi-orang lainnya. Tidak ada batasan jumlah pembicara yang akan kami deteksi. Identifikasi pembicara menambah sedikit waktu pemrosesan, jadi nonaktifkan untuk rekaman tunggal (kuliah, memo suara, konten narator tunggal) agar memperoleh hasil yang lebih cepat.

Bahasa apa saja yang dapat saya transkripsi?

Kami mendukung 99 bahasa untuk transkripsi, termasuk Inggris, Spanyol, Portugis, Prancis, Jerman, Italia, Jepang, Mandarin, Korea, Rusia, Arab, Hindi, dan masih banyak lagi.

Anda dapat memilih bahasa secara eksplisit pada formulir unggahan untuk akurasi terbaik, atau biarkan pada Auto dan kami akan mendeteksinya untuk Anda. Daftar bahasa sama dengan kumpulan yang didukung oleh OpenAI Whisper, dan antarmuka SoundScript.AI sendiri juga tersedia dalam semua 99 bahasa — lihat Di mana saya memperbarui bahasa antarmuka saya? untuk mengubahnya.

Kualitas audio apa yang memberikan hasil terbaik?

Suara yang jernih direkam dekat dengan mikrofon, dengan kebisingan latar yang minimal. Itu versi singkatnya. Berikut adalah hal-hal yang paling membantu:

  • Gunakan mikrofon yang layak — bahkan mikrofon USB tingkat pemula atau ponsel modern jauh lebih baik daripada mikrofon bawaan laptop.
  • Rekam di ruangan yang tenang — tutup jendela, matikan kipas angin, dan hindari permukaan keras yang menggema.
  • Dekatkan ke mikrofon — 15-30 cm adalah jarak ideal untuk bicara yang alami.
  • Hindari musik latar jika memungkinkan — lihat Bagaimana SoundScript.AI menangani musik latar atau kebisingan? untuk apa yang dapat Anda harapkan ketika musik tidak dapat dihindari.

Berapa lama biasanya pemrosesan berlangsung?

Sebagian besar berkas selesai dalam hitungan detik hingga beberapa menit. Berkas audio 10 menit biasanya selesai dalam waktu kurang dari 30 detik.

Berkas yang lebih besar dari 25MB otomatis dipecah menjadi potongan-potongan dan diproses secara paralel, jadi bahkan rekaman satu jam biasanya siap dalam 2-3 menit. Mengaktifkan identifikasi pembicara menambah sedikit waktu ekstra. Bilah kemajuan diperbarui secara waktu nyata — tidak perlu menyegarkan.

Apa yang terjadi dengan berkas yang lebih besar dari 25MB?

Kami otomatis memecah berkas besar menjadi potongan-potongan yang lebih kecil di balik layar, mentranskripsinya secara paralel, dan menggabungkan hasilnya kembali. Anda tidak perlu melakukan apa pun — cukup unggah berkas Anda seperti biasa.

Ukuran unggahan maksimum adalah 1GB. Setiap potongan diproses secara independen, itulah sebabnya berkas berdurasi satu jam dapat siap hanya dalam beberapa menit. Batas potongan ditempatkan pada keheningan alami sedapat mungkin untuk menghindari pemotongan kata di tengah kalimat.

Mengapa transkripsi saya memiliki kesalahan pada kata benda khusus?

Kata benda khusus — nama, merek, istilah teknis, akronim — adalah bagian tersulit dari transkripsi karena tidak mengikuti pola bahasa yang umum. Bahkan audio yang sangat baik pun dapat menghasilkan nama yang salah eja.

Beberapa hal yang membantu:

  • Pilih bahasa secara eksplisit alih-alih menggunakan deteksi otomatis.
  • Ucapkan kata benda khusus dengan jelas saat merekam, dengan jeda kecil di sekitarnya.
  • Sunting transkripsi setelahnya — Anda dapat menyalin teks ke editor mana pun dan memperbaiki nama dengan cari-dan-ganti. Saat ini kami belum mendukung daftar kosakata khusus, tetapi sudah ada dalam rencana kami.

Bisakah saya menyunting teks transkripsi?

Anda dapat menyalin teks transkripsi dari halaman hasil dan menyuntingnya di editor teks atau pengolah kata mana pun — Google Docs, Microsoft Word, Notepad, apa pun yang Anda sukai.

Kami belum memiliki editor dalam aplikasi, jadi perubahan yang Anda lakukan di luar SoundScript.AI tidak disimpan kembali ke server kami. Transkripsi asli tetap berada di dasbor Anda sehingga Anda selalu dapat mengunduh salinan baru. Gunakan format unduhan .doc atau .txt jika Anda ingin menyunting dan mempertahankan formatnya.

Untuk apa format unduhan SRT dan TXT?

SRT adalah format subtitle standar — mencakup stempel waktu sehingga setiap baris teks muncul pada saat yang tepat di video Anda. Gunakan untuk YouTube, Vimeo, editor video seperti Premiere atau Final Cut, atau pemutar mana pun yang mendukung subtitle.

TXT adalah teks polos tanpa stempel waktu — sempurna untuk dokumen, posting blog, transkripsi wawancara, atau apa pun yang hanya membutuhkan kata-katanya. Kami juga menawarkan DOC (dokumen Word berformat) dan PDF (dapat dicetak) — lihat Bagaimana cara mengunduh sebagai TXT, DOC, atau PDF? untuk detailnya.

Bagaimana SoundScript.AI menangani musik latar atau kebisingan?

Kami melakukan yang terbaik, tetapi musik latar atau kebisingan yang berat akan mengurangi akurasi. Kebisingan ambien ringan (kafe yang tenang, suara kipas) biasanya tidak menimbulkan masalah. Musik yang keras atau suara yang saling bersaing adalah kasus tersulit.

Untuk konten gaya wawancara dengan musik pembuka, Anda biasanya akan melihat musik ditranskripsi sebagai omong kosong atau dilewati, kemudian akurasi kembali saat bicara dimulai. Jika Anda dapat merekam versi audio yang hanya berisi bicara (atau menghapus musik dengan alat seperti Audacity terlebih dahulu), akurasi akan jauh lebih baik.

Masih butuh bantuan?

Tidak menemukan jawaban yang Anda cari? Coba SoundScript.AI gratis — tanpa kartu kredit.

Coba gratis

atau kirim email ke [email protected]