Q: Quina és la precisió de la transcripció?

La precisió normalment supera el 95% per a àudio clar en idiomes compatibles. Fem servir el reconeixement de veu líder al sector d'OpenAI, el mateix model que impulsa moltes eines de transcripció professionals. La precisió en el món real depèn de tres coses: la claredat de l'àudio (el soroll de fons perjudica), els accents dels parlants (els accents regionals forts poden reduir alguns punts) i el propi idioma (l'anglès i l'espanyol tendeixen a obtenir les puntuacions més altes). Si vols la màxima precisió, consulta Quina qualitat d'àudio dona els millors resultats? per saber les coses petites que marquen una gran diferència.

Q: Quins idiomes puc transcriure?

Admetem 99 idiomes per a la transcripció, incloent anglès, espanyol, portuguès, francès, alemany, italià, japonès, xinès, coreà, rus, àrab, hindi i molts més. Pots triar l'idioma explícitament al formulari de càrrega per obtenir la millor precisió, o deixar-ho en Auto i el detectarem per tu. La llista d'idiomes és la mateixa que el conjunt compatible d'OpenAI Whisper, i la interfície de SoundScript.AI en si també està disponible en els 99 idiomes — consulta On actualitzo l'idioma de la meva interfície? per canviar el teu.

Q: Per a què serveixen els formats de descàrrega SRT i TXT?

SRT és el format estàndard de subtítols — inclou marques de temps perquè cada línia de text aparegui en el moment correcte al teu vídeo. Utilitza'l per a YouTube, Vimeo, editors de vídeo com Premiere o Final Cut, o qualsevol reproductor compatible amb subtítols. TXT és text pla sense marques de temps — perfecte per a documents, entrades de blog, entrevistes transcrites o qualsevol situació on simplement vols les paraules. També oferim DOC (document Word formatat) i PDF (imprimible) — consulta Com descarrego en TXT, DOC o PDF? per a més detalls.

Question 1

Quina és la precisió de la transcripció?

Accepted Answer

La precisió normalment supera el 95% per a àudio clar en idiomes compatibles. Fem servir el reconeixement de veu líder al sector d'OpenAI, el mateix model que impulsa moltes eines de transcripció professionals.

La precisió en el món real depèn de tres coses: la claredat de l'àudio (el soroll de fons perjudica), els accents dels parlants (els accents regionals forts poden reduir alguns punts) i el propi idioma (l'anglès i l'espanyol tendeixen a obtenir les puntuacions més altes). Si vols la màxima precisió, consulta Quina qualitat d'àudio dona els millors resultats? per saber les coses petites que marquen una gran diferència.

Question 2

Pot SoundScript.AI identificar parlants diferents al meu àudio?

Accepted Answer

Sí — la identificació de parlants està inclosa amb la teva subscripció en tots els plans. Al formulari de càrrega, configura Identifica parlants a Sí i etiquetarem automàticament cada parlant a la teva transcripció com a Speaker 1, Speaker 2, i així successivament.

Funciona molt bé per a reunions, entrevistes, podcasts i qualsevol conversa amb múltiples persones. No hi ha límit en el nombre de parlants que detectarem. La identificació de parlants afegeix una mica de temps de processament, de manera que desactiva-la per a gravacions individuals (conferències, notes de veu, contingut amb un sol narrador) per obtenir resultats més ràpids.

Question 3

Quins idiomes puc transcriure?

Accepted Answer

Admetem 99 idiomes per a la transcripció, incloent anglès, espanyol, portuguès, francès, alemany, italià, japonès, xinès, coreà, rus, àrab, hindi i molts més.

Pots triar l'idioma explícitament al formulari de càrrega per obtenir la millor precisió, o deixar-ho en Auto i el detectarem per tu. La llista d'idiomes és la mateixa que el conjunt compatible d'OpenAI Whisper, i la interfície de SoundScript.AI en si també està disponible en els 99 idiomes — consulta On actualitzo l'idioma de la meva interfície? per canviar el teu.

Question 4

Quina qualitat d'àudio dona els millors resultats?

Accepted Answer

Veus clares gravades a prop d'un micròfon, amb el mínim soroll de fons. Aquesta és la versió curta. Aquí tens el que ajuda més:

Utilitza un bon micròfon — fins i tot un micròfon USB de gamma d'entrada o un telèfon modern és molt millor que el micròfon integrat d'un portàtil.
Grava en una habitació tranquil·la — tanca les finestres, apaga els ventiladors i evita les superfícies dures que fan ressò.
Apropa't al micròfon — entre 15 i 30 centímetres és el punt òptim per a la parla natural.
Evita la música de fons quan sigui possible — consulta Com gestiona SoundScript.AI la música de fons o el soroll? per saber què esperar quan la música és inevitable.

Question 5

Quant triga normalment el processament?

Accepted Answer

La majoria de fitxers estan llestos en qüestió de segons fins a un parell de minuts. Un fitxer d'àudio típic de 10 minuts sol acabar en menys de 30 segons.

Els fitxers més grans que 25MB es divideixen automàticament en fragments i es processen en paral·lel, de manera que fins i tot una gravació d'una hora sol estar llesta en 2-3 minuts. Activar la identificació de parlants afegeix una mica de temps addicional. La barra de progrés s'actualitza en temps real — no cal refrescar res.

Question 6

Què passa amb els fitxers més grans que 25MB?

Accepted Answer

Dividim automàticament els fitxers grans en fragments més petits en segon pla, els transcrivim en paral·lel i cosim els resultats de nou. No has de fer res — simplement puja el teu fitxer com de costum.

La mida màxima de càrrega és 1GB. Cada fragment es processa de forma independent, per això un fitxer d'una hora pot estar llest en pocs minuts. Els límits de fragment es col·loquen en silencis naturals sempre que és possible per evitar tallar paraules a mig enunciat.

Question 7

Per què la meva transcripció té errors en noms propis?

Accepted Answer

Els noms propis — noms de persones, marques, termes tècnics, sigles — són la part més difícil de la transcripció perquè no segueixen els patrons lingüístics normals. Fins i tot amb un àudio excel·lent es poden produir noms mal escrits.

Algunes coses que ajuden:

Tria l'idioma explícitament en lloc d'usar la detecció automàtica.
Pronuncia els noms propis clarament en gravar, amb una petita pausa al voltant d'ells.
Edita la transcripció després — pots copiar el text a qualsevol editor i corregir noms amb cercar i reemplaçar. Actualment no admetem una llista de vocabulari personalitzat, però ho tenim en ment.

Question 8

Puc editar el text de la transcripció?

Accepted Answer

Pots copiar el text de la transcripció de la pàgina de resultats i editar-lo en qualsevol editor de text o processador de textos — Google Docs, Microsoft Word, Notepad, el que prefereixis.

Encara no tenim un editor integrat a l'aplicació, de manera que els canvis que facis fora de SoundScript.AI no es desen als nostres servidors. La transcripció original es manté al teu tauler de control perquè sempre puguis descarregar una còpia nova. Utilitza els formats de descàrrega .doc o .txt si vols editar i mantenir el format.

Question 9

Per a què serveixen els formats de descàrrega SRT i TXT?

Accepted Answer

SRT és el format estàndard de subtítols — inclou marques de temps perquè cada línia de text aparegui en el moment correcte al teu vídeo. Utilitza'l per a YouTube, Vimeo, editors de vídeo com Premiere o Final Cut, o qualsevol reproductor compatible amb subtítols.

TXT és text pla sense marques de temps — perfecte per a documents, entrades de blog, entrevistes transcrites o qualsevol situació on simplement vols les paraules. També oferim DOC (document Word formatat) i PDF (imprimible) — consulta Com descarrego en TXT, DOC o PDF? per a més detalls.

Question 10

Com gestiona SoundScript.AI la música de fons o el soroll?

Accepted Answer

Fem el possible, però la música de fons intensa o el soroll reduirà la precisió. El soroll ambient lleuger (una cafeteria tranquil·la, un ventilador en marxa) normalment no causa cap problema. La música alta o les veus que competeixen entre si són els casos més difícils.

Per a contingut d'entrevista amb música d'introducció, normalment veuràs la música transcrita com a galimatíes o omesa, i llavors la precisió torna quan comença la parla. Si pots gravar la versió només de parla del teu àudio (o extreure la música amb una eina com Audacity prèviament), la precisió millorarà notablement.

Transcripció

Cap pregunta no coincideix amb la teva cerca.