Transcripción

Cómo funciona la transcripción, precisión, idiomas, tiempo de procesamiento y consejos de calidad de audio.

¿Qué tan precisa es la transcripción?

La precisión suele superar el 95% para audio claro en idiomas compatibles. Usamos el reconocimiento de voz líder en la industria de OpenAI, el mismo modelo que impulsa muchas herramientas de transcripción profesional.

La precisión en el mundo real depende de tres factores: claridad del audio (el ruido de fondo perjudica), acentos del hablante (los acentos regionales marcados pueden bajar algunos puntos) y el idioma en sí (el inglés y el español tienden a obtener los mejores resultados). Si quieres máxima precisión, consulta ¿Qué calidad de audio da los mejores resultados? para ver los pequeños detalles que marcan una gran diferencia.

¿Puede SoundScript.AI identificar diferentes hablantes en mi audio?

Sí — la identificación de hablantes está disponible en todos los planes, incluido el plan Free. En el formulario de subida, activa Identificar Hablantes en y etiquetaremos automáticamente a cada hablante en tu transcripción como Speaker 1, Speaker 2, etc.

Funciona de maravilla para reuniones, entrevistas, pódcasts y cualquier conversación con varias personas. No hay límite en el número de hablantes que detectamos. La identificación de hablantes añade algo de tiempo de procesamiento, así que desactívala en grabaciones individuales (clases, notas de voz, contenido con un solo narrador) para obtener resultados más rápidos.

¿Qué idiomas puedo transcribir?

Admitimos 99 idiomas para la transcripción, incluyendo inglés, español, portugués, francés, alemán, italiano, japonés, chino, coreano, ruso, árabe, hindi y muchos más.

Puedes seleccionar el idioma explícitamente en el formulario de subida para obtener la mejor precisión, o dejarlo en Automático para que lo detectemos. La lista de idiomas es la misma que la del conjunto compatible de OpenAI Whisper, y la interfaz de SoundScript.AI también está disponible en los 99 idiomas — consulta ¿Dónde actualizo el idioma de la interfaz? para cambiarlo.

¿Qué calidad de audio da los mejores resultados?

Voces claras grabadas cerca de un micrófono, con el mínimo de ruido de fondo. Esa es la versión corta. Esto es lo que más ayuda:

  • Usa un micrófono decente — incluso un micrófono USB básico o un teléfono moderno es mucho mejor que el micrófono integrado de un portátil.
  • Graba en una habitación tranquila — cierra las ventanas, apaga los ventiladores y evita las superficies duras que generan eco.
  • Acércate al micrófono — entre 15 y 30 cm es el punto óptimo para el habla natural.
  • Evita la música de fondo cuando sea posible — consulta ¿Cómo gestiona SoundScript.AI la música de fondo o el ruido? para saber qué esperar cuando la música es inevitable.

¿Cuánto tarda el procesamiento normalmente?

La mayoría de los archivos están listos en segundos o en un par de minutos. Un archivo de audio típico de 10 minutos suele terminar en menos de 30 segundos.

Los archivos de más de 25MB se dividen automáticamente en fragmentos y se procesan en paralelo, así que incluso una grabación de una hora suele estar lista en 2-3 minutos. Activar la identificación de hablantes añade algo de tiempo extra. La barra de progreso se actualiza en tiempo real — no necesitas refrescar.

¿Qué ocurre con los archivos de más de 25MB?

Dividimos automáticamente los archivos grandes en fragmentos más pequeños en segundo plano, los transcribimos en paralelo y unimos los resultados. No tienes que hacer nada — sube tu archivo como de costumbre.

El tamaño máximo de subida es 1GB. Cada fragmento se procesa de forma independiente, por eso un archivo de una hora puede estar listo en pocos minutos. Los límites de fragmentación se colocan en silencios naturales siempre que es posible, para evitar cortar palabras a mitad de frase.

¿Por qué mi transcripción tiene errores en los nombres propios?

Los nombres propios — personas, marcas, términos técnicos, siglas — son la parte más difícil de la transcripción porque no siguen los patrones normales del idioma. Incluso con un audio excelente pueden aparecer nombres mal escritos.

Algunas cosas que ayudan:

  • Elige el idioma explícitamente en lugar de usar la detección automática.
  • Pronuncia los nombres propios con claridad al grabar, con una pequeña pausa alrededor de ellos.
  • Edita la transcripción después — puedes copiar el texto en cualquier editor y corregir nombres con buscar y reemplazar. Actualmente no tenemos un vocabulario personalizable, pero está en nuestros planes.

¿Puedo editar el texto de la transcripción?

Puedes copiar el texto de la transcripción desde la página de resultados y editarlo en cualquier editor de texto o procesador de texto — Google Docs, Microsoft Word, Bloc de notas, lo que prefieras.

Todavía no tenemos un editor integrado, así que los cambios que hagas fuera de SoundScript.AI no se guardan en nuestros servidores. La transcripción original permanece en tu panel de control para que siempre puedas descargar una copia nueva. Usa los formatos de descarga .doc o .txt si quieres editar y conservar el formato.

¿Para qué sirven los formatos de descarga SRT y TXT?

SRT es el formato de subtítulos estándar — incluye marcas de tiempo para que cada línea de texto aparezca en el momento correcto en tu vídeo. Úsalo para YouTube, Vimeo, editores de vídeo como Premiere o Final Cut, o cualquier reproductor compatible con subtítulos.

TXT es texto plano sin marcas de tiempo — ideal para documentos, entradas de blog, entrevistas transcritas o cualquier situación en la que solo quieras las palabras. También ofrecemos DOC (documento Word con formato) y PDF (imprimible) — consulta ¿Cómo descargo en TXT, DOC o PDF? para más detalles.

¿Cómo gestiona SoundScript.AI la música de fondo o el ruido?

Hacemos lo que podemos, pero la música de fondo intensa o el ruido reducirán la precisión. El ruido ambiental leve (una cafetería tranquila, un ventilador en marcha) normalmente no causa problemas. La música alta o voces que compiten entre sí son los casos más difíciles.

En contenido estilo entrevista con música de introducción, normalmente verás la música transcrita como texto sin sentido o simplemente omitida, y luego la precisión se recupera cuando empieza el habla. Si puedes grabar la versión solo con voz de tu audio (o eliminar la música con una herramienta como Audacity antes), la precisión mejorará notablemente.

¿Aún necesitas ayuda?

¿No encuentras la respuesta que buscas? Prueba SoundScript.AI gratis — sin tarjeta de crédito.

Pruébalo gratis

o escríbenos a [email protected]