Транскрипция

Как работает транскрипция, точность, языки, время обработки и советы по качеству аудио.

Насколько точна транскрипция?

Точность обычно превышает 95% для чистого аудио на поддерживаемых языках. Мы используем ведущую в отрасли технологию распознавания речи от OpenAI — ту же модель, что лежит в основе многих профессиональных инструментов транскрипции.

В реальности точность зависит от трёх вещей: чистоты аудио (фоновый шум вредит), акцента говорящих (сильные региональные акценты могут немного снизить точность) и самого языка (английский и испанский обычно показывают лучший результат). Если хотите максимальной точности, см. Какое качество аудио даёт лучший результат? — мелочи, которые сильно влияют.

Может ли SoundScript.AI распознавать разных говорящих?

Да — идентификация говорящих доступна на каждом тарифе, включая Бесплатный. В форме загрузки установите Идентификация говорящих в Да, и мы автоматически пометим каждого говорящего в транскрипции как Speaker 1, Speaker 2 и так далее.

Это отлично подходит для встреч, интервью, подкастов и любых многоголосых разговоров. Ограничения на число говорящих нет. Идентификация немного увеличивает время обработки, поэтому для одиночных записей (лекции, голосовые заметки, контент с одним диктором) лучше её отключить — результат будет быстрее.

Какие языки можно транскрибировать?

Мы поддерживаем 99 языков для транскрипции, включая английский, испанский, португальский, французский, немецкий, итальянский, японский, китайский, корейский, русский, арабский, хинди и многие другие.

Вы можете явно выбрать язык в форме загрузки для лучшей точности или оставить Авто, чтобы мы определили его за вас. Список языков совпадает с набором, поддерживаемым OpenAI Whisper, а сам интерфейс SoundScript.AI также доступен на всех 99 языках — см. Где поменять язык интерфейса?, чтобы сменить свой.

Какое качество аудио даёт лучший результат?

Чёткие голоса, записанные близко к микрофону, с минимумом фонового шума. Это коротко. А вот что помогает больше всего:

  • Используйте приличный микрофон — даже бюджетный USB-микрофон или современный телефон гораздо лучше встроенного микрофона ноутбука.
  • Записывайте в тихой комнате — закройте окна, выключите вентиляторы и избегайте твёрдых поверхностей, которые отражают звук.
  • Подойдите ближе к микрофону — оптимальное расстояние для естественной речи — 15–30 см.
  • По возможности избегайте фоновой музыки — см. Как SoundScript.AI обрабатывает фоновую музыку или шум?, чтобы понять, чего ожидать, когда без музыки не обойтись.

Сколько обычно занимает обработка?

Большинство файлов готовы за секунды или пару минут. Обычный 10-минутный аудиофайл, как правило, завершается менее чем за 30 секунд.

Файлы больше 25MB автоматически делятся на части и обрабатываются параллельно, поэтому даже часовая запись обычно готова за 2–3 минуты. Включение идентификации говорящих немного добавляет времени. Индикатор прогресса обновляется в реальном времени — обновлять страницу не нужно.

Что происходит с файлами больше 25MB?

Мы автоматически делим большие файлы на меньшие части за кулисами, транскрибируем их параллельно и собираем результаты обратно. От вас ничего не требуется — просто загрузите файл как обычно.

Максимальный размер загрузки — 1GB. Каждая часть обрабатывается независимо, поэтому часовой файл может быть готов всего за несколько минут. Границы частей по возможности располагаются на естественных паузах, чтобы не разрезать слова посередине.

Почему в транскрипции есть ошибки в именах собственных?

Имена собственные — имена людей, названия брендов, технические термины, аббревиатуры — самая трудная часть транскрипции, потому что они не подчиняются обычным языковым закономерностям. Даже отличное аудио может дать неправильно записанные имена.

Что помогает:

  • Явно выбирайте язык вместо автоопределения.
  • Произносите имена собственные чётко при записи, с небольшой паузой вокруг них.
  • Отредактируйте транскрипцию вручную — вы можете скопировать текст в любой редактор и исправить имена через поиск и замену. Пользовательский словарь мы пока не поддерживаем, но он у нас в планах.

Можно ли редактировать текст транскрипции?

Вы можете скопировать текст транскрипции со страницы результата и отредактировать его в любом текстовом редакторе или процессоре — Google Docs, Microsoft Word, «Блокнот», что угодно.

Встроенного редактора у нас пока нет, поэтому изменения, сделанные вне SoundScript.AI, не сохраняются обратно на наши серверы. Оригинал транскрипции остаётся в вашем личном кабинете, так что вы всегда можете скачать свежую копию. Используйте формат .doc или .txt, если хотите редактировать и сохранять форматирование.

Для чего форматы скачивания SRT и TXT?

SRT — стандартный формат субтитров: он включает временные метки, чтобы каждая строка текста появлялась в нужный момент видео. Используйте его для YouTube, Vimeo, видеоредакторов вроде Premiere или Final Cut, или любого плеера, который поддерживает субтитры.

TXT — обычный текст без временных меток — идеален для документов, постов в блог, расшифровок интервью или всего, где нужны только слова. Мы также предлагаем DOC (форматированный документ Word) и PDF (для печати) — подробности см. в Как скачать в TXT, DOC или PDF?.

Как SoundScript.AI обрабатывает фоновую музыку или шум?

Мы делаем всё возможное, но громкая фоновая музыка или шум снижают точность. Лёгкий окружающий шум (тихое кафе, работающий вентилятор) обычно не доставляет проблем. Громкая музыка или одновременно говорящие голоса — самые сложные случаи.

Для контента в стиле интервью со вступительной музыкой вы обычно увидите музыку, расшифрованную как бессмыслицу или пропущенную, а точность вернётся, когда начнётся речь. Если вы можете записать только речевую версию аудио (или предварительно убрать музыку в Audacity), точность будет заметно выше.

Всё ещё нужна помощь?

Не нашли ответ, который искали? Попробуйте SoundScript.AI бесплатно — кредитная карта не требуется.

Попробовать бесплатно

или напишите нам: [email protected]