Q: Насколько точна транскрипция?

Точность обычно превышает 95% для чистого аудио на поддерживаемых языках. Мы используем ведущую в отрасли технологию распознавания речи от OpenAI — ту же модель, что лежит в основе многих профессиональных инструментов транскрипции. В реальности точность зависит от трёх вещей: чистоты аудио (фоновый шум вредит), акцента говорящих (сильные региональные акценты могут немного снизить точность) и самого языка (английский и испанский обычно показывают лучший результат). Если хотите максимальной точности, см. Какое качество аудио даёт лучший результат? — мелочи, которые сильно влияют.

Q: Какие языки можно транскрибировать?

Мы поддерживаем 99 языков для транскрипции, включая английский, испанский, португальский, французский, немецкий, итальянский, японский, китайский, корейский, русский, арабский, хинди и многие другие. Вы можете явно выбрать язык в форме загрузки для лучшей точности или оставить Авто , чтобы мы определили его за вас. Список языков совпадает с набором, поддерживаемым OpenAI Whisper, а сам интерфейс SoundScript.AI также доступен на всех 99 языках — см. Где поменять язык интерфейса? , чтобы сменить свой.

Q: Для чего форматы скачивания SRT и TXT?

SRT — стандартный формат субтитров: он включает временные метки, чтобы каждая строка текста появлялась в нужный момент видео. Используйте его для YouTube, Vimeo, видеоредакторов вроде Premiere или Final Cut, или любого плеера, который поддерживает субтитры. TXT — обычный текст без временных меток — идеален для документов, постов в блог, расшифровок интервью или всего, где нужны только слова. Мы также предлагаем DOC (форматированный документ Word) и PDF (для печати) — подробности см. в Как скачать в TXT, DOC или PDF? .

Question 1

Насколько точна транскрипция?

Accepted Answer

Точность обычно превышает 95% для чистого аудио на поддерживаемых языках. Мы используем ведущую в отрасли технологию распознавания речи от OpenAI — ту же модель, что лежит в основе многих профессиональных инструментов транскрипции.

В реальности точность зависит от трёх вещей: чистоты аудио (фоновый шум вредит), акцента говорящих (сильные региональные акценты могут немного снизить точность) и самого языка (английский и испанский обычно показывают лучший результат). Если хотите максимальной точности, см. Какое качество аудио даёт лучший результат? — мелочи, которые сильно влияют.

Question 2

Может ли SoundScript.AI распознавать разных говорящих?

Accepted Answer

Да — идентификация говорящих включена в вашу подписку на каждом тарифе. В форме загрузки установите Идентификация говорящих в Да, и мы автоматически пометим каждого говорящего в транскрипции как Speaker 1, Speaker 2 и так далее.

Это отлично подходит для встреч, интервью, подкастов и любых многоголосых разговоров. Ограничения на число говорящих нет. Идентификация немного увеличивает время обработки, поэтому для одиночных записей (лекции, голосовые заметки, контент с одним диктором) лучше её отключить — результат будет быстрее.

Question 3

Какие языки можно транскрибировать?

Accepted Answer

Мы поддерживаем 99 языков для транскрипции, включая английский, испанский, португальский, французский, немецкий, итальянский, японский, китайский, корейский, русский, арабский, хинди и многие другие.

Вы можете явно выбрать язык в форме загрузки для лучшей точности или оставить Авто, чтобы мы определили его за вас. Список языков совпадает с набором, поддерживаемым OpenAI Whisper, а сам интерфейс SoundScript.AI также доступен на всех 99 языках — см. Где поменять язык интерфейса?, чтобы сменить свой.

Question 4

Какое качество аудио даёт лучший результат?

Accepted Answer

Чёткие голоса, записанные близко к микрофону, с минимумом фонового шума. Это коротко. А вот что помогает больше всего:

Используйте приличный микрофон — даже бюджетный USB-микрофон или современный телефон гораздо лучше встроенного микрофона ноутбука.
Записывайте в тихой комнате — закройте окна, выключите вентиляторы и избегайте твёрдых поверхностей, которые отражают звук.
Подойдите ближе к микрофону — оптимальное расстояние для естественной речи — 15–30 см.
По возможности избегайте фоновой музыки — см. Как SoundScript.AI обрабатывает фоновую музыку или шум?, чтобы понять, чего ожидать, когда без музыки не обойтись.

Question 5

Сколько обычно занимает обработка?

Accepted Answer

Большинство файлов готовы за секунды или пару минут. Обычный 10-минутный аудиофайл, как правило, завершается менее чем за 30 секунд.

Файлы больше 25MB автоматически делятся на части и обрабатываются параллельно, поэтому даже часовая запись обычно готова за 2–3 минуты. Включение идентификации говорящих немного добавляет времени. Индикатор прогресса обновляется в реальном времени — обновлять страницу не нужно.

Question 6

Что происходит с файлами больше 25MB?

Accepted Answer

Мы автоматически делим большие файлы на меньшие части за кулисами, транскрибируем их параллельно и собираем результаты обратно. От вас ничего не требуется — просто загрузите файл как обычно.

Максимальный размер загрузки — 1GB. Каждая часть обрабатывается независимо, поэтому часовой файл может быть готов всего за несколько минут. Границы частей по возможности располагаются на естественных паузах, чтобы не разрезать слова посередине.

Question 7

Почему в транскрипции есть ошибки в именах собственных?

Accepted Answer

Имена собственные — имена людей, названия брендов, технические термины, аббревиатуры — самая трудная часть транскрипции, потому что они не подчиняются обычным языковым закономерностям. Даже отличное аудио может дать неправильно записанные имена.

Что помогает:

Явно выбирайте язык вместо автоопределения.
Произносите имена собственные чётко при записи, с небольшой паузой вокруг них.
Отредактируйте транскрипцию вручную — вы можете скопировать текст в любой редактор и исправить имена через поиск и замену. Пользовательский словарь мы пока не поддерживаем, но он у нас в планах.

Question 8

Можно ли редактировать текст транскрипции?

Accepted Answer

Вы можете скопировать текст транскрипции со страницы результата и отредактировать его в любом текстовом редакторе или процессоре — Google Docs, Microsoft Word, «Блокнот», что угодно.

Встроенного редактора у нас пока нет, поэтому изменения, сделанные вне SoundScript.AI, не сохраняются обратно на наши серверы. Оригинал транскрипции остаётся в вашем личном кабинете, так что вы всегда можете скачать свежую копию. Используйте формат .doc или .txt, если хотите редактировать и сохранять форматирование.

Question 9

Для чего форматы скачивания SRT и TXT?

Accepted Answer

SRT — стандартный формат субтитров: он включает временные метки, чтобы каждая строка текста появлялась в нужный момент видео. Используйте его для YouTube, Vimeo, видеоредакторов вроде Premiere или Final Cut, или любого плеера, который поддерживает субтитры.

TXT — обычный текст без временных меток — идеален для документов, постов в блог, расшифровок интервью или всего, где нужны только слова. Мы также предлагаем DOC (форматированный документ Word) и PDF (для печати) — подробности см. в Как скачать в TXT, DOC или PDF?.

Question 10

Как SoundScript.AI обрабатывает фоновую музыку или шум?

Accepted Answer

Мы делаем всё возможное, но громкая фоновая музыка или шум снижают точность. Лёгкий окружающий шум (тихое кафе, работающий вентилятор) обычно не доставляет проблем. Громкая музыка или одновременно говорящие голоса — самые сложные случаи.

Для контента в стиле интервью со вступительной музыкой вы обычно увидите музыку, расшифрованную как бессмыслицу или пропущенную, а точность вернётся, когда начнётся речь. Если вы можете записать только речевую версию аудио (или предварительно убрать музыку в Audacity), точность будет заметно выше.

Транскрипция

Нет вопросов, соответствующих вашему запросу.