Q: Наколькі дакладная транскрыпцыя?

Дакладнасць звычайна перавышае 95% для выразнага аўдыя на падтрымліваемых мовах. Мы выкарыстоўваем распазнаванне маўлення OpenAI — той самы мадэль, які ляжыць у аснове многіх прафесійных інструментаў транскрыпцыі. Рэальная дакладнасць залежыць ад трох рэчаў: выразнасці гуку (фонавы шум шкодзіць), акцэнту дыктара (цяжкія рэгіянальныя акцэнты могуць крыху зніжаць паказчык) і самой мовы (англійская і іспанская звычайна дэманструюць найвышэйшыя вынікі). Для максімальнай дакладнасці гл. Якая якасць аўдыя дае найлепшыя вынікі? — там невялікія дэталі, якія моцна ўплываюць на вынік.

Q: Якія мовы можна транскрыбаваць?

Мы падтрымліваем 99 моў для транскрыпцыі, у тым ліку англійскую, іспанскую, партугальскую, французскую, нямецкую, італьянскую, японскую, кітайскую, карэйскую, рускую, арабскую, хіндзі і многія іншыя. Вы можаце відавочна абраць мову на форме загрузкі для лепшай дакладнасці або пакінуць Аўта — і мы вызначым яе самастойна. Спіс моў адпавядае падтрымліваемым OpenAI Whisper, і сам інтэрфейс SoundScript.AI таксама даступны ва ўсіх 99 мовах — гл. Дзе абнавіць мову інтэрфейсу? , каб змяніць вашу.

Q: Для чаго фарматы загрузкі SRT і TXT?

SRT — стандартны фармат субтытраў — ён уключае часавыя маркеры, каб кожны радок тэксту з'яўляўся ў патрэбны момант у відэа. Выкарыстоўвайце яго для YouTube, Vimeo, відэарэдактараў накшталт Premiere або Final Cut або любога прайгравальніка, які падтрымлівае субтытры. TXT — просты тэкст без часавых маркераў — ідэальна падыходзіць для дакументаў, паведамленняў у блогу, транскрыбаваных інтэрв'ю або любых мэт, дзе патрэбны толькі словы. Таксама мы прапануем DOC (адфарматаваны дакумент Word) і PDF (для друку) — гл. Як спампаваць у фармаце TXT, DOC або PDF? для падрабязнасцей.

Question 1

Наколькі дакладная транскрыпцыя?

Accepted Answer

Дакладнасць звычайна перавышае 95% для выразнага аўдыя на падтрымліваемых мовах. Мы выкарыстоўваем распазнаванне маўлення OpenAI — той самы мадэль, які ляжыць у аснове многіх прафесійных інструментаў транскрыпцыі.

Рэальная дакладнасць залежыць ад трох рэчаў: выразнасці гуку (фонавы шум шкодзіць), акцэнту дыктара (цяжкія рэгіянальныя акцэнты могуць крыху зніжаць паказчык) і самой мовы (англійская і іспанская звычайна дэманструюць найвышэйшыя вынікі). Для максімальнай дакладнасці гл. Якая якасць аўдыя дае найлепшыя вынікі? — там невялікія дэталі, якія моцна ўплываюць на вынік.

Question 2

Ці можа SoundScript.AI ідэнтыфікаваць розных дыктараў у маім аўдыя?

Accepted Answer

Так — ідэнтыфікацыя дыктараў уключана ва ўсіх планах разам з вашай падпіскай. На форме загрузкі ўсталюйце Ідэнтыфікаваць дыктараў у значэнне Так — і мы аўтаматычна пазначым кожнага дыктара ў транскрыпцыі як Speaker 1, Speaker 2 і г.д.

Гэта выдатна працуе для нарадаў, інтэрв'ю, падкастаў і любых размоў з некалькімі ўдзельнікамі. Колькасць дыктараў, якіх мы выявімо, не абмежавана. Ідэнтыфікацыя дыктараў крыху павялічвае час апрацоўкі, таму для сольных запісаў (лекцыі, галасавыя запіскі, кантэнт з адным дыктарам) адключайце яе, каб атрымаць вынік хутчэй.

Question 3

Якія мовы можна транскрыбаваць?

Accepted Answer

Мы падтрымліваем 99 моў для транскрыпцыі, у тым ліку англійскую, іспанскую, партугальскую, французскую, нямецкую, італьянскую, японскую, кітайскую, карэйскую, рускую, арабскую, хіндзі і многія іншыя.

Вы можаце відавочна абраць мову на форме загрузкі для лепшай дакладнасці або пакінуць Аўта — і мы вызначым яе самастойна. Спіс моў адпавядае падтрымліваемым OpenAI Whisper, і сам інтэрфейс SoundScript.AI таксама даступны ва ўсіх 99 мовах — гл. Дзе абнавіць мову інтэрфейсу?, каб змяніць вашу.

Question 4

Якая якасць аўдыя дае найлепшыя вынікі?

Accepted Answer

Выразныя галасы, запісаныя блізка да мікрафона, з мінімальным фонавым шумам. Гэта кароткая версія. Вось што дапамагае найбольш:

Выкарыстоўвайце добры мікрафон — нават бюджэтны USB-мікрафон або сучасны смартфон нашмат лепшы за ўбудаваны мікрафон наўтбука.
Запісвайце ў ціхім памяшканні — зачыніце вокны, выключыце вентылятары, пазбягайце цвёрдых паверхняў, якія даюць рэха.
Трымайцеся блізка да мікрафона — 15-30 сантыметраў — аптымальная адлегласць для натуральнага маўлення.
Пазбягайце фонавай музыкі, калі магчыма — гл. Як SoundScript.AI апрацоўвае фонавую музыку або шум?, каб даведацца, чаго чакаць, калі музыка непазбежная.

Question 5

Колькі звычайна займае апрацоўка?

Accepted Answer

Большасць файлаў гатова за некалькі секунд — пары хвілін. Тыповы 10-хвілінны аўдыяфайл звычайна гатовы менш чым за 30 секунд.

Файлы большыя за 25MB аўтаматычна разбіваюцца на часткі і апрацоўваюцца паралельна, таму нават гадзінны запіс звычайна гатовы за 2-3 хвіліны. Уключэнне ідэнтыфікацыі дыктараў крыху павялічвае час. Паласа прагрэсу абнаўляецца ў рэальным часе — нічога абнаўляць не трэба.

Question 6

Што адбываецца з файламі большымі за 25MB?

Accepted Answer

Мы аўтаматычна разбіваем вялікія файлы на меншыя часткі ў фонавым рэжыме, транскрыбуем іх паралельна і зшываем вынікі разам. Вам нічога рабіць не трэба — проста загружайце файл як звычайна.

Максімальны памер загрузкі — 1GB. Кожная частка апрацоўваецца незалежна, таму гадзінны файл можа быць гатовы ўсяго за некалькі хвілін. Межы падзелу па магчымасці размяшчаюцца на натуральных паўзах, каб пазбегнуць разразання слоў пасярэдзіне сказа.

Question 7

Чаму ў маёй транскрыпцыі ёсць памылкі ва ўласных назвах?

Accepted Answer

Уласныя назвы — імёны, назвы брэндаў, тэхнічныя тэрміны, абрэвіятуры — гэта самая складаная частка транскрыпцыі, таму што яны не падпарадкоўваюцца звычайным моўным заканамернасцям. Нават пры выдатным аўдыя назвы могуць быць перададзены з памылкамі.

Некалькі рэчаў, якія дапамагаюць:

Выбірайце мову відавочна замест аўтавызначэння.
Вымаўляйце ўласныя назвы выразна пры запісе, з невялікай паўзай вакол іх.
Рэдагуйце транскрыпцыю пасля — вы можаце скапіяваць тэкст у любы рэдактар і выправіць назвы з дапамогай пошуку і замены. Зараз мы не падтрымліваем карыстальніцкі слоўнік, але гэта ў нашых планах.

Question 8

Ці можна рэдагаваць тэкст транскрыпцыі?

Accepted Answer

Вы можаце скапіяваць тэкст транскрыпцыі са старонкі вынікаў і рэдагаваць яго ў любым тэкставым рэдактары або тэкставым працэсары — Google Docs, Microsoft Word, Notepad, дзе вам зручна.

Убудаванага рэдактара ў прыкладанні пакуль няма, таму змены, зробленыя па-за SoundScript.AI, не захоўваюцца на нашых серверах. Арыгінальная транскрыпцыя застаецца ў вашай панэлі кіравання, таму вы заўсёды можаце спампаваць свежую копію. Для рэдагавання з захаваннем фарматавання выкарыстоўвайце фарматы .doc або .txt.

Question 9

Для чаго фарматы загрузкі SRT і TXT?

Accepted Answer

SRT — стандартны фармат субтытраў — ён уключае часавыя маркеры, каб кожны радок тэксту з'яўляўся ў патрэбны момант у відэа. Выкарыстоўвайце яго для YouTube, Vimeo, відэарэдактараў накшталт Premiere або Final Cut або любога прайгравальніка, які падтрымлівае субтытры.

TXT — просты тэкст без часавых маркераў — ідэальна падыходзіць для дакументаў, паведамленняў у блогу, транскрыбаваных інтэрв'ю або любых мэт, дзе патрэбны толькі словы. Таксама мы прапануем DOC (адфарматаваны дакумент Word) і PDF (для друку) — гл. Як спампаваць у фармаце TXT, DOC або PDF? для падрабязнасцей.

Question 10

Як SoundScript.AI апрацоўвае фонавую музыку або шум?

Accepted Answer

Мы робім усё магчымае, але інтэнсіўная фонавая музыка або шум зніжаюць дакладнасць. Лёгкі фонавы шум (ціхая кавярня, які працуе вентылятар) звычайна не стварае праблем. Гучная музыка або перакрываючыя галасы — самыя складаныя выпадкі.

Для кантэнту ў фармаце інтэрв'ю з ўступнай музыкай вы звычайна ўбачыце, як музыка транскрыбуецца як бессэнсоўны набор слоў або прапускаецца, а потым дакладнасць вяртаецца, калі пачынаецца мова. Калі вы можаце запісаць версію аўдыя толькі з мовай (або выдаліць музыку з дапамогай такога інструмента, як Audacity), дакладнасць будзе значна лепшай.

Транскрыпцыя

Няма пытанняў, якія адпавядаюць вашаму запыту.