转录
转录的工作方式、准确率、语言、处理时间以及音频质量提示。
没有问题与您的搜索匹配。
请尝试其他关键词,或联系我们,我们会提供帮助。 邮箱 [email protected] 或创建免费账户以与 AI 聊天讨论您的转录。
转录的准确率如何?
对于支持的语言中的清晰音频,准确率通常超过 95%。我们在底层使用 OpenAI 业界领先的语音识别技术,这与许多专业转录工具使用的模型相同。
实际准确率取决于三个因素:音频清晰度(背景噪音会降低准确率)、说话人口音(浓重的地方口音可能会下降几个百分点),以及语言本身(英语和西班牙语往往得分最高)。如果您想要最高的准确率,请参阅什么样的音频质量能获得最佳效果?,了解那些能带来显著差异的小细节。
SoundScript.AI 能识别我音频中的不同说话人吗?
可以——每个套餐都提供说话人识别,包括 Free 套餐。在上传表单上,将识别说话人设置为是,我们就会自动在您的转录中将每位说话人标记为 Speaker 1、Speaker 2,以此类推。
它非常适合会议、采访、播客以及任何多人对话。我们检测到的说话人数量没有限制。说话人识别会增加一些处理时间,因此对于独白录音(讲座、语音备忘录、单人叙述内容)请关闭此功能以获得更快的结果。
我可以转录哪些语言?
我们支持 99 种语言的转录,包括英语、西班牙语、葡萄牙语、法语、德语、意大利语、日语、中文、韩语、俄语、阿拉伯语、印地语等多种语言。
您可以在上传表单中明确选择语言以获得最佳准确率,或将其保留为自动让我们为您检测。语言列表与 OpenAI Whisper 支持的语言集相同,SoundScript.AI 界面本身也提供全部 99 种语言版本——请参阅在哪里更新我的界面语言?进行更改。
什么样的音频质量能获得最佳效果?
靠近麦克风录制、背景噪音最少的清晰人声。这是简短版本。以下是最有帮助的方面:
- 使用一个像样的麦克风——即使是入门级 USB 麦克风或现代手机也远比笔记本电脑的内置麦克风好得多。
- 在安静的房间录音——关闭窗户,关掉风扇,并避免会产生回声的硬质表面。
- 靠近麦克风——6-12 英寸是自然语音的最佳距离。
- 尽可能避免背景音乐——请参阅 SoundScript.AI 如何处理背景音乐或噪音?,了解音乐不可避免时该期待什么。
处理通常需要多长时间?
大多数文件在几秒到几分钟内完成。典型的 10 分钟音频文件通常在 30 秒内完成。
大于 25MB 的文件会自动拆分为多个块并行处理,因此即使是一小时长的录音通常也能在 2-3 分钟内就绪。启用说话人识别会增加一些额外时间。进度条会实时更新——无需刷新。
大于 25MB 的文件会怎样?
我们会在后台自动将大文件拆分为较小的块,并行转录它们,然后将结果拼接回来。您无需做任何事情——只需像往常一样上传文件。
最大上传大小为 1GB。每个块都独立处理,这就是为什么一小时长的文件只需几分钟就能就绪。块的边界尽可能放在自然的静音处,以避免在句子中间切断单词。
为什么我的转录在专有名词上有错误?
专有名词——人名、品牌名称、技术术语、首字母缩略词——是转录中最难的部分,因为它们不遵循正常的语言模式。即使是优秀的音频也可能产生拼写错误的人名。
有几件事会有帮助:
- 明确选择语言而不是使用自动检测。
- 在录制时清晰地读出专有名词,在它们前后稍作停顿。
- 事后编辑转录——您可以将文本复制到任何编辑器中,使用查找替换功能修正人名。我们目前不支持自定义词汇表,但这在我们的考虑之中。
我可以编辑转录文本吗?
您可以从结果页复制转录文本,并在任何文本编辑器或文字处理软件中进行编辑——Google Docs、Microsoft Word、记事本,任何您喜欢的工具。
我们暂时没有应用内编辑器,因此您在 SoundScript.AI 之外所做的更改不会同步保存到我们的服务器。原始转录会保留在您的控制台中,因此您随时可以下载新副本。如果您想编辑并保留格式,请使用 .doc 或 .txt 下载格式。
SRT 和 TXT 下载格式有什么用途?
SRT 是标准字幕格式——它包含时间戳,因此每行文本会在视频中的正确时刻出现。请将其用于 YouTube、Vimeo、Premiere 或 Final Cut 等视频编辑器,或任何支持字幕的播放器。
TXT 是没有时间戳的纯文本——非常适合文档、博客文章、采访转录,或您只想要文字的任何场合。我们还提供 DOC(格式化的 Word 文档)和 PDF(可打印)——请参阅如何下载为 TXT、DOC 或 PDF?了解详情。
SoundScript.AI 如何处理背景音乐或噪音?
我们会尽力而为,但浓重的背景音乐或噪音会降低准确率。轻微的环境噪音(安静的咖啡馆、运转的风扇)通常不会造成问题。响亮的音乐或竞争性的声音是最棘手的情况。
对于带有片头音乐的采访类内容,您通常会看到音乐被转录为乱码或被跳过,然后在语音开始时准确率会恢复。如果您可以录制仅含语音的音频版本(或事先用 Audacity 等工具去除音乐),准确率会明显更好。
仍需帮助吗?
找不到您要的答案?免费试用 SoundScript.AI — 无需信用卡。
免费试用或发送邮件至 [email protected]