Q: 转录的准确率如何?

对于支持的语言中的清晰音频,准确率通常超过 95% 。我们在底层使用 OpenAI 业界领先的语音识别技术,这与许多专业转录工具使用的模型相同。 实际准确率取决于三个因素:音频清晰度(背景噪音会降低准确率)、说话人口音(浓重的地方口音可能会下降几个百分点),以及语言本身(英语和西班牙语往往得分最高)。如果您想要最高的准确率,请参阅 什么样的音频质量能获得最佳效果? ,了解那些能带来显著差异的小细节。

Q: SoundScript.AI 能识别我音频中的不同说话人吗?

可以——每个套餐的订阅都包含说话人识别。在上传表单上,将 识别说话人 设置为 是 ,我们就会自动在您的转录中将每位说话人标记为 Speaker 1 、 Speaker 2 ,以此类推。 它非常适合会议、采访、播客以及任何多人对话。我们检测到的说话人数量没有限制。说话人识别会增加一些处理时间,因此对于独白录音(讲座、语音备忘录、单人叙述内容)请关闭此功能以获得更快的结果。

Q: 我可以转录哪些语言?

我们支持 99 种语言 的转录,包括英语、西班牙语、葡萄牙语、法语、德语、意大利语、日语、中文、韩语、俄语、阿拉伯语、印地语等多种语言。 您可以在上传表单中明确选择语言以获得最佳准确率,或将其保留为 自动 让我们为您检测。语言列表与 OpenAI Whisper 支持的语言集相同,SoundScript.AI 界面本身也提供全部 99 种语言版本——请参阅 在哪里更新我的界面语言? 进行更改。

Q: 什么样的音频质量能获得最佳效果?

靠近麦克风录制、背景噪音最少的清晰人声。这是简短版本。以下是最有帮助的方面: 使用一个像样的麦克风 ——即使是入门级 USB 麦克风或现代手机也远比笔记本电脑的内置麦克风好得多。 在安静的房间录音 ——关闭窗户,关掉风扇,并避免会产生回声的硬质表面。 靠近麦克风 ——6-12 英寸是自然语音的最佳距离。 尽可能避免背景音乐 ——请参阅 SoundScript.AI 如何处理背景音乐或噪音? ,了解音乐不可避免时该期待什么。

Q: SRT 和 TXT 下载格式有什么用途?

SRT 是标准字幕格式——它包含时间戳,因此每行文本会在视频中的正确时刻出现。请将其用于 YouTube、Vimeo、Premiere 或 Final Cut 等视频编辑器,或任何支持字幕的播放器。 TXT 是没有时间戳的纯文本——非常适合文档、博客文章、采访转录,或您只想要文字的任何场合。我们还提供 DOC (格式化的 Word 文档)和 PDF (可打印)——请参阅 如何下载为 TXT、DOC 或 PDF? 了解详情。

Question 1

转录的准确率如何?

Accepted Answer

对于支持的语言中的清晰音频,准确率通常超过 95%。我们在底层使用 OpenAI 业界领先的语音识别技术,这与许多专业转录工具使用的模型相同。

实际准确率取决于三个因素:音频清晰度(背景噪音会降低准确率)、说话人口音(浓重的地方口音可能会下降几个百分点),以及语言本身(英语和西班牙语往往得分最高)。如果您想要最高的准确率,请参阅什么样的音频质量能获得最佳效果?,了解那些能带来显著差异的小细节。

Question 2

SoundScript.AI 能识别我音频中的不同说话人吗?

Accepted Answer

可以——每个套餐的订阅都包含说话人识别。在上传表单上,将识别说话人设置为是,我们就会自动在您的转录中将每位说话人标记为 Speaker 1、Speaker 2,以此类推。

它非常适合会议、采访、播客以及任何多人对话。我们检测到的说话人数量没有限制。说话人识别会增加一些处理时间,因此对于独白录音(讲座、语音备忘录、单人叙述内容)请关闭此功能以获得更快的结果。

Question 3

我可以转录哪些语言?

Accepted Answer

我们支持 99 种语言的转录,包括英语、西班牙语、葡萄牙语、法语、德语、意大利语、日语、中文、韩语、俄语、阿拉伯语、印地语等多种语言。

您可以在上传表单中明确选择语言以获得最佳准确率,或将其保留为自动让我们为您检测。语言列表与 OpenAI Whisper 支持的语言集相同,SoundScript.AI 界面本身也提供全部 99 种语言版本——请参阅在哪里更新我的界面语言?进行更改。

Question 4

什么样的音频质量能获得最佳效果?

Accepted Answer

靠近麦克风录制、背景噪音最少的清晰人声。这是简短版本。以下是最有帮助的方面:

使用一个像样的麦克风——即使是入门级 USB 麦克风或现代手机也远比笔记本电脑的内置麦克风好得多。
在安静的房间录音——关闭窗户,关掉风扇,并避免会产生回声的硬质表面。
靠近麦克风——6-12 英寸是自然语音的最佳距离。
尽可能避免背景音乐——请参阅 SoundScript.AI 如何处理背景音乐或噪音?,了解音乐不可避免时该期待什么。

Question 5

处理通常需要多长时间?

Accepted Answer

大多数文件在几秒到几分钟内完成。典型的 10 分钟音频文件通常在 30 秒内完成。

大于 25MB 的文件会自动拆分为多个块并行处理,因此即使是一小时长的录音通常也能在 2-3 分钟内就绪。启用说话人识别会增加一些额外时间。进度条会实时更新——无需刷新。

Question 6

大于 25MB 的文件会怎样?

Accepted Answer

我们会在后台自动将大文件拆分为较小的块,并行转录它们,然后将结果拼接回来。您无需做任何事情——只需像往常一样上传文件。

最大上传大小为 1GB。每个块都独立处理,这就是为什么一小时长的文件只需几分钟就能就绪。块的边界尽可能放在自然的静音处,以避免在句子中间切断单词。

Question 7

为什么我的转录在专有名词上有错误?

Accepted Answer

专有名词——人名、品牌名称、技术术语、首字母缩略词——是转录中最难的部分,因为它们不遵循正常的语言模式。即使是优秀的音频也可能产生拼写错误的人名。

有几件事会有帮助:

明确选择语言而不是使用自动检测。
在录制时清晰地读出专有名词,在它们前后稍作停顿。
事后编辑转录——您可以将文本复制到任何编辑器中,使用查找替换功能修正人名。我们目前不支持自定义词汇表,但这在我们的考虑之中。

Question 8

我可以编辑转录文本吗?

Accepted Answer

您可以从结果页复制转录文本,并在任何文本编辑器或文字处理软件中进行编辑——Google Docs、Microsoft Word、记事本,任何您喜欢的工具。

我们暂时没有应用内编辑器,因此您在 SoundScript.AI 之外所做的更改不会同步保存到我们的服务器。原始转录会保留在您的控制台中,因此您随时可以下载新副本。如果您想编辑并保留格式,请使用 .doc 或 .txt 下载格式。

Question 9

SRT 和 TXT 下载格式有什么用途?

Accepted Answer

SRT 是标准字幕格式——它包含时间戳,因此每行文本会在视频中的正确时刻出现。请将其用于 YouTube、Vimeo、Premiere 或 Final Cut 等视频编辑器,或任何支持字幕的播放器。

TXT 是没有时间戳的纯文本——非常适合文档、博客文章、采访转录,或您只想要文字的任何场合。我们还提供 DOC(格式化的 Word 文档)和 PDF(可打印)——请参阅如何下载为 TXT、DOC 或 PDF?了解详情。

Question 10

SoundScript.AI 如何处理背景音乐或噪音?

Accepted Answer

我们会尽力而为,但浓重的背景音乐或噪音会降低准确率。轻微的环境噪音(安静的咖啡馆、运转的风扇)通常不会造成问题。响亮的音乐或竞争性的声音是最棘手的情况。

对于带有片头音乐的采访类内容,您通常会看到音乐被转录为乱码或被跳过,然后在语音开始时准确率会恢复。如果您可以录制仅含语音的音频版本(或事先用 Audacity 等工具去除音乐),准确率会明显更好。

转录

没有问题与您的搜索匹配。