Q: 文字起こしの精度はどのくらいですか?

対応言語のクリアな音声であれば、通常 95% を超える精度です。業界トップクラスの OpenAI の音声認識を内部で利用しており、多くのプロフェッショナル向け文字起こしツールにも使われているモデルです。 実際の精度は 3 つの要因で決まります:音声の明瞭さ(背景ノイズは精度を下げます)、話者のアクセント(強い地域なまりは数ポイント低下する可能性があります)、そして言語自体(英語とスペイン語は最も精度が高い傾向)。最高の精度を目指したい場合は、 どんな音質が一番良い結果になりますか? を参考に、ちょっとした工夫で大きく違いが出るポイントを確認してください。

Q: SoundScript.AI は音声の中の話者を識別できますか?

はい — 話者識別はサブスクリプションに含まれており、すべてのプランでご利用いただけます。アップロードフォームで 話者を識別 を はい に設定すると、文字起こしの中で各話者が Speaker 1 、 Speaker 2 のように自動でラベル付けされます。 会議、インタビュー、ポッドキャスト、複数人の会話など、どんなシーンでも有効です。検出する話者の数に上限はありません。話者識別を有効にすると処理時間が少し延びるので、ソロ録音(講義、ボイスメモ、ナレーション1人など)では無効のままにしておくと、より速く結果が得られます。

Q: どんな音質が一番良い結果になりますか?

マイクの近くで録音された、背景ノイズの少ないクリアな声です。これが要点。以下が最も効果的なポイントです: きちんとしたマイクを使う — エントリーレベルの USB マイクや最新のスマホでも、ノートパソコン内蔵のマイクよりずっと良い結果になります。 静かな部屋で録音する — 窓を閉め、扇風機を止め、反響しやすい硬い面を避けてください。 マイクに近づく — 自然な発話なら 15〜30 cm がちょうど良い距離です。 可能なら背景音楽を避ける — 音楽が避けられない場合に何が起こるかは 背景の音楽やノイズはどう処理されますか? をご覧ください。

Q: SRT と TXT のダウンロード形式はそれぞれどんな用途ですか?

SRT は標準的な字幕形式です — タイムスタンプを含んでいるため、各行のテキストが動画の正しい瞬間に表示されます。YouTube、Vimeo、Premiere や Final Cut などの動画エディタ、字幕対応プレーヤーなどで使ってください。 TXT はタイムスタンプなしのプレーンテキストで、ドキュメント、ブログ記事、インタビューの書き起こしなど、テキストだけが欲しいときに最適です。 DOC (整形済み Word ドキュメント)や PDF (印刷向け)もご用意しています — 詳しくは TXT、DOC、PDF でダウンロードするには? をご覧ください。

Question 1

文字起こしの精度はどのくらいですか?

Accepted Answer

対応言語のクリアな音声であれば、通常 95% を超える精度です。業界トップクラスの OpenAI の音声認識を内部で利用しており、多くのプロフェッショナル向け文字起こしツールにも使われているモデルです。

実際の精度は 3 つの要因で決まります:音声の明瞭さ(背景ノイズは精度を下げます)、話者のアクセント(強い地域なまりは数ポイント低下する可能性があります)、そして言語自体(英語とスペイン語は最も精度が高い傾向)。最高の精度を目指したい場合は、どんな音質が一番良い結果になりますか?を参考に、ちょっとした工夫で大きく違いが出るポイントを確認してください。

Question 2

SoundScript.AI は音声の中の話者を識別できますか?

Accepted Answer

はい — 話者識別はサブスクリプションに含まれており、すべてのプランでご利用いただけます。アップロードフォームで 話者を識別 をはいに設定すると、文字起こしの中で各話者が Speaker 1、Speaker 2 のように自動でラベル付けされます。

会議、インタビュー、ポッドキャスト、複数人の会話など、どんなシーンでも有効です。検出する話者の数に上限はありません。話者識別を有効にすると処理時間が少し延びるので、ソロ録音(講義、ボイスメモ、ナレーション1人など)では無効のままにしておくと、より速く結果が得られます。

Question 3

どの言語を文字起こしできますか?

Accepted Answer

英語、スペイン語、ポルトガル語、フランス語、ドイツ語、イタリア語、日本語、中国語、韓国語、ロシア語、アラビア語、ヒンディー語など、合計 99 言語の文字起こしに対応しています。

アップロードフォームで言語を明示的に選ぶと最良の精度になりますが、Auto のままにすれば自動検出します。言語リストは OpenAI Whisper の対応言語と同じで、SoundScript.AI 自身のインターフェースも 99 言語すべてで利用できます — 切り替え方法はインターフェースの言語はどこで変更できますか?をご覧ください。

Question 4

どんな音質が一番良い結果になりますか?

Accepted Answer

マイクの近くで録音された、背景ノイズの少ないクリアな声です。これが要点。以下が最も効果的なポイントです:

きちんとしたマイクを使う — エントリーレベルの USB マイクや最新のスマホでも、ノートパソコン内蔵のマイクよりずっと良い結果になります。
静かな部屋で録音する — 窓を閉め、扇風機を止め、反響しやすい硬い面を避けてください。
マイクに近づく — 自然な発話なら 15〜30 cm がちょうど良い距離です。
可能なら背景音楽を避ける — 音楽が避けられない場合に何が起こるかは背景の音楽やノイズはどう処理されますか?をご覧ください。

Question 5

処理は通常どのくらい時間がかかりますか?

Accepted Answer

ほとんどのファイルは数秒から数分で完了します。10 分の音声ファイルなら通常 30 秒以内に終わります。

25MB を超えるファイルは自動でチャンクに分割され、並列で処理されるため、1 時間の録音でも通常 2〜3 分で準備できます。話者識別を有効にすると少し時間が追加されます。プログレスバーはリアルタイムで更新されるので、リロードは不要です。

Question 6

25MB より大きなファイルはどうなりますか?

Accepted Answer

大きなファイルは裏側で自動的に小さなチャンクに分割され、並列で文字起こしされ、結果がつなぎ合わされます。何か特別な操作は必要ありません — 通常通りファイルをアップロードするだけです。

最大アップロードサイズは 1GB です。各チャンクは独立して処理されるため、1 時間のファイルでも数分で完了します。チャンクの区切りは、できるだけ自然な無音部分に置かれ、文の途中で言葉が切れないようになっています。

Question 7

文字起こしで固有名詞が間違っているのはなぜですか?

Accepted Answer

固有名詞 — 人名、ブランド名、専門用語、略語 — は文字起こしで最も難しい部分です。通常の言語パターンに従わないからです。良質な音声でも、名前のスペルが誤ることがあります。

いくつかの対策があります:

自動検出ではなく言語を明示的に選ぶ。
録音時に固有名詞をはっきり発音する — 前後に少し間を置くと効果的です。
文字起こし後にテキストを編集する — 任意のエディタにコピーし、検索と置換で名前を修正できます。現時点でカスタム語彙リストには対応していませんが、検討中です。

Question 8

文字起こしのテキストを編集できますか?

Accepted Answer

結果ページから文字起こしテキストをコピーし、Google ドキュメント、Microsoft Word、メモ帳など、お好きなテキストエディタやワープロで編集できます。

アプリ内エディタはまだありませんので、SoundScript.AI の外で行った変更は当社のサーバーに保存されません。元の文字起こしはダッシュボードに残るので、いつでも新しいコピーをダウンロードできます。書式を保ったまま編集したい場合は .doc または .txt 形式のダウンロードを使ってください。

Question 9

SRT と TXT のダウンロード形式はそれぞれどんな用途ですか?

Accepted Answer

SRT は標準的な字幕形式です — タイムスタンプを含んでいるため、各行のテキストが動画の正しい瞬間に表示されます。YouTube、Vimeo、Premiere や Final Cut などの動画エディタ、字幕対応プレーヤーなどで使ってください。

TXT はタイムスタンプなしのプレーンテキストで、ドキュメント、ブログ記事、インタビューの書き起こしなど、テキストだけが欲しいときに最適です。DOC(整形済み Word ドキュメント)や PDF(印刷向け)もご用意しています — 詳しくはTXT、DOC、PDF でダウンロードするには?をご覧ください。

Question 10

背景の音楽やノイズはどう処理されますか?

Accepted Answer

できる限り対応しますが、強い背景音楽やノイズは精度を下げます。軽い環境音(静かなカフェ、ファンの音)は通常問題ありません。大音量の音楽や競合する話し声が最も難しいケースです。

オープニング音楽付きのインタビュー形式のコンテンツでは、音楽部分は意味不明な文字列として書かれるかスキップされ、話し始めると精度が戻るパターンが一般的です。音声のみのバージョンを録音できる場合(または事前に Audacity などのツールで音楽を除去できる場合)、精度は目に見えて向上します。

文字起こし

検索に一致する質問はありません。