Transkription

Wie die Transkription funktioniert, Genauigkeit, Sprachen, Verarbeitungszeit und Tipps zur Audioqualität.

Wie genau ist die Transkription?

Die Genauigkeit übersteigt typischerweise 95 % bei klarem Audio in unterstützten Sprachen. Wir verwenden OpenAIs branchenführende Spracherkennung im Hintergrund — dasselbe Modell, das viele professionelle Transkriptionstools antreibt.

Die tatsächliche Genauigkeit hängt von drei Dingen ab: der Audioklarheit (Hintergrundrauschen schadet), den Sprecherakzenten (starke regionale Akzente können einige Punkte kosten) und der Sprache selbst (Englisch und Spanisch erzielen tendenziell die höchsten Werte). Wenn du maximale Genauigkeit möchtest, sieh dir Welche Audioqualität liefert die besten Ergebnisse? an — kleine Dinge machen dort einen großen Unterschied.

Kann SoundScript.AI verschiedene Sprecher in meiner Audiodatei erkennen?

Ja — die Sprechererkennung ist auf jedem Plan verfügbar, einschließlich des Free-Plans. Setze im Upload-Formular Sprecher erkennen auf Ja und wir beschriften automatisch jeden Sprecher in deiner Transkription als Sprecher 1, Sprecher 2 usw.

Es funktioniert hervorragend für Meetings, Interviews, Podcasts und jede Unterhaltung mit mehreren Personen. Es gibt keine Begrenzung für die Anzahl der Sprecher, die wir erkennen. Die Sprechererkennung fügt etwas Verarbeitungszeit hinzu, lass sie also bei Einzelaufnahmen (Vorlesungen, Sprachnotizen, Inhalte mit einem Sprecher) ausgeschaltet, um schnellere Ergebnisse zu erhalten.

Welche Sprachen kann ich transkribieren?

Wir unterstützen 99 Sprachen für die Transkription, darunter Englisch, Spanisch, Portugiesisch, Französisch, Deutsch, Italienisch, Japanisch, Chinesisch, Koreanisch, Russisch, Arabisch, Hindi und viele mehr.

Du kannst die Sprache im Upload-Formular für beste Genauigkeit explizit auswählen oder es auf Auto lassen und wir erkennen sie automatisch. Die Sprachliste entspricht dem unterstützten Satz von OpenAI Whisper, und die SoundScript.AI-Oberfläche ist ebenfalls in allen 99 Sprachen verfügbar — sieh dir Wo aktualisiere ich meine Oberflächensprache? an, um deine zu ändern.

Welche Audioqualität liefert die besten Ergebnisse?

Klare Stimmen, die nah am Mikrofon aufgenommen wurden, mit minimalem Hintergrundrauschen. Das ist die Kurzversion. Hier ist, was am meisten hilft:

  • Verwende ein anständiges Mikrofon — selbst ein günstiges USB-Mikrofon oder ein modernes Smartphone ist viel besser als das eingebaute Mikrofon eines Laptops.
  • Nimm in einem ruhigen Raum auf — schließe Fenster, schalte Ventilatoren aus und vermeide harte Oberflächen, die Hall erzeugen.
  • Geh nah ans Mikrofon — 15-30 cm ist der optimale Abstand für natürliche Sprache.
  • Vermeide Hintergrundmusik wenn möglich — sieh dir Wie geht SoundScript.AI mit Hintergrundmusik oder Rauschen um? an, um zu wissen, was dich erwartet, wenn Musik unvermeidbar ist.

Wie lange dauert die Verarbeitung in der Regel?

Die meisten Dateien sind in Sekunden bis wenigen Minuten fertig. Eine typische 10-minütige Audiodatei ist in der Regel in unter 30 Sekunden abgeschlossen.

Dateien, die größer als 25MB sind, werden automatisch in Teile aufgeteilt und parallel verarbeitet, sodass selbst eine stündliche Aufnahme in der Regel in 2-3 Minuten fertig ist. Die Aktivierung der Sprechererkennung fügt etwas zusätzliche Zeit hinzu. Der Fortschrittsbalken wird in Echtzeit aktualisiert — du musst nichts neu laden.

Was passiert mit Dateien, die größer als 25MB sind?

Wir teilen große Dateien automatisch im Hintergrund in kleinere Teile auf, transkribieren sie parallel und fügen die Ergebnisse wieder zusammen. Du musst nichts tun — lade deine Datei einfach wie gewohnt hoch.

Die maximale Upload-Größe beträgt 1GB. Jeder Teil wird unabhängig verarbeitet, weshalb eine einstündige Datei in nur wenigen Minuten fertig sein kann. Die Teilgrenzen werden nach Möglichkeit auf natürliche Pausen gesetzt, um Wörter nicht mitten im Satz zu trennen.

Warum hat meine Transkription Fehler bei Eigennamen?

Eigennamen — Personennamen, Markennamen, Fachbegriffe, Abkürzungen — sind der schwierigste Teil der Transkription, weil sie nicht den normalen Sprachmustern folgen. Selbst bei guter Audioqualität können Namen falsch geschrieben werden.

Einige Dinge, die helfen:

  • Wähle die Sprache explizit anstatt die automatische Erkennung zu verwenden.
  • Spreche Eigennamen deutlich beim Aufnehmen, mit einer kurzen Pause darum herum.
  • Bearbeite die Transkription danach — du kannst den Text in einen beliebigen Editor kopieren und Namen per Suchen-und-Ersetzen korrigieren. Wir unterstützen derzeit keine benutzerdefinierte Vokabelliste, aber wir haben es auf dem Radar.

Kann ich den Transkriptionstext bearbeiten?

Du kannst den Transkriptionstext von der Ergebnisseite kopieren und in einem beliebigen Texteditor oder Textverarbeitungsprogramm bearbeiten — Google Docs, Microsoft Word, Notepad, was auch immer du bevorzugst.

Wir haben noch keinen integrierten Editor, daher werden Änderungen außerhalb von SoundScript.AI nicht auf unseren Servern gespeichert. Die originale Transkription bleibt in deinem Dashboard, sodass du jederzeit eine frische Kopie herunterladen kannst. Verwende die Formate .doc oder .txt zum Herunterladen, wenn du Änderungen vornehmen und die Formatierung beibehalten möchtest.

Wofür sind die Download-Formate SRT und TXT?

SRT ist das Standard-Untertitelformat — es enthält Zeitstempel, sodass jede Textzeile zum richtigen Zeitpunkt in deinem Video erscheint. Verwende es für YouTube, Vimeo, Videoeditoren wie Premiere oder Final Cut oder jeden untertitelfähigen Player.

TXT ist reiner Text ohne Zeitstempel — perfekt für Dokumente, Blogbeiträge, transkribierte Interviews oder alles, wo du einfach nur die Wörter haben möchtest. Wir bieten auch DOC (formatiertes Word-Dokument) und PDF (druckfertig) an — sieh dir Wie lade ich als TXT, DOC oder PDF herunter? für Details an.

Wie geht SoundScript.AI mit Hintergrundmusik oder Rauschen um?

Wir geben unser Bestes, aber starke Hintergrundmusik oder Rauschen wird die Genauigkeit verringern. Leichte Umgebungsgeräusche (ein ruhiges Café, ein laufender Ventilator) verursachen in der Regel kein Problem. Laute Musik oder konkurrierende Stimmen sind die schwierigsten Fälle.

Bei interviewähnlichen Inhalten mit Intromusik wirst du die Musik in der Regel als unleserliches Zeug transkribiert sehen oder sie wird übersprungen, dann kehrt die Genauigkeit zurück, wenn die Sprache beginnt. Wenn du die Nur-Sprach-Version deiner Audiodatei aufnehmen kannst (oder Musik vorher mit einem Tool wie Audacity entfernst), wird die Genauigkeit merklich besser sein.

Brauchst du weitere Hilfe?

Findest du die Antwort nicht, die du suchst? Teste SoundScript.AI kostenlos — keine Kreditkarte erforderlich.

Kostenlos testen

oder schreib uns eine E-Mail an [email protected]