Transkribering

Så fungerar transkribering, noggrannhet, språk, bearbetningstid och tips för ljudkvalitet.

Hur noggrann är transkriberingen?

Noggrannheten överstiger normalt 95 % för tydligt ljud på språk som stöds. Vi använder OpenAI:s branschledande taligenkänning under huven — samma modell som driver många professionella transkriberingsverktyg.

Den faktiska noggrannheten beror på tre saker: ljudets tydlighet (bakgrundsljud försämrar resultatet), talarens dialekt (kraftiga regionala dialekter kan sänka resultatet några poäng) och själva språket (engelska och spanska brukar ge högst poäng). Om du vill ha maximal noggrannhet, se Vilken ljudkvalitet ger bäst resultat? för de små saker som gör stor skillnad.

Kan SoundScript.AI identifiera olika talare i mitt ljud?

Ja — talaridentifiering är tillgängligt på alla planer, inklusive Gratisplanen. Ställ in Identifiera talareJa i uppladdningsformuläret, så märker vi automatiskt varje talare i din transkribering som Speaker 1, Speaker 2 och så vidare.

Det fungerar utmärkt för möten, intervjuer, poddar och alla samtal med flera personer. Det finns ingen gräns för antalet talare vi identifierar. Talaridentifiering lägger till lite bearbetningstid, så låt det vara avstängt för soloinspelningar (föreläsningar, röstmemon, innehåll med en berättare) för snabbare resultat.

Vilka språk kan jag transkribera?

Vi stöder 99 språk för transkribering, inklusive engelska, spanska, portugisiska, franska, tyska, italienska, japanska, kinesiska, koreanska, ryska, arabiska, hindi och många fler.

Du kan välja språk uttryckligen i uppladdningsformuläret för bästa noggrannhet, eller låta det stå på Auto så identifierar vi det åt dig. Språklistan är densamma som OpenAI Whispers stödda uppsättning, och SoundScript.AI-gränssnittet finns också tillgängligt på alla 99 språk — se Var ändrar jag mitt gränssnittsspråk? för att ändra ditt.

Vilken ljudkvalitet ger bäst resultat?

Tydliga röster inspelade nära en mikrofon, med minimalt bakgrundsljud. Det är den korta versionen. Här är det som hjälper mest:

  • Använd en bra mikrofon — även en enkel USB-mikrofon eller modern telefon är mycket bättre än en bärbar dators inbyggda mikrofon.
  • Spela in i ett tyst rum — stäng fönster, stäng av fläktar och undvik hårda ytor som ekar.
  • Kom nära mikrofonen — 15–30 cm är det perfekta avståndet för naturligt tal.
  • Undvik bakgrundsmusik när det går — se Hur hanterar SoundScript.AI bakgrundsmusik eller buller? för vad du kan förvänta dig när musik inte går att undvika.

Hur lång tid tar bearbetningen vanligtvis?

De flesta filer är klara på allt från några sekunder till ett par minuter. En typisk 10-minuters ljudfil är oftast klar på under 30 sekunder.

Filer större än 25MB delas automatiskt upp i delar och bearbetas parallellt, så även en timslång inspelning är oftast klar på 2–3 minuter. Att aktivera talaridentifiering lägger till lite extra tid. Förloppsindikatorn uppdateras i realtid — inget behöver uppdateras manuellt.

Vad händer med filer större än 25MB?

Vi delar automatiskt upp stora filer i mindre delar bakom kulisserna, transkriberar dem parallellt och sätter ihop resultaten igen. Du behöver inte göra något — ladda bara upp din fil som vanligt.

Maximal uppladdningsstorlek är 1GB. Varje del bearbetas oberoende, vilket är anledningen till att en timslång fil kan vara klar på bara några minuter. Delningsgränserna placeras på naturliga pauser när det är möjligt för att undvika att klippa ord mitt i en mening.

Varför har min transkribering fel i egennamn?

Egennamn — namn, varumärken, tekniska termer, akronymer — är det svåraste i transkribering eftersom de inte följer vanliga språkmönster. Även utmärkt ljud kan ge felstavade namn.

Några saker som hjälper:

  • Välj språk uttryckligen istället för att använda automatisk identifiering.
  • Säg egennamn tydligt när du spelar in, med en liten paus runt dem.
  • Redigera transkriberingen efteråt — du kan kopiera texten till valfri redigerare och rätta namn med sök-och-ersätt. Vi stöder för närvarande inte en anpassad ordlista, men det finns på vår radar.

Kan jag redigera transkriberingstexten?

Du kan kopiera transkriberingstexten från resultatsidan och redigera den i valfri textredigerare eller ordbehandlare — Google Dokument, Microsoft Word, Anteckningar, vad du föredrar.

Vi har ingen inbyggd redigerare ännu, så ändringar du gör utanför SoundScript.AI sparas inte tillbaka på våra servrar. Originaltranskriberingen finns kvar i din instrumentpanel så att du alltid kan ladda ner en ny kopia. Använd nedladdningsformaten .doc eller .txt om du vill redigera och behålla formateringen.

Vad används nedladdningsformaten SRT och TXT till?

SRT är standardformatet för undertexter — det innehåller tidsstämplar så att varje textrad visas vid rätt tillfälle i din video. Använd det för YouTube, Vimeo, videoredigerare som Premiere eller Final Cut, eller andra spelare som hanterar undertexter.

TXT är ren text utan tidsstämplar — perfekt för dokument, blogginlägg, transkriberade intervjuer eller allt där du bara vill ha orden. Vi erbjuder också DOC (formaterat Word-dokument) och PDF (utskrivbar) — se Hur laddar jag ner som TXT, DOC eller PDF? för detaljer.

Hur hanterar SoundScript.AI bakgrundsmusik eller buller?

Vi gör vårt bästa, men kraftig bakgrundsmusik eller buller minskar noggrannheten. Lätt rumsljud (ett tyst kafé, en fläkt som går) brukar inte vara något problem. Hög musik eller konkurrerande röster är de svåraste fallen.

För intervjuinnehåll med intromusik kommer du oftast att se musiken transkriberad som obegriplig text eller hoppas över, och sedan kommer noggrannheten tillbaka när talet börjar. Om du kan spela in en version med bara tal (eller ta bort musiken med ett verktyg som Audacity i förväg) blir noggrannheten märkbart bättre.

Behöver du fortfarande hjälp?

Hittar du inte svaret du letar efter? Prova SoundScript.AI gratis — inget kreditkort behövs.

Prova gratis

eller mejla [email protected]