Q: Hur noggrann är transkriberingen?

Noggrannheten överstiger normalt 95 % för tydligt ljud på språk som stöds. Vi använder OpenAI:s branschledande taligenkänning under huven — samma modell som driver många professionella transkriberingsverktyg. Den faktiska noggrannheten beror på tre saker: ljudets tydlighet (bakgrundsljud försämrar resultatet), talarens dialekt (kraftiga regionala dialekter kan sänka resultatet några poäng) och själva språket (engelska och spanska brukar ge högst poäng). Om du vill ha maximal noggrannhet, se Vilken ljudkvalitet ger bäst resultat? för de små saker som gör stor skillnad.

Q: Vilka språk kan jag transkribera?

Vi stöder 99 språk för transkribering, inklusive engelska, spanska, portugisiska, franska, tyska, italienska, japanska, kinesiska, koreanska, ryska, arabiska, hindi och många fler. Du kan välja språk uttryckligen i uppladdningsformuläret för bästa noggrannhet, eller låta det stå på Auto så identifierar vi det åt dig. Språklistan är densamma som OpenAI Whispers stödda uppsättning, och SoundScript.AI-gränssnittet finns också tillgängligt på alla 99 språk — se Var ändrar jag mitt gränssnittsspråk? för att ändra ditt.

Q: Vad används nedladdningsformaten SRT och TXT till?

SRT är standardformatet för undertexter — det innehåller tidsstämplar så att varje textrad visas vid rätt tillfälle i din video. Använd det för YouTube, Vimeo, videoredigerare som Premiere eller Final Cut, eller andra spelare som hanterar undertexter. TXT är ren text utan tidsstämplar — perfekt för dokument, blogginlägg, transkriberade intervjuer eller allt där du bara vill ha orden. Vi erbjuder också DOC (formaterat Word-dokument) och PDF (utskrivbar) — se Hur laddar jag ner som TXT, DOC eller PDF? för detaljer.

Question 1

Hur noggrann är transkriberingen?

Accepted Answer

Noggrannheten överstiger normalt 95 % för tydligt ljud på språk som stöds. Vi använder OpenAI:s branschledande taligenkänning under huven — samma modell som driver många professionella transkriberingsverktyg.

Den faktiska noggrannheten beror på tre saker: ljudets tydlighet (bakgrundsljud försämrar resultatet), talarens dialekt (kraftiga regionala dialekter kan sänka resultatet några poäng) och själva språket (engelska och spanska brukar ge högst poäng). Om du vill ha maximal noggrannhet, se Vilken ljudkvalitet ger bäst resultat? för de små saker som gör stor skillnad.

Question 2

Kan SoundScript.AI identifiera olika talare i mitt ljud?

Accepted Answer

Ja — talaridentifiering ingår i ditt abonnemang på alla planer. Ställ in Identifiera talare på Ja i uppladdningsformuläret, så märker vi automatiskt varje talare i din transkribering som Speaker 1, Speaker 2 och så vidare.

Det fungerar utmärkt för möten, intervjuer, poddar och alla samtal med flera personer. Det finns ingen gräns för antalet talare vi identifierar. Talaridentifiering lägger till lite bearbetningstid, så låt det vara avstängt för soloinspelningar (föreläsningar, röstmemon, innehåll med en berättare) för snabbare resultat.

Question 3

Vilka språk kan jag transkribera?

Accepted Answer

Vi stöder 99 språk för transkribering, inklusive engelska, spanska, portugisiska, franska, tyska, italienska, japanska, kinesiska, koreanska, ryska, arabiska, hindi och många fler.

Du kan välja språk uttryckligen i uppladdningsformuläret för bästa noggrannhet, eller låta det stå på Auto så identifierar vi det åt dig. Språklistan är densamma som OpenAI Whispers stödda uppsättning, och SoundScript.AI-gränssnittet finns också tillgängligt på alla 99 språk — se Var ändrar jag mitt gränssnittsspråk? för att ändra ditt.

Question 4

Vilken ljudkvalitet ger bäst resultat?

Accepted Answer

Tydliga röster inspelade nära en mikrofon, med minimalt bakgrundsljud. Det är den korta versionen. Här är det som hjälper mest:

Använd en bra mikrofon — även en enkel USB-mikrofon eller modern telefon är mycket bättre än en bärbar dators inbyggda mikrofon.
Spela in i ett tyst rum — stäng fönster, stäng av fläktar och undvik hårda ytor som ekar.
Kom nära mikrofonen — 15–30 cm är det perfekta avståndet för naturligt tal.
Undvik bakgrundsmusik när det går — se Hur hanterar SoundScript.AI bakgrundsmusik eller buller? för vad du kan förvänta dig när musik inte går att undvika.

Question 5

Hur lång tid tar bearbetningen vanligtvis?

Accepted Answer

De flesta filer är klara på allt från några sekunder till ett par minuter. En typisk 10-minuters ljudfil är oftast klar på under 30 sekunder.

Filer större än 25MB delas automatiskt upp i delar och bearbetas parallellt, så även en timslång inspelning är oftast klar på 2–3 minuter. Att aktivera talaridentifiering lägger till lite extra tid. Förloppsindikatorn uppdateras i realtid — inget behöver uppdateras manuellt.

Question 6

Vad händer med filer större än 25MB?

Accepted Answer

Vi delar automatiskt upp stora filer i mindre delar bakom kulisserna, transkriberar dem parallellt och sätter ihop resultaten igen. Du behöver inte göra något — ladda bara upp din fil som vanligt.

Maximal uppladdningsstorlek är 1GB. Varje del bearbetas oberoende, vilket är anledningen till att en timslång fil kan vara klar på bara några minuter. Delningsgränserna placeras på naturliga pauser när det är möjligt för att undvika att klippa ord mitt i en mening.

Question 7

Varför har min transkribering fel i egennamn?

Accepted Answer

Egennamn — namn, varumärken, tekniska termer, akronymer — är det svåraste i transkribering eftersom de inte följer vanliga språkmönster. Även utmärkt ljud kan ge felstavade namn.

Några saker som hjälper:

Välj språk uttryckligen istället för att använda automatisk identifiering.
Säg egennamn tydligt när du spelar in, med en liten paus runt dem.
Redigera transkriberingen efteråt — du kan kopiera texten till valfri redigerare och rätta namn med sök-och-ersätt. Vi stöder för närvarande inte en anpassad ordlista, men det finns på vår radar.

Question 8

Kan jag redigera transkriberingstexten?

Accepted Answer

Du kan kopiera transkriberingstexten från resultatsidan och redigera den i valfri textredigerare eller ordbehandlare — Google Dokument, Microsoft Word, Anteckningar, vad du föredrar.

Vi har ingen inbyggd redigerare ännu, så ändringar du gör utanför SoundScript.AI sparas inte tillbaka på våra servrar. Originaltranskriberingen finns kvar i din instrumentpanel så att du alltid kan ladda ner en ny kopia. Använd nedladdningsformaten .doc eller .txt om du vill redigera och behålla formateringen.

Question 9

Vad används nedladdningsformaten SRT och TXT till?

Accepted Answer

SRT är standardformatet för undertexter — det innehåller tidsstämplar så att varje textrad visas vid rätt tillfälle i din video. Använd det för YouTube, Vimeo, videoredigerare som Premiere eller Final Cut, eller andra spelare som hanterar undertexter.

TXT är ren text utan tidsstämplar — perfekt för dokument, blogginlägg, transkriberade intervjuer eller allt där du bara vill ha orden. Vi erbjuder också DOC (formaterat Word-dokument) och PDF (utskrivbar) — se Hur laddar jag ner som TXT, DOC eller PDF? för detaljer.

Question 10

Hur hanterar SoundScript.AI bakgrundsmusik eller buller?

Accepted Answer

Vi gör vårt bästa, men kraftig bakgrundsmusik eller buller minskar noggrannheten. Lätt rumsljud (ett tyst kafé, en fläkt som går) brukar inte vara något problem. Hög musik eller konkurrerande röster är de svåraste fallen.

För intervjuinnehåll med intromusik kommer du oftast att se musiken transkriberad som obegriplig text eller hoppas över, och sedan kommer noggrannheten tillbaka när talet börjar. Om du kan spela in en version med bara tal (eller ta bort musiken med ett verktyg som Audacity i förväg) blir noggrannheten märkbart bättre.

Transkribering

Inga frågor matchar din sökning.