Q: Qual é a precisão da transcrição?

A precisão geralmente supera 95% para áudio claro em idiomas suportados. Usamos o reconhecimento de fala líder do setor da OpenAI, o mesmo modelo que impulsiona muitas ferramentas profissionais de transcrição. A precisão no mundo real depende de três fatores: clareza do áudio (ruído de fundo prejudica), sotaques dos falantes (sotaques regionais fortes podem reduzir alguns pontos) e o idioma em si (inglês e espanhol tendem a ter as maiores pontuações). Para máxima precisão, veja Qual qualidade de áudio oferece os melhores resultados? para os pequenos detalhes que fazem grande diferença.

Q: Quais idiomas posso transcrever?

Suportamos 99 idiomas para transcrição, incluindo inglês, espanhol, português, francês, alemão, italiano, japonês, chinês, coreano, russo, árabe, hindi e muitos mais. Você pode escolher o idioma explicitamente no formulário de upload para melhor precisão, ou deixar em Automático e nós o detectaremos. A lista de idiomas é a mesma do conjunto suportado pelo OpenAI Whisper, e a própria interface do SoundScript.AI também está disponível em todos os 99 idiomas — veja Onde atualizo o idioma da minha interface? para fazer a alteração.

Q: Para que servem os formatos de download SRT e TXT?

SRT é o formato padrão de legendas — inclui timestamps para que cada linha de texto apareça no momento certo no seu vídeo. Use-o para YouTube, Vimeo, editores de vídeo como Premiere ou Final Cut, ou qualquer player compatível com legendas. TXT é texto simples sem timestamps — perfeito para documentos, posts de blog, entrevistas transcritas ou qualquer situação onde você só quer as palavras. Também oferecemos DOC (documento Word formatado) e PDF (imprimível) — veja Como baixar como TXT, DOC ou PDF? para detalhes.

Question 1

Qual é a precisão da transcrição?

Accepted Answer

A precisão geralmente supera 95% para áudio claro em idiomas suportados. Usamos o reconhecimento de fala líder do setor da OpenAI, o mesmo modelo que impulsiona muitas ferramentas profissionais de transcrição.

A precisão no mundo real depende de três fatores: clareza do áudio (ruído de fundo prejudica), sotaques dos falantes (sotaques regionais fortes podem reduzir alguns pontos) e o idioma em si (inglês e espanhol tendem a ter as maiores pontuações). Para máxima precisão, veja Qual qualidade de áudio oferece os melhores resultados? para os pequenos detalhes que fazem grande diferença.

Question 2

O SoundScript.AI consegue identificar diferentes falantes no meu áudio?

Accepted Answer

Sim — a identificação de falantes está disponível em todos os planos, incluída com sua assinatura. No formulário de upload, defina Identificar Falantes como Sim e rotularemos automaticamente cada falante na sua transcrição como Speaker 1, Speaker 2, e assim por diante.

Funciona muito bem para reuniões, entrevistas, podcasts e qualquer conversa com várias pessoas. Não há limite no número de falantes que detectamos. A identificação de falantes adiciona um pouco de tempo de processamento, então deixe-a desativada para gravações solo (palestras, notas de voz, conteúdo com um único narrador) para obter resultados mais rápidos.

Question 3

Quais idiomas posso transcrever?

Accepted Answer

Suportamos 99 idiomas para transcrição, incluindo inglês, espanhol, português, francês, alemão, italiano, japonês, chinês, coreano, russo, árabe, hindi e muitos mais.

Você pode escolher o idioma explicitamente no formulário de upload para melhor precisão, ou deixar em Automático e nós o detectaremos. A lista de idiomas é a mesma do conjunto suportado pelo OpenAI Whisper, e a própria interface do SoundScript.AI também está disponível em todos os 99 idiomas — veja Onde atualizo o idioma da minha interface? para fazer a alteração.

Question 4

Qual qualidade de áudio oferece os melhores resultados?

Accepted Answer

Vozes claras gravadas perto de um microfone, com ruído de fundo mínimo. Essa é a versão curta. Veja o que mais ajuda:

Use um microfone decente — até mesmo um microfone USB de entrada ou um celular moderno é muito melhor do que o microfone embutido de um notebook.
Grave em um ambiente silencioso — feche as janelas, desligue os ventiladores e evite superfícies duras que criam eco.
Fique perto do microfone — 15 a 30 cm é o ponto ideal para uma fala natural.
Evite música de fundo quando possível — veja Como o SoundScript.AI lida com música de fundo ou ruído? para saber o que esperar quando a música é inevitável.

Question 5

Quanto tempo leva o processamento normalmente?

Accepted Answer

A maioria dos arquivos fica pronta em segundos a alguns minutos. Um arquivo de áudio típico de 10 minutos geralmente termina em menos de 30 segundos.

Arquivos maiores que 25MB são automaticamente divididos em partes e processados em paralelo, então até uma gravação de uma hora geralmente fica pronta em 2 a 3 minutos. Ativar a identificação de falantes adiciona um pouco mais de tempo. A barra de progresso atualiza em tempo real — não é necessário recarregar a página.

Question 6

O que acontece com arquivos maiores que 25MB?

Accepted Answer

Dividimos automaticamente os arquivos grandes em partes menores nos bastidores, transcrevemos em paralelo e juntamos os resultados novamente. Você não precisa fazer nada — basta enviar o arquivo normalmente.

O tamanho máximo de upload é 1GB. Cada parte é processada de forma independente, por isso um arquivo de uma hora pode ficar pronto em apenas alguns minutos. Os limites entre as partes são colocados em silêncios naturais sempre que possível para evitar cortar palavras no meio de frases.

Question 7

Por que minha transcrição tem erros em nomes próprios?

Accepted Answer

Nomes próprios — pessoas, marcas, termos técnicos, siglas — são a parte mais difícil da transcrição porque não seguem os padrões normais do idioma. Mesmo um áudio excelente pode produzir nomes com grafia incorreta.

Algumas coisas que ajudam:

Escolha o idioma explicitamente em vez de usar a detecção automática.
Pronuncie os nomes próprios com clareza ao gravar, com uma pequena pausa ao redor deles.
Edite a transcrição depois — você pode copiar o texto para qualquer editor e corrigir nomes com localizar-e-substituir. Ainda não temos suporte a um vocabulário personalizado, mas está em nosso radar.

Question 8

Posso editar o texto da transcrição?

Accepted Answer

Você pode copiar o texto da transcrição da página de resultados e editá-lo em qualquer editor de texto ou processador de palavras — Google Docs, Microsoft Word, Bloco de Notas, o que preferir.

Ainda não temos um editor integrado ao aplicativo, então as alterações feitas fora do SoundScript.AI não são salvas de volta em nossos servidores. A transcrição original permanece no seu painel para que você sempre possa baixar uma cópia nova. Use os formatos de download .doc ou .txt se quiser editar e manter a formatação.

Question 9

Para que servem os formatos de download SRT e TXT?

Accepted Answer

SRT é o formato padrão de legendas — inclui timestamps para que cada linha de texto apareça no momento certo no seu vídeo. Use-o para YouTube, Vimeo, editores de vídeo como Premiere ou Final Cut, ou qualquer player compatível com legendas.

TXT é texto simples sem timestamps — perfeito para documentos, posts de blog, entrevistas transcritas ou qualquer situação onde você só quer as palavras. Também oferecemos DOC (documento Word formatado) e PDF (imprimível) — veja Como baixar como TXT, DOC ou PDF? para detalhes.

Question 10

Como o SoundScript.AI lida com música de fundo ou ruído?

Accepted Answer

Fazemos o melhor que podemos, mas música de fundo forte ou muito ruído reduzirão a precisão. Ruído ambiente leve (um café tranquilo, um ventilador ligado) geralmente não causa problemas. Música alta ou vozes concorrentes são os casos mais difíceis.

Para conteúdo em estilo de entrevista com música de introdução, você geralmente verá a música transcrita como palavras sem sentido ou ignorada, e a precisão volta quando a fala começa. Se você puder gravar a versão apenas com fala do seu áudio (ou remover a música com uma ferramenta como Audacity antes), a precisão será visivelmente melhor.

Transcrição

Nenhuma pergunta corresponde à sua pesquisa.