Phiên âm

Cách phiên âm hoạt động, độ chính xác, ngôn ngữ, thời gian xử lý và các mẹo về chất lượng âm thanh.

Bản phiên âm chính xác đến mức nào?

Độ chính xác thường vượt 95% với âm thanh rõ ràng ở các ngôn ngữ được hỗ trợ. Chúng tôi sử dụng công nghệ nhận dạng giọng nói hàng đầu của OpenAI, cùng mô hình đang vận hành nhiều công cụ phiên âm chuyên nghiệp.

Độ chính xác thực tế phụ thuộc vào ba yếu tố: độ rõ của âm thanh (tiếng ồn nền gây ảnh hưởng), giọng vùng miền của người nói (giọng địa phương đậm có thể giảm vài điểm) và bản thân ngôn ngữ (tiếng Anh và tiếng Tây Ban Nha thường có điểm cao nhất). Nếu bạn muốn độ chính xác tối đa, hãy xem Chất lượng âm thanh nào cho kết quả tốt nhất? để biết những điều nhỏ tạo nên khác biệt lớn.

SoundScript.AI có thể nhận diện các người nói khác nhau trong âm thanh của tôi không?

Có — nhận diện người nói khả dụng trên mọi gói, kể cả gói Free. Trên biểu mẫu tải lên, đặt Nhận diện người nói thành và chúng tôi sẽ tự động gắn nhãn từng người trong bản phiên âm là Speaker 1, Speaker 2, v.v.

Tính năng này rất phù hợp cho các cuộc họp, phỏng vấn, podcast và mọi cuộc hội thoại nhiều người. Không có giới hạn về số lượng người nói mà chúng tôi sẽ phát hiện. Nhận diện người nói thêm chút thời gian xử lý, vì vậy hãy tắt nó cho các bản ghi đơn (bài giảng, ghi âm cá nhân, nội dung một người dẫn) để có kết quả nhanh hơn.

Tôi có thể phiên âm những ngôn ngữ nào?

Chúng tôi hỗ trợ 99 ngôn ngữ để phiên âm, bao gồm tiếng Anh, Tây Ban Nha, Bồ Đào Nha, Pháp, Đức, Ý, Nhật, Trung, Hàn, Nga, Ả Rập, Hindi và nhiều ngôn ngữ khác.

Bạn có thể chọn ngôn ngữ rõ ràng trên biểu mẫu tải lên để có độ chính xác tốt nhất, hoặc để ở chế độ Tự động và chúng tôi sẽ phát hiện giúp bạn. Danh sách ngôn ngữ giống với tập hỗ trợ của OpenAI Whisper, và giao diện SoundScript.AI cũng có sẵn ở tất cả 99 ngôn ngữ — xem Tôi cập nhật ngôn ngữ giao diện ở đâu? để thay đổi.

Chất lượng âm thanh nào cho kết quả tốt nhất?

Giọng nói rõ ràng được ghi gần micro, với ít tiếng ồn nền. Đó là phiên bản ngắn gọn. Đây là những điều giúp ích nhiều nhất:

  • Dùng micro tương đối tốt — ngay cả một micro USB cấp thấp hoặc điện thoại hiện đại cũng tốt hơn nhiều so với micro tích hợp của laptop.
  • Ghi âm trong phòng yên tĩnh — đóng cửa sổ, tắt quạt và tránh các bề mặt cứng gây vọng.
  • Đến gần micro — 15-30 cm là khoảng cách lý tưởng cho giọng nói tự nhiên.
  • Tránh nhạc nền khi có thể — xem SoundScript.AI xử lý nhạc nền hoặc tiếng ồn như thế nào? để biết điều gì sẽ xảy ra khi không tránh được nhạc.

Quá trình xử lý thường mất bao lâu?

Hầu hết các tệp hoàn thành trong vài giây đến vài phút. Một tệp âm thanh 10 phút điển hình thường hoàn thành trong chưa đầy 30 giây.

Các tệp lớn hơn 25MB sẽ tự động được chia thành các phần và xử lý song song, nên ngay cả bản ghi dài một giờ cũng thường sẵn sàng trong 2-3 phút. Việc bật nhận diện người nói thêm chút thời gian. Thanh tiến trình cập nhật theo thời gian thực — không cần làm mới.

Điều gì xảy ra với các tệp lớn hơn 25MB?

Chúng tôi tự động chia các tệp lớn thành các phần nhỏ hơn ở hậu trường, phiên âm chúng song song và ghép kết quả lại với nhau. Bạn không cần làm gì cả — chỉ cần tải lên tệp như bình thường.

Kích thước tải lên tối đa là 1GB. Mỗi phần được xử lý độc lập, đó là lý do tại sao một tệp một giờ có thể sẵn sàng chỉ trong vài phút. Ranh giới giữa các phần được đặt tại các khoảng im lặng tự nhiên bất cứ khi nào có thể để tránh cắt từ giữa câu.

Tại sao bản phiên âm của tôi có lỗi ở danh từ riêng?

Danh từ riêng — tên người, tên thương hiệu, thuật ngữ kỹ thuật, từ viết tắt — là phần khó nhất của việc phiên âm vì chúng không tuân theo các mẫu ngôn ngữ thông thường. Ngay cả âm thanh tốt cũng có thể tạo ra các tên bị viết sai chính tả.

Một vài điều giúp ích:

  • Chọn ngôn ngữ rõ ràng thay vì dùng tự động phát hiện.
  • Nói danh từ riêng rõ ràng khi ghi âm, với một khoảng dừng nhỏ xung quanh.
  • Chỉnh sửa bản phiên âm sau đó — bạn có thể sao chép văn bản vào bất kỳ trình soạn thảo nào và sửa tên bằng tìm-và-thay-thế. Chúng tôi hiện chưa hỗ trợ danh sách từ vựng tùy chỉnh, nhưng đó là điều chúng tôi đang cân nhắc.

Tôi có thể chỉnh sửa văn bản phiên âm không?

Bạn có thể sao chép văn bản phiên âm từ trang kết quả và chỉnh sửa trong bất kỳ trình soạn thảo văn bản hoặc xử lý văn bản nào — Google Docs, Microsoft Word, Notepad, tùy bạn thích.

Chúng tôi chưa có trình chỉnh sửa trong ứng dụng, nên các thay đổi bạn thực hiện bên ngoài SoundScript.AI sẽ không được lưu lại trên máy chủ của chúng tôi. Bản phiên âm gốc vẫn ở trong bảng điều khiển để bạn luôn có thể tải xuống bản mới. Sử dụng định dạng tải xuống .doc hoặc .txt nếu bạn muốn chỉnh sửa và giữ định dạng.

Các định dạng tải xuống SRT và TXT dùng để làm gì?

SRT là định dạng phụ đề tiêu chuẩn — bao gồm dấu thời gian để mỗi dòng văn bản xuất hiện đúng thời điểm trong video của bạn. Sử dụng cho YouTube, Vimeo, các trình biên tập video như Premiere hoặc Final Cut, hoặc bất kỳ trình phát hỗ trợ phụ đề nào.

TXT là văn bản thuần không có dấu thời gian — hoàn hảo cho tài liệu, bài blog, phỏng vấn được phiên âm hoặc bất cứ thứ gì bạn chỉ cần chữ. Chúng tôi cũng cung cấp DOC (tài liệu Word định dạng sẵn) và PDF (có thể in) — xem Làm cách nào để tải xuống dưới dạng TXT, DOC hoặc PDF? để biết chi tiết.

SoundScript.AI xử lý nhạc nền hoặc tiếng ồn như thế nào?

Chúng tôi cố gắng hết sức, nhưng nhạc nền hoặc tiếng ồn lớn sẽ làm giảm độ chính xác. Tiếng ồn môi trường nhẹ (quán cà phê yên tĩnh, tiếng quạt chạy) thường không gây vấn đề gì. Nhạc lớn hoặc nhiều giọng nói chồng chéo là trường hợp khó nhất.

Đối với nội dung kiểu phỏng vấn có nhạc mở đầu, bạn thường sẽ thấy nhạc được phiên âm thành chữ vô nghĩa hoặc bị bỏ qua, sau đó độ chính xác trở lại khi bắt đầu có lời nói. Nếu bạn có thể ghi phiên bản chỉ có giọng nói (hoặc loại bỏ nhạc bằng công cụ như Audacity trước), độ chính xác sẽ tốt hơn rõ rệt.

Bạn vẫn cần trợ giúp?

Không tìm thấy câu trả lời bạn cần? Dùng thử SoundScript.AI miễn phí — không cần thẻ tín dụng.

Dùng thử miễn phí

hoặc gửi email đến [email protected]