Q: ট্রান্সক্রিপশন কতটা নির্ভুল?

সমর্থিত ভাষায় পরিষ্কার অডিওর জন্য নির্ভুলতা সাধারণত ৯৫%-এর বেশি । আমরা OpenAI-এর শিল্পমানের স্পিচ রিকগনিশন ব্যবহার করি, যা অনেক পেশাদার ট্রান্সক্রিপশন টুলকে শক্তি দেয়। বাস্তব জীবনের নির্ভুলতা তিনটি বিষয়ের উপর নির্ভর করে: অডিওর স্পষ্টতা (ব্যাকগ্রাউন্ড শব্দ ক্ষতিকর), বক্তার উচ্চারণ (ভারী আঞ্চলিক উচ্চারণ কিছুটা কমতে পারে), এবং ভাষাটি নিজে (ইংরেজি ও স্প্যানিশ সাধারণত সর্বোচ্চ স্কোর করে)। সর্বোচ্চ নির্ভুলতা চাইলে, ছোট জিনিসগুলো যা বড় পার্থক্য তৈরি করে সে সম্পর্কে কোন অডিও মান সেরা ফলাফল দেয়? দেখুন।

Q: আমি কোন ভাষা ট্রান্সক্রাইব করতে পারি?

আমরা ট্রান্সক্রিপশনের জন্য 99 ভাষা সমর্থন করি, যার মধ্যে ইংরেজি, স্প্যানিশ, পর্তুগিজ, ফরাসি, জার্মান, ইতালীয়, জাপানি, চীনা, কোরীয়, রাশিয়ান, আরবি, হিন্দি এবং আরও অনেক ভাষা রয়েছে। সেরা নির্ভুলতার জন্য আপলোড ফর্মে ভাষা স্পষ্টভাবে বেছে নিতে পারেন, অথবা Auto -তে রেখে দিন এবং আমরা শনাক্ত করব। ভাষার তালিকা OpenAI Whisper-এর সমর্থিত সেটের মতোই, এবং SoundScript.AI ইন্টারফেস নিজেই সমস্ত 99 ভাষায় উপলব্ধ — আপনারটি পরিবর্তন করতে আমার ইন্টারফেস ভাষা কোথায় আপডেট করব? দেখুন।

Q: SRT ও TXT ডাউনলোড ফরম্যাট কীসের জন্য?

SRT হল মানক সাবটাইটেল ফরম্যাট — এতে টাইমস্ট্যাম্প থাকে যাতে প্রতিটি লাইনের টেক্সট আপনার ভিডিওতে সঠিক মুহূর্তে প্রদর্শিত হয়। YouTube, Vimeo, Premiere বা Final Cut-এর মতো ভিডিও এডিটর, বা যেকোনো সাবটাইটেল-সক্ষম প্লেয়ারের জন্য ব্যবহার করুন। TXT হল টাইমস্ট্যাম্প ছাড়া সাদা টেক্সট — নথি, ব্লগ পোস্ট, ট্রান্সক্রাইব করা ইন্টারভিউ, বা যেখানে শুধু শব্দ চাই সেক্ষেত্রে আদর্শ। আমরা DOC (ফরম্যাট করা Word নথি) এবং PDF (মুদ্রণযোগ্য)-ও অফার করি — বিস্তারিতের জন্য TXT, DOC বা PDF হিসেবে কীভাবে ডাউনলোড করব? দেখুন।

Question 1

ট্রান্সক্রিপশন কতটা নির্ভুল?

Accepted Answer

সমর্থিত ভাষায় পরিষ্কার অডিওর জন্য নির্ভুলতা সাধারণত ৯৫%-এর বেশি। আমরা OpenAI-এর শিল্পমানের স্পিচ রিকগনিশন ব্যবহার করি, যা অনেক পেশাদার ট্রান্সক্রিপশন টুলকে শক্তি দেয়।

বাস্তব জীবনের নির্ভুলতা তিনটি বিষয়ের উপর নির্ভর করে: অডিওর স্পষ্টতা (ব্যাকগ্রাউন্ড শব্দ ক্ষতিকর), বক্তার উচ্চারণ (ভারী আঞ্চলিক উচ্চারণ কিছুটা কমতে পারে), এবং ভাষাটি নিজে (ইংরেজি ও স্প্যানিশ সাধারণত সর্বোচ্চ স্কোর করে)। সর্বোচ্চ নির্ভুলতা চাইলে, ছোট জিনিসগুলো যা বড় পার্থক্য তৈরি করে সে সম্পর্কে কোন অডিও মান সেরা ফলাফল দেয়? দেখুন।

Question 2

SoundScript.AI কি আমার অডিওতে আলাদা স্পিকার শনাক্ত করতে পারে?

Accepted Answer

হ্যাঁ — প্রতিটি প্ল্যানে আপনার সাবস্ক্রিপশনের সাথে স্পিকার শনাক্তকরণ অন্তর্ভুক্ত। আপলোড ফর্মে Identify Speakers-কে Yes-এ সেট করুন এবং আমরা স্বয়ংক্রিয়ভাবে আপনার ট্রান্সক্রিপশনে প্রতিটি স্পিকারকে Speaker 1, Speaker 2 ইত্যাদি হিসেবে লেবেল করব।

এটি মিটিং, ইন্টারভিউ, পডকাস্ট এবং যেকোনো বহু-ব্যক্তির কথোপকথনের জন্য দারুণ কাজ করে। আমরা কতজন স্পিকার শনাক্ত করব তার কোনো সীমা নেই। স্পিকার শনাক্তকরণ একটু বেশি প্রক্রিয়া সময় নেয়, তাই একক রেকর্ডিংয়ের জন্য (লেকচার, ভয়েস মেমো, একক-বর্ণনাকারী কন্টেন্ট) দ্রুত ফলাফলের জন্য এটি বন্ধ রাখুন।

Question 3

আমি কোন ভাষা ট্রান্সক্রাইব করতে পারি?

Accepted Answer

আমরা ট্রান্সক্রিপশনের জন্য 99 ভাষা সমর্থন করি, যার মধ্যে ইংরেজি, স্প্যানিশ, পর্তুগিজ, ফরাসি, জার্মান, ইতালীয়, জাপানি, চীনা, কোরীয়, রাশিয়ান, আরবি, হিন্দি এবং আরও অনেক ভাষা রয়েছে।

সেরা নির্ভুলতার জন্য আপলোড ফর্মে ভাষা স্পষ্টভাবে বেছে নিতে পারেন, অথবা Auto-তে রেখে দিন এবং আমরা শনাক্ত করব। ভাষার তালিকা OpenAI Whisper-এর সমর্থিত সেটের মতোই, এবং SoundScript.AI ইন্টারফেস নিজেই সমস্ত 99 ভাষায় উপলব্ধ — আপনারটি পরিবর্তন করতে আমার ইন্টারফেস ভাষা কোথায় আপডেট করব? দেখুন।

Question 4

কোন অডিও মান সেরা ফলাফল দেয়?

Accepted Answer

মাইক্রোফোনের কাছে রেকর্ড করা পরিষ্কার কণ্ঠস্বর, ন্যূনতম ব্যাকগ্রাউন্ড শব্দসহ। এটিই সংক্ষিপ্ত উত্তর। যা সবচেয়ে বেশি সাহায্য করে:

একটি ভালো মাইক্রোফোন ব্যবহার করুন — এমনকি একটি এন্ট্রি-লেভেল USB মাইক বা আধুনিক ফোন ল্যাপটপের বিল্ট-ইন মাইকের চেয়ে অনেক ভালো।
একটি শান্ত ঘরে রেকর্ড করুন — জানালা বন্ধ করুন, ফ্যান বন্ধ করুন এবং প্রতিধ্বনি হওয়া শক্ত পৃষ্ঠ এড়িয়ে চলুন।
মাইকের কাছে থাকুন — স্বাভাবিক বক্তৃতার জন্য ৬-১২ ইঞ্চি হল আদর্শ দূরত্ব।
সম্ভব হলে ব্যাকগ্রাউন্ড মিউজিক এড়িয়ে চলুন — সঙ্গীত অনিবার্য হলে কী প্রত্যাশা করবেন সে সম্পর্কে SoundScript.AI কীভাবে ব্যাকগ্রাউন্ড মিউজিক বা শব্দ পরিচালনা করে? দেখুন।

Question 5

প্রক্রিয়াকরণে সাধারণত কতক্ষণ লাগে?

Accepted Answer

বেশিরভাগ ফাইল কয়েক সেকেন্ড থেকে কয়েক মিনিটের মধ্যে সম্পন্ন হয়। একটি সাধারণ ১০ মিনিটের অডিও ফাইল সাধারণত ৩০ সেকেন্ডের কম সময়ে শেষ হয়।

25MB-এর বড় ফাইল স্বয়ংক্রিয়ভাবে টুকরোতে বিভক্ত হয়ে সমান্তরালভাবে প্রক্রিয়া হয়, তাই এক ঘণ্টার রেকর্ডিংও সাধারণত ২-৩ মিনিটে প্রস্তুত হয়। স্পিকার শনাক্তকরণ চালু করলে সামান্য বেশি সময় লাগে। প্রগ্রেস বার রিয়েল টাইমে আপডেট হয় — রিফ্রেশ করার কিছু নেই।

Question 6

25MB-এর বড় ফাইলের ক্ষেত্রে কী হয়?

Accepted Answer

আমরা স্বয়ংক্রিয়ভাবে বড় ফাইল পর্দার আড়ালে ছোট টুকরোতে বিভক্ত করি, সমান্তরালভাবে ট্রান্সক্রাইব করি এবং ফলাফল একসাথে জোড়া লাগাই। আপনাকে কিছু করতে হবে না — শুধু স্বাভাবিকভাবে আপনার ফাইল আপলোড করুন।

সর্বোচ্চ আপলোড সাইজ 1GB। প্রতিটি টুকরো স্বাধীনভাবে প্রক্রিয়া করা হয়, তাই এক ঘণ্টার ফাইল মাত্র কয়েক মিনিটে প্রস্তুত হতে পারে। যেখানে সম্ভব টুকরোর সীমানা প্রাকৃতিক নীরবতায় রাখা হয়, যাতে মাঝখানে শব্দ না কাটে।

Question 7

আমার ট্রান্সক্রিপশনে সঠিক নামে কেন ভুল থাকে?

Accepted Answer

সঠিক নাম — ব্যক্তির নাম, ব্র্যান্ডের নাম, প্রযুক্তিগত শব্দ, আদ্যক্ষর — ট্রান্সক্রিপশনের সবচেয়ে কঠিন অংশ কারণ এগুলো সাধারণ ভাষার নিয়ম মেনে চলে না। এমনকি দুর্দান্ত অডিওতেও নামের বানান ভুল হতে পারে।

কিছু জিনিস যা সাহায্য করে:

অটো-ডিটেক্ট ব্যবহার না করে ভাষা স্পষ্টভাবে বেছে নিন।
রেকর্ড করার সময় সঠিক নামগুলো পরিষ্কারভাবে বলুন, তার চারপাশে ছোট বিরতি দিন।
পরে ট্রান্সক্রিপশন সম্পাদনা করুন — আপনি যেকোনো এডিটরে টেক্সট কপি করে ফাইন্ড-এন্ড-রিপ্লেস দিয়ে নাম ঠিক করতে পারেন। আমরা এখনও কাস্টম ভোকাবুলারি তালিকা সমর্থন করি না, তবে এটি আমাদের পরিকল্পনায় আছে।

Question 8

আমি কি ট্রান্সক্রিপশন টেক্সট সম্পাদনা করতে পারি?

Accepted Answer

আপনি ফলাফল পেজ থেকে ট্রান্সক্রিপশন টেক্সট কপি করে যেকোনো টেক্সট এডিটর বা ওয়ার্ড প্রসেসরে সম্পাদনা করতে পারেন — Google Docs, Microsoft Word, Notepad, যা পছন্দ করেন।

আমাদের এখনও ইন-অ্যাপ এডিটর নেই, তাই SoundScript.AI-এর বাইরে করা পরিবর্তন আমাদের সার্ভারে সংরক্ষিত হয় না। মূল ট্রান্সক্রিপশন আপনার ড্যাশবোর্ডে থাকে, তাই আপনি সবসময় একটি নতুন কপি ডাউনলোড করতে পারবেন। সম্পাদনা করতে ও ফরম্যাটিং রাখতে চাইলে .doc বা .txt ডাউনলোড ফরম্যাট ব্যবহার করুন।

Question 9

SRT ও TXT ডাউনলোড ফরম্যাট কীসের জন্য?

Accepted Answer

SRT হল মানক সাবটাইটেল ফরম্যাট — এতে টাইমস্ট্যাম্প থাকে যাতে প্রতিটি লাইনের টেক্সট আপনার ভিডিওতে সঠিক মুহূর্তে প্রদর্শিত হয়। YouTube, Vimeo, Premiere বা Final Cut-এর মতো ভিডিও এডিটর, বা যেকোনো সাবটাইটেল-সক্ষম প্লেয়ারের জন্য ব্যবহার করুন।

TXT হল টাইমস্ট্যাম্প ছাড়া সাদা টেক্সট — নথি, ব্লগ পোস্ট, ট্রান্সক্রাইব করা ইন্টারভিউ, বা যেখানে শুধু শব্দ চাই সেক্ষেত্রে আদর্শ। আমরা DOC (ফরম্যাট করা Word নথি) এবং PDF (মুদ্রণযোগ্য)-ও অফার করি — বিস্তারিতের জন্য TXT, DOC বা PDF হিসেবে কীভাবে ডাউনলোড করব? দেখুন।

Question 10

SoundScript.AI কীভাবে ব্যাকগ্রাউন্ড মিউজিক বা শব্দ পরিচালনা করে?

Accepted Answer

আমরা সর্বোচ্চ চেষ্টা করি, কিন্তু ভারী ব্যাকগ্রাউন্ড মিউজিক বা শব্দ নির্ভুলতা কমিয়ে দেবে। হালকা পরিবেশ শব্দ (একটি শান্ত ক্যাফে, একটি চলমান ফ্যান) সাধারণত কোনো সমস্যা করে না। জোরে মিউজিক বা প্রতিযোগিতামূলক কণ্ঠস্বর সবচেয়ে কঠিন ক্ষেত্র।

ইন্ট্রো মিউজিকসহ ইন্টারভিউ-স্টাইল কন্টেন্টের জন্য, মিউজিক সাধারণত অসংলগ্ন টেক্সট হিসেবে ট্রান্সক্রাইব হয় বা বাদ যায়, তারপর বক্তৃতা শুরু হলে নির্ভুলতা ফিরে আসে। আপনি যদি আপনার অডিওর শুধু কথ্য অংশ রেকর্ড করতে পারেন (অথবা আগে থেকে Audacity-র মতো টুল দিয়ে মিউজিক বাদ দেন), নির্ভুলতা উল্লেখযোগ্যভাবে ভালো হবে।

ট্রান্সক্রিপশন

আপনার অনুসন্ধানের সাথে কোনো প্রশ্ন মেলেনি।