ট্রান্সক্রিপশন
ট্রান্সক্রিপশন কীভাবে কাজ করে, নির্ভুলতা, ভাষা, প্রক্রিয়া সময় এবং অডিও মানের টিপস।
আপনার অনুসন্ধানের সাথে কোনো প্রশ্ন মেলেনি।
অন্য একটি কীওয়ার্ড চেষ্টা করুন, বা যোগাযোগ করুন আমরা সাহায্য করব। ইমেল [email protected] অথবা আপনার ট্রান্সক্রিপশন সম্পর্কে AI-এর সাথে চ্যাট করতে একটি বিনামূল্যে অ্যাকাউন্ট তৈরি করুন।
ট্রান্সক্রিপশন কতটা নির্ভুল?
সমর্থিত ভাষায় পরিষ্কার অডিওর জন্য নির্ভুলতা সাধারণত ৯৫%-এর বেশি। আমরা OpenAI-এর শিল্পমানের স্পিচ রিকগনিশন ব্যবহার করি, যা অনেক পেশাদার ট্রান্সক্রিপশন টুলকে শক্তি দেয়।
বাস্তব জীবনের নির্ভুলতা তিনটি বিষয়ের উপর নির্ভর করে: অডিওর স্পষ্টতা (ব্যাকগ্রাউন্ড শব্দ ক্ষতিকর), বক্তার উচ্চারণ (ভারী আঞ্চলিক উচ্চারণ কিছুটা কমতে পারে), এবং ভাষাটি নিজে (ইংরেজি ও স্প্যানিশ সাধারণত সর্বোচ্চ স্কোর করে)। সর্বোচ্চ নির্ভুলতা চাইলে, ছোট জিনিসগুলো যা বড় পার্থক্য তৈরি করে সে সম্পর্কে কোন অডিও মান সেরা ফলাফল দেয়? দেখুন।
SoundScript.AI কি আমার অডিওতে আলাদা স্পিকার শনাক্ত করতে পারে?
হ্যাঁ — Free plan সহ প্রতিটি প্ল্যানে স্পিকার শনাক্তকরণ উপলব্ধ। আপলোড ফর্মে Identify Speakers-কে Yes-এ সেট করুন এবং আমরা স্বয়ংক্রিয়ভাবে আপনার ট্রান্সক্রিপশনে প্রতিটি স্পিকারকে Speaker 1, Speaker 2 ইত্যাদি হিসেবে লেবেল করব।
এটি মিটিং, ইন্টারভিউ, পডকাস্ট এবং যেকোনো বহু-ব্যক্তির কথোপকথনের জন্য দারুণ কাজ করে। আমরা কতজন স্পিকার শনাক্ত করব তার কোনো সীমা নেই। স্পিকার শনাক্তকরণ একটু বেশি প্রক্রিয়া সময় নেয়, তাই একক রেকর্ডিংয়ের জন্য (লেকচার, ভয়েস মেমো, একক-বর্ণনাকারী কন্টেন্ট) দ্রুত ফলাফলের জন্য এটি বন্ধ রাখুন।
আমি কোন ভাষা ট্রান্সক্রাইব করতে পারি?
আমরা ট্রান্সক্রিপশনের জন্য 99 ভাষা সমর্থন করি, যার মধ্যে ইংরেজি, স্প্যানিশ, পর্তুগিজ, ফরাসি, জার্মান, ইতালীয়, জাপানি, চীনা, কোরীয়, রাশিয়ান, আরবি, হিন্দি এবং আরও অনেক ভাষা রয়েছে।
সেরা নির্ভুলতার জন্য আপলোড ফর্মে ভাষা স্পষ্টভাবে বেছে নিতে পারেন, অথবা Auto-তে রেখে দিন এবং আমরা শনাক্ত করব। ভাষার তালিকা OpenAI Whisper-এর সমর্থিত সেটের মতোই, এবং SoundScript.AI ইন্টারফেস নিজেই সমস্ত 99 ভাষায় উপলব্ধ — আপনারটি পরিবর্তন করতে আমার ইন্টারফেস ভাষা কোথায় আপডেট করব? দেখুন।
কোন অডিও মান সেরা ফলাফল দেয়?
মাইক্রোফোনের কাছে রেকর্ড করা পরিষ্কার কণ্ঠস্বর, ন্যূনতম ব্যাকগ্রাউন্ড শব্দসহ। এটিই সংক্ষিপ্ত উত্তর। যা সবচেয়ে বেশি সাহায্য করে:
- একটি ভালো মাইক্রোফোন ব্যবহার করুন — এমনকি একটি এন্ট্রি-লেভেল USB মাইক বা আধুনিক ফোন ল্যাপটপের বিল্ট-ইন মাইকের চেয়ে অনেক ভালো।
- একটি শান্ত ঘরে রেকর্ড করুন — জানালা বন্ধ করুন, ফ্যান বন্ধ করুন এবং প্রতিধ্বনি হওয়া শক্ত পৃষ্ঠ এড়িয়ে চলুন।
- মাইকের কাছে থাকুন — স্বাভাবিক বক্তৃতার জন্য ৬-১২ ইঞ্চি হল আদর্শ দূরত্ব।
- সম্ভব হলে ব্যাকগ্রাউন্ড মিউজিক এড়িয়ে চলুন — সঙ্গীত অনিবার্য হলে কী প্রত্যাশা করবেন সে সম্পর্কে SoundScript.AI কীভাবে ব্যাকগ্রাউন্ড মিউজিক বা শব্দ পরিচালনা করে? দেখুন।
প্রক্রিয়াকরণে সাধারণত কতক্ষণ লাগে?
বেশিরভাগ ফাইল কয়েক সেকেন্ড থেকে কয়েক মিনিটের মধ্যে সম্পন্ন হয়। একটি সাধারণ ১০ মিনিটের অডিও ফাইল সাধারণত ৩০ সেকেন্ডের কম সময়ে শেষ হয়।
25MB-এর বড় ফাইল স্বয়ংক্রিয়ভাবে টুকরোতে বিভক্ত হয়ে সমান্তরালভাবে প্রক্রিয়া হয়, তাই এক ঘণ্টার রেকর্ডিংও সাধারণত ২-৩ মিনিটে প্রস্তুত হয়। স্পিকার শনাক্তকরণ চালু করলে সামান্য বেশি সময় লাগে। প্রগ্রেস বার রিয়েল টাইমে আপডেট হয় — রিফ্রেশ করার কিছু নেই।
25MB-এর বড় ফাইলের ক্ষেত্রে কী হয়?
আমরা স্বয়ংক্রিয়ভাবে বড় ফাইল পর্দার আড়ালে ছোট টুকরোতে বিভক্ত করি, সমান্তরালভাবে ট্রান্সক্রাইব করি এবং ফলাফল একসাথে জোড়া লাগাই। আপনাকে কিছু করতে হবে না — শুধু স্বাভাবিকভাবে আপনার ফাইল আপলোড করুন।
সর্বোচ্চ আপলোড সাইজ 1GB। প্রতিটি টুকরো স্বাধীনভাবে প্রক্রিয়া করা হয়, তাই এক ঘণ্টার ফাইল মাত্র কয়েক মিনিটে প্রস্তুত হতে পারে। যেখানে সম্ভব টুকরোর সীমানা প্রাকৃতিক নীরবতায় রাখা হয়, যাতে মাঝখানে শব্দ না কাটে।
আমার ট্রান্সক্রিপশনে সঠিক নামে কেন ভুল থাকে?
সঠিক নাম — ব্যক্তির নাম, ব্র্যান্ডের নাম, প্রযুক্তিগত শব্দ, আদ্যক্ষর — ট্রান্সক্রিপশনের সবচেয়ে কঠিন অংশ কারণ এগুলো সাধারণ ভাষার নিয়ম মেনে চলে না। এমনকি দুর্দান্ত অডিওতেও নামের বানান ভুল হতে পারে।
কিছু জিনিস যা সাহায্য করে:
- অটো-ডিটেক্ট ব্যবহার না করে ভাষা স্পষ্টভাবে বেছে নিন।
- রেকর্ড করার সময় সঠিক নামগুলো পরিষ্কারভাবে বলুন, তার চারপাশে ছোট বিরতি দিন।
- পরে ট্রান্সক্রিপশন সম্পাদনা করুন — আপনি যেকোনো এডিটরে টেক্সট কপি করে ফাইন্ড-এন্ড-রিপ্লেস দিয়ে নাম ঠিক করতে পারেন। আমরা এখনও কাস্টম ভোকাবুলারি তালিকা সমর্থন করি না, তবে এটি আমাদের পরিকল্পনায় আছে।
আমি কি ট্রান্সক্রিপশন টেক্সট সম্পাদনা করতে পারি?
আপনি ফলাফল পেজ থেকে ট্রান্সক্রিপশন টেক্সট কপি করে যেকোনো টেক্সট এডিটর বা ওয়ার্ড প্রসেসরে সম্পাদনা করতে পারেন — Google Docs, Microsoft Word, Notepad, যা পছন্দ করেন।
আমাদের এখনও ইন-অ্যাপ এডিটর নেই, তাই SoundScript.AI-এর বাইরে করা পরিবর্তন আমাদের সার্ভারে সংরক্ষিত হয় না। মূল ট্রান্সক্রিপশন আপনার ড্যাশবোর্ডে থাকে, তাই আপনি সবসময় একটি নতুন কপি ডাউনলোড করতে পারবেন। সম্পাদনা করতে ও ফরম্যাটিং রাখতে চাইলে .doc বা .txt ডাউনলোড ফরম্যাট ব্যবহার করুন।
SRT ও TXT ডাউনলোড ফরম্যাট কীসের জন্য?
SRT হল মানক সাবটাইটেল ফরম্যাট — এতে টাইমস্ট্যাম্প থাকে যাতে প্রতিটি লাইনের টেক্সট আপনার ভিডিওতে সঠিক মুহূর্তে প্রদর্শিত হয়। YouTube, Vimeo, Premiere বা Final Cut-এর মতো ভিডিও এডিটর, বা যেকোনো সাবটাইটেল-সক্ষম প্লেয়ারের জন্য ব্যবহার করুন।
TXT হল টাইমস্ট্যাম্প ছাড়া সাদা টেক্সট — নথি, ব্লগ পোস্ট, ট্রান্সক্রাইব করা ইন্টারভিউ, বা যেখানে শুধু শব্দ চাই সেক্ষেত্রে আদর্শ। আমরা DOC (ফরম্যাট করা Word নথি) এবং PDF (মুদ্রণযোগ্য)-ও অফার করি — বিস্তারিতের জন্য TXT, DOC বা PDF হিসেবে কীভাবে ডাউনলোড করব? দেখুন।
SoundScript.AI কীভাবে ব্যাকগ্রাউন্ড মিউজিক বা শব্দ পরিচালনা করে?
আমরা সর্বোচ্চ চেষ্টা করি, কিন্তু ভারী ব্যাকগ্রাউন্ড মিউজিক বা শব্দ নির্ভুলতা কমিয়ে দেবে। হালকা পরিবেশ শব্দ (একটি শান্ত ক্যাফে, একটি চলমান ফ্যান) সাধারণত কোনো সমস্যা করে না। জোরে মিউজিক বা প্রতিযোগিতামূলক কণ্ঠস্বর সবচেয়ে কঠিন ক্ষেত্র।
ইন্ট্রো মিউজিকসহ ইন্টারভিউ-স্টাইল কন্টেন্টের জন্য, মিউজিক সাধারণত অসংলগ্ন টেক্সট হিসেবে ট্রান্সক্রাইব হয় বা বাদ যায়, তারপর বক্তৃতা শুরু হলে নির্ভুলতা ফিরে আসে। আপনি যদি আপনার অডিওর শুধু কথ্য অংশ রেকর্ড করতে পারেন (অথবা আগে থেকে Audacity-র মতো টুল দিয়ে মিউজিক বাদ দেন), নির্ভুলতা উল্লেখযোগ্যভাবে ভালো হবে।
এখনও সাহায্য দরকার?
আপনি যে উত্তরটি খুঁজছেন তা পাচ্ছেন না? SoundScript.AI বিনামূল্যে চেষ্টা করুন — কোনো ক্রেডিট কার্ডের প্রয়োজন নেই।
বিনামূল্যে চেষ্টা করুনঅথবা [email protected]-এ ইমেইল করুন