লেখা থেকে মিউজিক তৈরি করছে গুগলের এআই টুল MusicLM

MusicLM নামে নতুন একটি জেনারেটিভ এআই মডেল ঘোষণা করেছে গুগল যা টেক্সট ডেসক্রিপশন থেকে ২৪কিলোহার্জ মিউজিক্যাল অডিও তৈরী করতে পারে। যেমনঃ আপনি যদি এই এআই মডেলে “a calming violin melody backed by a distorted guitar riff” লিখে সার্চ করেন তবে কয়েক মিনিটের মধ্যে এই প্রম্পটের উপর ভিত্তি করে মিউজিক শুনতে পারবেন।

মূলত অনেকগুলো মিউজিক এর ডাটাসেট ব্যবহার করে এই এআই মডেলকে ট্রেইন করেছে গুগল। এছাড়া MusicCaps হলো একটি ডাটাসেট যা ৫,৫২১ মিউজিক-টেক্সট-পেয়ার ব্যবহার করে। MusicCaps এর অডিও ক্লিপগুলো আসে গুগল এর অডিওসেট ও ২মিলিয়ন ইউটিউব ভিডিও থেকে ১০-সেকেন্ড সাউন্ড ক্লিপ থেকে।

MusicLM দুইটি অংশে কাজ করে – প্রথমে এটি একটি অডিও টোকেন এর সিকোয়েন্স নেয় ও এটিকে সেমেন্টিক টোকেনে পরিণত করে করে ট্রেনিং করে। পরবর্তী ধাপ ইউজার ক্যাপশন ও অডিও ইনপুট দিয়ে জেনারেশন প্রসেসর শুরু করা। এই পুরা প্রক্রিয়া মূলত পূর্বে তৈরী গুগলের এক এআই মডেল AudioLM এর উপর ভিত্তি করে তৈরী। এছাড়া SoundStrean ও MuLan এর মত কম্পোনেন্টও এখানে ব্যবহৃত হয়েছে।

গুগল জানিয়েছে পূর্ববর্তী সকল এআই মিউজিক জেনারেটরকে অডিও কোয়ালিটি ও টেক্সট ডেসক্রিপশনের বিচারে টেক্কা দিবে MusicLM। MusicLM ডেমনস্ট্রেশন পেজে গুগল এই এআই মডেলের দ্বারা জেনারেট করা অনেক উদাহরণ রয়েছে। এসব জেনারেটেড মিউজিক এর সাথে রয়েছে অসাধারণ সব টেক্সট ডেসক্রিপশন রয়েছে যেগুলো থেকে এসব মিউজিক তৈরী হয়েছে। এছাড়া কিছু উদাহরণে ভোকালও রয়েছে, তবে এগুলো এখনো তেমন একটা উন্নত নয়। নিচে একটি এমন টেক্সট উদাহরণ দেওয়া হলো:

“Slow tempo, bass-and-drums-led reggae song. Sustained electric guitar. High-pitched bongos with ringing tones. Vocals are relaxed with a laid-back feel, very expressive”

google

🔥🔥 গুগল নিউজে বাংলাটেক সাইট ফলো করতে এখানে ক্লিক করুন তারপর ফলো করুন 🔥🔥

এছাড়াও MusicLM এর জেনারেশন ক্যাপাবিলিটি শো-অফ করতে ছোট একটি প্রম্পট থেকে ৫মিনিটের মিউজিক তৈরী করে দেখায়। মোটামুটি ইমেজ ক্যাপশন ব্যবহার করে তার সাথে মিলিয়ে মিউজিক জেনারেট করা যাবে এই নতুন এআই এর সাহায্যে।

MusicLM এর উদাহরণ পেজে MusicLM এর কোনো নির্দিষ্ট ইন্ট্রুমেন্ট, যেমন: বাঁশি, সেলো, গিটার, ইত্যাদি রিক্রিয়েট করার ক্ষমতা সম্পর্কে জানায়। বিভিন্ন স্থান, ধরন ও সময় হিসেব করে মিউজিক জেনারেট করতে পারবে MusicLM।

এআই-জেনারেটেড মিউজিক এর ধারণা কিন্তু নতুন নয়। এর আগেও এই ধরনের অনেক রকম মিউজিক জেনারেটর আমরা দেখেছি, তবে গুগল এর মত কাছাকাছি এখনো কোনো কোম্পানি আসতে পারেনি এই কাজে। Riffusion নামে একটি এআই প্রজেক্ট একইভাবে টেক্সট ডেসক্রিপশন থেকে মিউজিক তৈরীর ক্ষমতা দেখায়। গুগল তাদের MusicLM এর একাডেমিক পেপারে উক্ত টুল এর উল্লেখ করে ও জানায় নতুন টুলটি আগের সেটিকে ছাড়িয়ে যাবে সব ক্ষেত্রেই।

MusicLM এর পেপারে গুগল এই নতুন এআই এর সমস্যাগুলোও তুলে ধরে। সেসব বিষয় বিবেচনা করে আপাতত এই মডেলের মুক্তির কোনো পরিকল্পনা নেই গুগলের। ইতিমধ্যে গুগল এর রিসার্চারগণ এই প্রযুক্তির ভবিষ্যৎ উন্নতি নিয়ে বেশ আশাবাদী। আপাতত লিরিক জেনারেশন ও স্যাম্পল জেনারেশন আরো উন্নত করা আসল উদ্দেশ্য। তবে আপাতত মিউজিশিয়ানদের চাকরি নিয়ে ভাবার কোনো কারণ নেই, কারণ এই প্রযুক্তি সম্পূর্ণভাবে মানুষের ন্যায় উন্নত হতে অনেক পথ পাড়ি দেওয়া বাকি।

📌 পোস্টটি শেয়ার করুন! 🔥

সর্বশেষ প্রযুক্তি বিষয়ক তথ্য সরাসরি আপনার ইমেইলে পেতে ফ্রি সাবস্ক্রাইব করুন!

Join 8,569 other subscribers

Leave a Reply

Your email address will not be published. Required fields are marked *