Jakarta, PCplus – Meta membuka kode sumber AudioCraft, sebuah rangkaian alat AI generatif untuk membuat musik dan audio dari teks. Dengan aplikasi ini, para pembuat konten dapat memasukkan deskripsi teks sederhana untuk menghasilkan lanskap audio yang kompleks, menggubah melodi, atau bahkan mensimulasikan orkestra virtual lengkap.
Baca Juga: Meta Akan Buat Saingan Twitter
AudioCraft terdiri dari tiga komponen utama. AudioGen, aplikasi untuk menghasilkan berbagai efek audio dan suara latar. MusicGen, yang dapat menciptakan komposisi musik dan melodi dari deskripsi. Dan EnCodec, sebuah codec kompresi audio berbasis jaringan saraf.
Pembuat musik serba pintar
Informasi dari Meta mengatakan bahwa EnCodec di aplikasi ini, telah ditingkatkan. Pembaruan ini bisa menghasilkan musik berkualitas tinggi dengan lebih sedikit artefak. Selain itu, AudioGen dapat membuat efek audio dan suara latar seperti anjing menggonggong, klakson mobil, atau langkah kaki di lantai kayu.
Lebih menarik lagi, MusicGen dapat membuat lagu-lagu dari berbagai genre, seperti lagu dansa pop dengan melodi yang menarik, perkusi tropis, dan irama yang ceria. Untuk memudahkan, Meta juga menyediakan beberapa sampel audio di situs web mereka untuk evaluasi. Hasilnya cukup bagus. Meskipun belum bisa menggantikan efek audio atau musik komersial yang diproduksi secara profesional.
Dari catatan Meta, model AI generatif yang berpusat pada teks dan gambar diam saat ini telah mendapat banyak perhatian. Sayangnya beberapa aplikasi di luar sana masih sangat rumit dan tidak terbuka. Sehingga tidak semua orang dapat dengan mudah bermain dengannya. Rilis AudioCraft di bawah Lisensi MIT ini diharapkan akan memberikan kontribusi bagi komunitas luas dengan menyediakan alat yang mudah diakses untuk eksperimen audio dan musik.
Bukan yang pertama
Meta sendiri bukalah perusahaan pertama yang mencoba membuat aplikasi berbasis AI untuk menghasilkan musik dan audio. Aplikasi musik AI lain seperti Jukebox dari OpenAI, MusicLM dari Google, dan Riffusion dari sebuah tim peneliti independen sudah memiliki basis pengguna yang kuat. Ketiga alat ini dapat menciptakan lagu-lagu dari teks deskripsi dengan kualitas yang berbeda-beda. Jukebox menggunakan jaringan saraf transformer untuk menyamakan gaya musik dan vokal dengan artis tertentu. Sementara mampu MusicLM mengubah proses pembuatan musik menjadi tugas pemodelan hirarkis. Ia juga dapat menghasilkan musik dengan frekuensi sampel 24 kHz yang konsisten selama beberapa menit. Lain lagi dengan Riffusion. Aplikasi pintar ini menggunakan teknik difusi stabil untuk membuat musik dan audio secara real-time dengan kualitas tinggi.