KOMPAS.com - Raksasa teknologi Microsoft baru-baru ini meluncurkan teknologi kecerdasan buatan atau artificial intelligence (AI) yang menakjubkan.
Dinamai VALL-E, model AI ini disebut-sebut dapat menganalisis serta mereplikasi suara orang.
Menariknya lagi, VALL-E hanya memerlukan sampel rekaman 3 detik dari suara tertentu untuk menirunya.
Sebagai perbandingan, mayoritas model AI yang mereplikasi suara manusia biasanya membutuhkan input rekaman audio setidaknya 1 menit.
Dalam mengembangkan VALL-E, para ilmuwan memanfaatkan perpustakaan audio bernama Libri-Light (dikumpulkan oleh Meta).
Perpustakaan audio itu memiliki 60 ribu jam pembicaraan bahasa Inggris oleh lebih dari 7.000 penutur.
Kemudian, mereka menggunakan rekaman tesebut untuk melatih VALL-E pada 60.000 jam data ucapan dalam bahasa Inggris.
Microsoft menyebut VALL-E sebagai model bahasa neural codec berdasarkan model serupa dari Meta yang menggunakan AI untuk menghasilkan mengubah teks menjadi suara atau audio (text to speech).
Beberapa suara yang dihasilkan VALL-E terkesan realistis, sedangkan yang lain tidak sesuai.
Surprised there isn't more chatter around VALL-E
This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice ????
Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
— Steven Tey (@steventey) January 9, 2023
Agar replikasi suara bisa akurat, sampel suara yang dimasukkan ke dalam sistem harus terdengar agak mendekati salah satu suara dari koleksi suara di Libri-Light.
Tulis komentarmu dengan tagar #JernihBerkomentar dan menangkan e-voucher untuk 90 pemenang!
Syarat & KetentuanPeriksa kembali dan lengkapi data dirimu.
Data dirimu akan digunakan untuk verifikasi akun ketika kamu membutuhkan bantuan atau ketika ditemukan aktivitas tidak biasa pada akunmu.
Segera lengkapi data dirimu untuk ikutan program #JernihBerkomentar.