KOMPAS.com - Raksasa teknologi Microsoft baru-baru ini meluncurkan teknologi kecerdasan buatan atau artificial intelligence (AI) yang menakjubkan.
Dinamai VALL-E, model AI ini disebut-sebut dapat menganalisis serta mereplikasi suara orang.
Menariknya lagi, VALL-E hanya memerlukan sampel rekaman 3 detik dari suara tertentu untuk menirunya.
Sebagai perbandingan, mayoritas model AI yang mereplikasi suara manusia biasanya membutuhkan input rekaman audio setidaknya 1 menit.
Proses pembuatan model VALL-E
Dalam mengembangkan VALL-E, para ilmuwan memanfaatkan perpustakaan audio bernama Libri-Light (dikumpulkan oleh Meta).
Perpustakaan audio itu memiliki 60 ribu jam pembicaraan bahasa Inggris oleh lebih dari 7.000 penutur.
Kemudian, mereka menggunakan rekaman tesebut untuk melatih VALL-E pada 60.000 jam data ucapan dalam bahasa Inggris.
Microsoft menyebut VALL-E sebagai model bahasa neural codec berdasarkan model serupa dari Meta yang menggunakan AI untuk menghasilkan mengubah teks menjadi suara atau audio (text to speech).
Beberapa suara yang dihasilkan VALL-E terkesan realistis, sedangkan yang lain tidak sesuai.
Pihak Microsoft berencana terus mengembangkan model VALL-E untuk meningkatkan akurasi dan pengucapan kata-kata tertentu.
Dampak negatif VALL-E
Meski potensi kecerdasan buatan ini sangat luas, Microsoft menyadari dampak negatif yang dapat dihasilkan VALL-E.
Maka dari itu, Microsoft hanya mempublikasikan kemampuan dan cara kerja model AI ini tanpa menyebarkan source code.
"Karena VALL-E dapat mensintesis ucapan yang memertahankan identitas pembicara, hal itu dapat membawa potensi risiko penyalahgunaan model, seperti memalsukan identifikasi suara atau meniru identitas," demikian keterangan Microsoft.
https://lifestyle.kompas.com/read/2023/01/14/184204720/teknologi-ai-microsoft-bisa-tirukan-suara-dalam-waktu-3-detik