
Suara Dalam 2, yang mengikuti debut publik Deep Voice awal tahun ini, dapat menghasilkan ucapan waktu nyata yang hampir tidak dapat dibedakan dari suara manusia. Yang lebih mengesankan lagi, hanya perlu tiga puluh menit audio untuk membuat model kerja, dan dapat meniru aksen daerah dari ratusan pembicara yang berbeda.
Video yang Direkomendasikan
Itu jauh lebih baik daripada versi awal Deep Voice, yang membutuhkan waktu berjam-jam untuk mempelajari satu suara.
Kuncinya adalah kemampuan Deep Voice 2 untuk mengidentifikasi kesamaan antara ratusan speaker berbeda untuk membangun model kerja suara manusia. Kemudian, ia secara mandiri memperoleh suara unik dari model tersebut — tidak seperti asisten suara seperti Apple Siri, yang memerlukan manusia merekam ribuan jam ucapan yang disetel oleh para insinyur dengan tangan, Deep Voice 2 tidak memerlukan panduan atau manual intervensi.

“Berikan data yang benar, dan ia dapat mempelajari sendiri fitur-fitur apa yang penting,” Andrew Gibiansky, seorang ilmuwan riset di Lab AI Lembah Silikon Baidu, mengatakan kepada The Verge.
Baidu bukan satu-satunya perusahaan yang berinvestasi dalam teknologi text-to-speech berkualitas tinggi. WaveNet Google, produk dari divisi DeepMind perusahaan, menghasilkan suara dengan mengambil sampel ucapan manusia nyata dan secara mandiri membuat suaranya sendiri dalam berbagai suara. Project VoCo Adobe mentranskripsi ucapan manusia menjadi teks yang dapat diedit secara real time. Dan Lyrebird, startup AI Kanada, melisensikan algoritme yang dapat meniru suara apa pun hanya dengan satu menit sampel audio, buat seribu kalimat dalam waktu kurang dari setengah detik, dan dapat meresapi ucapan yang dibuatnya dengan emosi seperti kemarahan, simpati, dan menekankan.
Tapi jangan berharap Deep Voice 2 atau WaveNet menggantikan Siri, itu Asisten Google, atau Amazon Alexa dalam waktu dekat — aplikasi terjemahan bertenaga AI membutuhkan lebih banyak sumber daya daripada yang dapat disediakan oleh ponsel saat ini secara wajar. Tapi Baidu melihat potensi dalam aplikasi seperti aplikasi text-to-speech dan asisten berbasis suara. “Kemampuan untuk mensintesis banyak suara manusia dengan cepat akan berdampak besar pada produk seperti asisten pribadi dan pembaca e-book di masa mendatang. Misalnya, setiap karakter eBuku Anda dapat memiliki suara unik saat Anda mendengarkan eBuku tersebut.”
Tingkatkan gaya hidup AndaTren Digital membantu pembaca mengawasi dunia teknologi yang bergerak cepat dengan semua berita terbaru, ulasan produk yang menyenangkan, editorial yang berwawasan, dan cuplikan unik.