A penelitian baru oleh para peneliti di Ilmu Komputer dan Kecerdasan Buatan Institut Teknologi Massachusetts Laboratory (CSAIL) menyarankan teknik baru untuk melatih sistem ini — dengan membuat sistem belajar melalui pengamatan gambar-gambar.
Video yang Direkomendasikan
“Ini adalah upaya untuk membuat mesin memerlukan pelatihan yang tidak terlalu diawasi untuk mempelajari bahasa lisan,” Jim Kaca, seorang ilmuwan peneliti senior di CSAIL, mengatakan kepada Digital Trends. “Cara konvensional untuk melatih sistem pengenalan suara adalah dengan menggunakan rekaman orang yang berbicara dan, untuk setiap ucapan, menyalin dengan tepat kata-kata yang diucapkan. Idealnya, Anda memiliki ratusan atau ribuan jam bicara agar sistem dapat bekerja dengan baik. Beberapa perusahaan terbesar yang melakukan hal ini – seperti Baidu dan Google – menggunakan puluhan ribu jam untuk pelatihan. Semakin banyak data beranotasi yang mereka miliki, semakin baik kinerja sistem ini.”
Jadi apa yang salah dengan itu? Seperti yang telah disebutkan, teknologi pengenalan suara terus menjadi lebih baik. Apa pun yang dilakukan ilmuwan komputer jelas berhasil.
Hal ini mungkin benar, namun pendekatan baru ini menarik karena beberapa alasan. Pertama, membuka kemampuan mesin untuk melatih dirinya memahami dengan melihat gabungan gambar dan audio (pada akhirnya, Anda bisa membayangkan pelatihannya dengan menonton YouTube) lebih dekat dengan cara kita belajar sebagai manusia makhluk.
Yang kedua – dan mungkin lebih penting lagi – adalah fakta bahwa teknologi ini dapat membantu menghadirkan pengenalan suara ke belahan dunia yang mungkin akan mendapatkan manfaat besar dari teknologi semacam ini.
“Data beranotasi mahal untuk diproduksi,” lanjut Glass. “Pengenalan ucapan telah berlangsung selama beberapa dekade dan sebagian besar ditujukan untuk bahasa-bahasa di negara-negara yang mampu berinvestasi pada sumber daya semacam ini. Dalam hal bahasa, biasanya bahasa yang digunakan adalah bahasa yang menurut perusahaan akan membantu mereka menghasilkan keuntungan. Bahasa Inggris mendapat perhatian paling besar sejauh ini, diikuti oleh bahasa-bahasa Eropa Barat, dan bahasa-bahasa lain seperti Jepang dan Mandarin. Masalahnya adalah ada sekitar 7.000 bahasa yang digunakan di dunia dan sekitar 300 bahasa digunakan oleh lebih dari 1 juta orang. Banyak di antaranya yang belum mendapat banyak perhatian – kalaupun ada.”
Di negara-negara yang tingkat melek hurufnya rendah, mudah untuk melihat bagaimana pengenalan suara bisa menjadi terobosan dalam menyediakan akses terhadap informasi bagi masyarakat. Semoga teknologi ini dapat membantu mencapai tujuan tersebut.
Meskipun penelitian ini menarik, Glass mencatat bahwa penelitian ini masih dalam tahap awal. Saat ini, para peneliti CSAIL telah melengkapi sistem mereka dengan database 1.000 gambar, masing-masing dengan deskripsi verbal bentuk bebas yang berhubungan dengan gambar tersebut. Mereka kemudian menguji sistem dengan memberikan rekaman dan memintanya mengambil 10 gambar yang paling sesuai dengan apa yang didengarnya.
Seiring berjalannya waktu, harapannya adalah bahwa pendekatan pengenalan ucapan tersebut akan meningkat efektivitasnya hingga pada titik di mana pelabelan data pelatihan ucapan yang melelahkan tidak lagi dianggap sebagai suatu keharusan.
Jika semuanya berjalan sesuai rencana, hal ini akan lebih baik bagi semua orang — baik Anda seorang penutur bahasa Inggris di AS atau penutur bahasa Xhosa di Afrika Selatan.
Rekomendasi Editor
- A.I. baru yang cerdas. sistem berjanji untuk melatih anjing Anda saat Anda jauh dari rumah
- Penelitian 'teduh' baru dari MIT menggunakan bayangan untuk melihat apa yang tidak bisa dilakukan kamera
- A.I. peneliti menciptakan sistem pengenalan wajah untuk simpanse
- MIT, A.I. dapat menghadirkan penghapusan latar belakang sekali klik, filter sosial
Tingkatkan gaya hidup AndaTren Digital membantu pembaca mengawasi dunia teknologi yang bergerak cepat dengan semua berita terbaru, ulasan produk yang menyenangkan, editorial yang berwawasan luas, dan cuplikan unik.