Teks Pengenalan Ucapan 3x Lebih Cepat Dari Yang Dapat Anda Ketik

Eksperimen Stanford menunjukkan pengenalan ucapan menulis teks lebih cepat dibandingkan jempol

Dikte komputer jauh lebih baik dibandingkan satu dekade yang lalu, namun seberapa jauh lebih baik? Itu adalah tantangan yang dihadapi para ilmuwan komputer dari Universitas Stanford, Universitas Washington, dan raksasa teknologi Tiongkok Baidu baru-baru ini melakukan eksperimen yang mengadu manusia dengan perangkat lunak pengenalan suara mutakhir dalam hal kecepatan dan ketepatan.

Profesor ilmu komputer Stanford James Landay mengatakan penelitian tersebut dimulai sebagai “percakapan di kedai kopi” antara dirinya dan asisten profesor Stanford Andrew Ng, saat ini menjadi kepala ilmuwan di Baidu. “Andrew mengatakan bahwa alat pengenalan suara Baidu menjadi sangat hebat, namun mereka tidak mengetahui eksperimen yang tepat untuk mengukurnya,” kata Landay kepada Digital Trends.

Video yang Direkomendasikan

Perangkat lunak pengenalan suara berbasis cloud Deep Speech 2 milik Baidu didasarkan pada jaringan saraf pembelajaran mendalam: alat pembelajaran mesin yang mengesankan yang mampu melatih dirinya sendiri dengan menganalisis kumpulan data nyata yang sangat besar pidato.

Terkait

  • A.I. dapat mengetahui apakah Anda seorang ahli bedah yang baik hanya dengan memindai otak Anda
  • A.I. peneliti menciptakan sistem pengenalan wajah untuk simpanse

“Sebelumnya, kami tidak memiliki data dan kemampuan komputasi untuk membangun model ini, sehingga komputer dapat memahami aksen dan pola bicara yang berbeda,” lanjut Landay.

Pada akhirnya, percakapan santai antara Landay dan Ng berubah menjadi eksperimen besar-besaran, yang melibatkan 32 peserta yang berbicara dalam bahasa Mandarin atau Inggris. Semua peserta sudah terbiasa berkirim pesan teks, dan keduanya menggunakan keyboard standar yang disertakan dengan iPhone.

Untuk penutur bahasa Inggris, ini berarti keyboard QWERTY iOS biasa, sedangkan penutur Mandarin menggunakan keyboard Pinyin Apple. Dalam kedua kasus tersebut, pengenalan ucapan sekitar tiga kali lebih cepat daripada kemampuan pengguna mengetik — dan terjadi kesalahan tingkat pengenalan suara bahasa Inggris adalah 20,4 persen lebih rendah, dan bahasa Mandarin adalah 63,4 persen lebih rendah setara.

“Harapan saya adalah pidato akan lebih cepat dibandingkan teks,” kata Landay. “Kami mengetahui hal ini, karena Anda dapat berbicara lebih cepat daripada mengetik. Masalahnya di masa lalu adalah Anda mendapatkan banyak kesalahan dalam pengenalan suara, dan ini memperlambat Anda. Saya pikir pidato akan terbukti lebih cepat. Apa yang tidak saya duga adalah kecepatannya menjadi tiga kali lebih cepat. Saya pikir mungkin kita akan mendapatkan 50 persen lebih cepat. Sebaliknya, itu lebih dari itu.”

Tentu saja tes ini tidak 100 persen komprehensif. Saat ini papan ketik seluler tercepat di dunia (setidaknya dalam bahasa Inggris) adalah papan ketik Fleksy pihak ketiga. Dalam Rekor Dunia Guinness 2014 untuk pengiriman pesan tercepat, pengguna dapat mengetik a Kalimat 126 huruf hanya dalam 18,44 detik. Namun, Landay mencatat bahwa penelitian ini memilih keyboard iPhone biasa karena memberikan indikasi yang baik tentang tipikal juru ketik. “Kebanyakan orang tidak meluangkan waktu untuk mempelajari keyboard alternatif,” katanya.

Mengenai arti penelitian ini, Landay berpendapat bahwa penelitian ini merupakan tolok ukur penting untuk pengenalan suara. “Masih ada ruang untuk perbaikan, tapi kami rasa titik perubahan telah terlewati,” katanya. “Peningkatan lebih lanjut akan terjadi dalam mengenali nama, bekerja lebih baik di lingkungan yang bising, dan lain-lain.”

Hal ini, katanya, membuka lebih banyak kemungkinan bagi pengembang untuk berpikir lebih serius tentang memasukkan pengenalan suara ke dalam sistem mereka tanpa khawatir. “Yang semakin masuk akal adalah mengandalkan ucapan,” katanya. “Misalnya, antarmuka multimoda yang menggabungkan ucapan dengan elemen lain untuk membantu orang bernavigasi. Tantangan terbesarnya adalah memahami arti dari kata dan kalimat. Bagian itu masih harus diselesaikan.”

Rekomendasi Editor

  • Menggunakan Alexa itu rumit jika Anda memiliki ketidakmampuan berbicara. Voiceitt bisa memperbaikinya
  • Perusahaan Tiongkok sedang mengerjakan pengenalan wajah yang dapat mengidentifikasi Anda di balik topeng
  • Gboard Google akan menjadi jauh lebih baik dalam pengenalan suara

Tingkatkan gaya hidup AndaTren Digital membantu pembaca mengawasi dunia teknologi yang bergerak cepat dengan semua berita terbaru, ulasan produk yang menyenangkan, editorial yang berwawasan luas, dan cuplikan unik.