Bisakah A.I. Membantu Memecahkan Misteri Bahasa yang Hilang?

Francesco Riccardo Iacomino/Getty Images

Ada banyak hal yang membedakan manusia dengan spesies lainnya, namun salah satu yang terpenting adalah bahasa. Kemampuan untuk merangkai berbagai elemen dalam kombinasi yang pada dasarnya tak terbatas adalah suatu sifat yang “di masa lalu sering dianggap sebagai ciri utama manusia modern, sumber kreativitas manusia, pengayaan budaya, dan struktur sosial yang kompleks,” seperti yang pernah dikatakan oleh ahli bahasa Noam Chomsky dikatakan.

Isi

  • Membangkitkan orang mati (bahasa)
  • Masa depan

Namun, meskipun bahasa penting dalam evolusi manusia, masih banyak yang belum kita ketahui tentang bagaimana bahasa berevolusi. Meskipun bahasa-bahasa mati seperti bahasa Latin memiliki banyak catatan tertulis dan turunan yang dapat kita gunakan untuk memahaminya dengan lebih baik, beberapa bahasa telah hilang dari sejarah.

Video yang Direkomendasikan

Para peneliti telah mampu merekonstruksi beberapa bahasa yang hilang, namun proses untuk menguraikannya bisa memakan waktu lama. Misalnya, aksara kuno Linear B “terpecahkan” lebih dari setengah abad setelah penemuannya, dan beberapa orang yang mengerjakannya tidak dapat hidup untuk melihat pekerjaan tersebut selesai. Aksara tua yang disebut Linear A, sistem penulisan peradaban Minoa, masih belum terpecahkan.

Terkait

  • Penghargaan Tech For Change CES 2023 dari Tren Digital
  • Rumus lucunya: Mengapa humor yang dihasilkan mesin adalah cawan suci A.I.
  • Bacalah 'kitab suci sintetik' yang sangat indah dari A.I. yang berpikir itu adalah Tuhan

Namun, ahli bahasa modern memiliki alat yang ampuh: Kecerdasan buatan. Dengan melatih A.I. untuk menemukan pola dalam bahasa yang belum terbaca, peneliti dapat merekonstruksinya, sehingga mengungkap rahasia dunia kuno. Sebuah pendekatan saraf baru yang dilakukan oleh para peneliti di Massachusetts Institute of Technology (MIT) baru-baru ini sudah menunjukkan keberhasilan dalam menguraikan Linear B, dan suatu hari nanti bisa mengarah pada penyelesaian kehilangan lainnya bahasa.

Membangkitkan orang mati (bahasa)

Sama seperti menguliti kucing, ada lebih dari satu cara untuk memecahkan kode bahasa yang hilang. Dalam beberapa kasus, bahasa tersebut tidak memiliki catatan tertulis, sehingga ahli bahasa mencoba merekonstruksinya dengan menelusuri evolusi bunyi melalui keturunannya. Demikian halnya dengan Proto-Indo-Eropa, nenek moyang hipotetis berbagai bahasa di Eropa dan Asia.

Dalam kasus lain, para arkeolog menemukan catatan tertulis, seperti kasus Linear B. Setelah para arkeolog menemukan tablet di Pulau Kreta, para peneliti menghabiskan waktu puluhan tahun untuk memikirkan tulisan-tulisan tersebut, hingga akhirnya mampu menguraikannya. Sayangnya, hal ini saat ini tidak mungkin dilakukan dengan Linear A, karena peneliti tidak memiliki sumber bahan yang cukup untuk dipelajari. Tapi itu mungkin tidak diperlukan.

Namun bahasa Inggris dan Prancis adalah bahasa yang hidup dengan budaya yang tumpang tindih selama berabad-abad. Mengartikan bahasa yang hilang jauh lebih rumit.

Sebuah proyek yang dilakukan oleh para peneliti di MIT menggambarkan kesulitan penguraian, serta potensi A.I. untuk merevolusi bidang ini. Para peneliti mengembangkan pendekatan saraf untuk mengartikan bahasa yang hilang “didasarkan pada pola perubahan bahasa yang didokumentasikan dalam linguistik historis.” Sebagaimana dirinci dalam makalah tahun 2019, sedangkan A.I. karena mengartikan bahasa harus disesuaikan dengan bahasa tertentu, yang satu ini tidak.

“Jika Anda melihat penerjemah atau produk terjemahan yang tersedia secara komersial,” kata Jiaming Luo, pemimpinnya penulis di atas kertas, “semua teknologi ini memiliki akses ke sejumlah besar hal yang kami sebut paralel data. Anda bisa menganggapnya sebagai Batu Rosetta, tetapi dalam jumlah yang sangat besar.”

Korpus paralel adalah kumpulan teks dalam dua bahasa berbeda. Bayangkan, misalnya, serangkaian kalimat dalam bahasa Inggris dan Perancis. Bahkan jika Anda tidak tahu bahasa Prancis, dengan membandingkan dua kumpulan dan mengamati polanya, Anda dapat memetakan kata-kata dalam satu bahasa ke kata-kata yang setara di bahasa lain.

“Jika Anda melatih manusia untuk melakukan hal ini, jika Anda melihat 40 juta lebih kalimat paralel,” Luo menjelaskan, “Saya yakin Anda akan mampu menemukan terjemahannya.”

Namun bahasa Inggris dan Prancis adalah bahasa yang hidup dengan budaya yang tumpang tindih selama berabad-abad. Mengartikan bahasa yang hilang jauh lebih rumit.

“Kami tidak memiliki data paralel yang mewah,” Luo menjelaskan. “Jadi kita harus mengandalkan pengetahuan linguistik tertentu tentang bagaimana bahasa berevolusi, bagaimana kata-kata berevolusi menjadi turunannya.”

Penguraian Saraf/MIT

Untuk membuat model yang dapat digunakan terlepas dari bahasa yang digunakan, tim menetapkan batasan berdasarkan tren yang dapat diamati melalui evolusi bahasa.

“Kita harus mengandalkan dua tingkat wawasan linguistik,” kata Luo. “Salah satunya adalah pada level karakter, yang kita tahu bahwa ketika kata-kata berevolusi, biasanya kata-kata tersebut berevolusi dari kiri ke kanan. Anda dapat menganggap evolusi ini seperti sebuah string. Jadi mungkin string dalam bahasa Latin adalah ABCDE yang kemungkinan besar Anda akan mengubahnya menjadi ABD atau ABC, Anda tetap mempertahankan urutan aslinya. Itu yang kami sebut monoton.”

Pada tingkat kosa kata (kata-kata yang membentuk suatu bahasa), tim menggunakan teknik yang disebut “pemetaan satu-ke-satu.”

“Artinya, jika Anda mengeluarkan seluruh kosakata bahasa Latin dan mengeluarkan seluruh kosakata bahasa Italia, Anda akan melihat semacam pencocokan satu-ke-satu,” Luo menawarkan sebagai contoh. “Kata Latin untuk 'anjing' mungkin akan berkembang menjadi kata Italia untuk 'anjing' dan kata Latin untuk 'kucing' mungkin akan berkembang menjadi kata Italia untuk 'kucing'.”

Untuk menguji model tersebut, tim menggunakan beberapa kumpulan data. Mereka menerjemahkan bahasa kuno Ugaritik ke bahasa Ibrani, Linear B ke bahasa Yunani, dan untuk memastikan kemanjuran model tersebut, melakukan deteksi serumpun (kata-kata dengan nenek moyang yang sama) dalam bahasa Romawi, Spanyol, Italia, dan Portugis.

Ini adalah upaya pertama yang diketahui untuk menguraikan Linear B secara otomatis, dan model tersebut berhasil menerjemahkan 67,3% bahasa serumpun. Sistem ini juga ditingkatkan dari model sebelumnya untuk menerjemahkan bahasa Ugaritik. Mengingat bahasa-bahasa tersebut berasal dari rumpun yang berbeda, hal ini menunjukkan bahwa model ini fleksibel dan lebih akurat dibandingkan sistem sebelumnya.

Masa depan

Linear A tetap menjadi salah satu misteri besar bahasa, dan memecahkan kacang kuno itu akan menjadi a prestasi luar biasa bagi A.I. Untuk saat ini, kata Luo, hal seperti itu sepenuhnya bersifat teoritis, bagi pasangan alasan.

Pertama, Linear A menawarkan jumlah data yang lebih kecil daripada Linear B. Ada juga masalah mencari tahu jenis skrip Linear A apa itu.

“Menurut saya, tantangan unik untuk Linear A adalah Anda memiliki banyak karakter atau simbol bergambar atau logografis,” kata Luo. “Dan biasanya jika Anda memiliki banyak simbol-simbol ini, itu akan menjadi jauh lebih sulit.”

Gambar Merek X/Getty Images

Sebagai contoh, Luo membandingkan bahasa Inggris dan Cina.

“Bahasa Inggris memiliki 26 huruf jika Anda tidak menghitung kapitalisasi, dan bahasa Rusia memiliki 33 huruf. Ini disebut sistem alfabet. Jadi Anda hanya perlu memikirkan peta untuk 26 atau 30 karakter ini,” katanya.

“Tetapi bagi warga Tiongkok, Anda harus berurusan dengan ribuan dari mereka,” lanjutnya. “Saya kira perkiraan jumlah minimal karakter yang harus dikuasai hanya dengan membaca koran adalah sekitar 3.000 atau 5.000. Linear A bukan bahasa Cina, tapi karena simbol gambar atau logografisnya dan sejenisnya, ini pasti lebih sulit daripada Linear B.”

Meskipun Linear A masih belum dapat diuraikan, keberhasilan pendekatan penguraian saraf baru MIT telah berhasil menguraikan Linear B secara otomatis, melampaui kebutuhan akan korpus paralel, adalah hal yang menjanjikan tanda.

Rekomendasi Editor

  • AI mengubah Breaking Bad menjadi anime — dan itu menakutkan
  • AI Analog? Kedengarannya gila, tapi mungkin itu adalah masa depan
  • Inilah analisis tren A.I. menurutnya akan menjadi hal besar berikutnya dalam bidang teknologi
  • Masa depan A.I.: 4 hal besar yang harus diperhatikan dalam beberapa tahun ke depan
  • Arsitektur algoritmik: Haruskah kita membiarkan A.I. merancang bangunan untuk kami?