สามารถเอไอ ช่วยไขความลึกลับของภาษาที่สูญหายเหรอ?

รูปภาพฟรานเชสโก ริกคาร์โด้ ไออาโคมิโน/Getty

มีหลายสิ่งที่ทำให้มนุษย์แตกต่างจากสายพันธุ์อื่น แต่สิ่งที่สำคัญที่สุดอย่างหนึ่งคือภาษา ความสามารถในการรวมองค์ประกอบต่างๆ เข้าด้วยกันเป็นชุดค่าผสมที่ไม่มีที่สิ้นสุดเป็นคุณลักษณะที่ “บ่อยครั้งในอดีตถือว่าเป็น ลักษณะสำคัญที่กำหนดลักษณะของมนุษย์สมัยใหม่ แหล่งที่มาของความคิดสร้างสรรค์ของมนุษย์ การเสริมสร้างวัฒนธรรม และโครงสร้างทางสังคมที่ซับซ้อน” ดังที่นักภาษาศาสตร์ Noam Chomsky เคยกล่าวไว้ พูดว่า.

สารบัญ

  • การฟื้นคืนชีพของคนตาย (ภาษา)
  • อนาคต

แต่สิ่งที่สำคัญพอๆ กับภาษาก็คือในวิวัฒนาการของมนุษย์ ยังมีอีกมากที่เราไม่รู้ว่าภาษามีวิวัฒนาการไปอย่างไร แม้ว่าภาษาที่ตายไปแล้วอย่างละตินจะมีบันทึกที่เป็นลายลักษณ์อักษรและลูกหลานมากมายซึ่งเราสามารถเข้าใจได้ดีขึ้น แต่บางภาษาก็สูญหายไปในประวัติศาสตร์

วิดีโอแนะนำ

นักวิจัยสามารถสร้างภาษาที่สูญหายบางส่วนขึ้นมาใหม่ได้ แต่กระบวนการถอดรหัสอาจใช้เวลานาน ตัวอย่างเช่น อักษรโบราณ Linear B ได้รับการ "แก้ไข" กว่าครึ่งศตวรรษหลังจากการค้นพบ และบางคนที่ทำงานเกี่ยวกับสคริปต์นั้นไม่ได้มีชีวิตอยู่เพื่อดูงานเสร็จสมบูรณ์ สคริปต์เก่าที่เรียกว่า Linear A ซึ่งเป็นระบบการเขียนของอารยธรรม Minoan ยังคงไม่ได้รับการถอดรหัส

ที่เกี่ยวข้อง

  • รางวัลเทคโนโลยีเพื่อการเปลี่ยนแปลงของ Digital Trends CES 2023
  • สูตรตลก: ทำไมอารมณ์ขันที่สร้างโดยเครื่องจักรจึงเป็นจอกศักดิ์สิทธิ์ของ A.I.
  • อ่าน 'พระคัมภีร์สังเคราะห์' ที่สวยงามน่าขนลุกของ A.I. ที่คิดว่าเป็นพระเจ้า

อย่างไรก็ตาม นักภาษาศาสตร์สมัยใหม่มีเครื่องมืออันทรงพลังในการกำจัด: ปัญญาประดิษฐ์ โดยการฝึก A.I. เพื่อค้นหารูปแบบในภาษาที่ยังไม่ได้ถอดรหัส นักวิจัยสามารถสร้างมันขึ้นมาใหม่ เพื่อไขความลับของโลกยุคโบราณ วิธีการทางประสาทแบบใหม่ล่าสุดโดยนักวิจัยจากสถาบันเทคโนโลยีแมสซาชูเซตส์ (MIT) แสดงให้เห็นความสำเร็จในการถอดรหัส Linear B แล้ว และวันหนึ่งอาจนำไปสู่การแก้ไขปัญหาอื่นๆ ที่สูญหายไป ภาษา

การฟื้นคืนชีพของคนตาย (ภาษา)

เช่นเดียวกับการถลกหนังแมว มีวิธีถอดรหัสภาษาที่สูญหายได้มากกว่าหนึ่งวิธี ในบางกรณี ภาษานั้นไม่มีบันทึกเป็นลายลักษณ์อักษร ดังนั้นนักภาษาศาสตร์จึงพยายามสร้างภาษาขึ้นมาใหม่โดยการติดตามวิวัฒนาการของเสียงผ่านทางลูกหลานของมัน เช่นเดียวกันกับกรณีของอินโด-ยูโรเปียนดั้งเดิม ซึ่งเป็นบรรพบุรุษสมมุติของภาษาต่างๆ มากมายทั่วยุโรปและเอเชีย

ในกรณีอื่นๆ นักโบราณคดีค้นพบบันทึกที่เป็นลายลักษณ์อักษร ซึ่งเป็นกรณีของ Linear B หลังจากที่นักโบราณคดีค้นพบแท็บเล็ตบนเกาะครีต นักวิจัยใช้เวลาหลายทศวรรษในการไขปริศนาข้อเขียนเหล่านี้ และในที่สุดก็ถอดรหัสได้ น่าเสียดายที่ปัจจุบันไม่สามารถทำได้ด้วย Linear A เนื่องจากนักวิจัยไม่มีแหล่งข้อมูลให้ศึกษามากนัก แต่นั่นอาจไม่จำเป็น

แต่ภาษาอังกฤษและฝรั่งเศสเป็นภาษาที่มีชีวิตซึ่งมีวัฒนธรรมที่ทับซ้อนกันมานานหลายศตวรรษ การถอดรหัสภาษาที่สูญหายนั้นยากกว่ามาก

โครงการโดยนักวิจัยจาก MIT แสดงให้เห็นถึงความยากลำบากในการถอดรหัส รวมถึงศักยภาพของ A.I. เพื่อปฏิวัติวงการ นักวิจัยได้พัฒนาแนวทางประสาทในการถอดรหัสภาษาที่สูญหาย "ได้รับแจ้งจากรูปแบบการเปลี่ยนแปลงภาษาที่บันทึกไว้ในภาษาศาสตร์ประวัติศาสตร์" ตามรายละเอียดใน กระดาษปี 2019ในขณะที่ A.I. ก่อนหน้านี้ สำหรับการถอดรหัสภาษาต้องได้รับการปรับให้เหมาะกับภาษาใดภาษาหนึ่งโดยเฉพาะ แต่ภาษานี้ไม่ได้เป็นเช่นนั้น

“หากคุณลองดูนักแปลหรือผลิตภัณฑ์การแปลที่มีขายทั่วไป” Jiaming Luo หัวหน้าทีมกล่าว ผู้เขียนรายงานกล่าวว่า “เทคโนโลยีทั้งหมดเหล่านี้สามารถเข้าถึงสิ่งที่เราเรียกว่าขนานกันจำนวนมาก ข้อมูล. คุณสามารถมองพวกมันเป็น Rosetta Stones แต่ในปริมาณที่มาก”

คลังข้อมูลคู่ขนานคือชุดของข้อความในสองภาษาที่แตกต่างกัน ลองนึกภาพชุดประโยคทั้งภาษาอังกฤษและภาษาฝรั่งเศส แม้ว่าคุณจะไม่รู้จักภาษาฝรั่งเศส แต่ด้วยการเปรียบเทียบทั้งสองชุดและการสังเกตรูปแบบ คุณสามารถเชื่อมโยงคำในภาษาหนึ่งเข้ากับคำที่เทียบเท่ากันในอีกภาษาหนึ่งได้

“ถ้าคุณฝึกมนุษย์ให้ทำเช่นนี้ ถ้าคุณเห็นประโยคคู่ขนานมากกว่า 40 ล้านประโยค” Luo อธิบาย “ฉันมั่นใจว่าคุณจะสามารถคิดคำแปลได้”

แต่ภาษาอังกฤษและฝรั่งเศสเป็นภาษาที่มีชีวิตซึ่งมีวัฒนธรรมที่ทับซ้อนกันมานานหลายศตวรรษ การถอดรหัสภาษาที่สูญหายนั้นยากกว่ามาก

“เราไม่มีข้อมูลคู่ขนานที่หรูหราขนาดนั้น” Luo อธิบาย “ดังนั้นเราจึงต้องพึ่งพาความรู้ทางภาษาเฉพาะบางประการเกี่ยวกับวิธีการพัฒนาภาษา และวิธีที่คำต่างๆ พัฒนาไปสู่ลูกหลานของพวกเขา”

การถอดรหัสประสาท/MIT

เพื่อสร้างแบบจำลองที่สามารถใช้งานได้โดยไม่คำนึงถึงภาษาที่เกี่ยวข้อง ทีมงานได้กำหนดข้อจำกัดตามแนวโน้มที่สามารถสังเกตได้ผ่านวิวัฒนาการของภาษา

“เราต้องอาศัยข้อมูลเชิงลึกสองระดับเกี่ยวกับภาษาศาสตร์” Luo กล่าว “สิ่งหนึ่งอยู่ที่ระดับตัวละคร ซึ่งก็คือทั้งหมดที่เรารู้กันว่าเมื่อคำต่างๆ พัฒนาขึ้น มักจะวิวัฒนาการจากซ้ายไปขวา คุณสามารถนึกถึงวิวัฒนาการนี้เหมือนกับเชือก ดังนั้นบางทีสตริงในภาษาละตินอาจเป็น ABCDE ซึ่งเป็นไปได้มากว่าคุณจะเปลี่ยนเป็น ABD หรือ ABC คุณยังคงรักษาลำดับดั้งเดิมไว้ นั่นคือสิ่งที่เราเรียกว่าน่าเบื่อ”

ในระดับคำศัพท์ (คำที่ประกอบขึ้นเป็นภาษา) ทีมงานใช้เทคนิคที่เรียกว่า "การทำแผนที่แบบหนึ่งต่อหนึ่ง"

“นั่นหมายความว่าถ้าคุณดึงคำศัพท์ภาษาละตินทั้งหมดออกมาและดึงคำศัพท์ภาษาอิตาลีทั้งหมดออกมา คุณจะเห็นการจับคู่แบบตัวต่อตัว” Luo เสนอเป็นตัวอย่าง “คำภาษาละตินสำหรับ 'สุนัข' อาจจะพัฒนาเป็นคำภาษาอิตาลีสำหรับ 'สุนัข' และคำภาษาละตินสำหรับ 'แมว' อาจจะพัฒนาเป็นคำภาษาอิตาลีสำหรับ 'แมว'”

เพื่อทดสอบโมเดลนี้ ทีมงานได้ใช้ชุดข้อมูลจำนวนหนึ่ง พวกเขาแปลภาษาโบราณ Ugaritic เป็นภาษาฮีบรู, Linear B เป็นภาษากรีก และเพื่อยืนยันประสิทธิภาพของแบบจำลอง ดำเนินการตรวจจับสายเลือด (คำที่มีบรรพบุรุษร่วมกัน) ในภาษาโรมานซ์ สเปน อิตาลี และ โปรตุเกส

นี่เป็นความพยายามครั้งแรกที่ทราบในการถอดรหัส Linear B โดยอัตโนมัติ และโมเดลสามารถแปล cognates ได้สำเร็จ 67.3% ระบบยังได้รับการปรับปรุงให้ดีขึ้นจากรุ่นก่อนๆ สำหรับการแปลภาษาอูการิติก เนื่องจากภาษามาจากตระกูลที่แตกต่างกัน จึงแสดงให้เห็นว่าแบบจำลองมีความยืดหยุ่น และมีความแม่นยำมากกว่าระบบก่อนหน้านี้

อนาคต

Linear A ยังคงเป็นหนึ่งในปริศนาที่ยิ่งใหญ่ของภาษา และการถอดรหัสถั่วโบราณนั้นจะเป็น a ความสำเร็จอันน่าทึ่งของ A.I. สำหรับตอนนี้ Luo กล่าวว่าบางสิ่งเช่นนั้นถือเป็นเรื่องเชิงทฤษฎีทั้งหมดสำหรับคู่รัก เหตุผล

ประการแรก Linear A นำเสนอข้อมูลในปริมาณที่น้อยกว่าแม้แต่ Linear B ก็ตาม นอกจากนี้ยังมีเรื่องของการค้นหาว่าสคริปต์ Linear A เป็นประเภทใด

“ฉันจะบอกว่าความท้าทายที่ไม่เหมือนใครสำหรับ Linear A ก็คือคุณมีตัวละครหรือสัญลักษณ์ที่เป็นรูปภาพหรือโลโก้จำนวนมาก” Luo กล่าว “และโดยปกติเมื่อคุณมีสัญลักษณ์เหล่านี้จำนวนมาก มันจะยากขึ้นมาก”

รูปภาพแบรนด์ X รูปภาพ / Getty

ตัวอย่างเช่น Luo เปรียบเทียบภาษาอังกฤษกับภาษาจีน

“ภาษาอังกฤษมี 26 ตัวอักษร ถ้าคุณไม่นับการใช้อักษรตัวพิมพ์ใหญ่ และภาษารัสเซียมี 33 ตัว” สิ่งเหล่านี้เรียกว่าระบบตัวอักษร ดังนั้นคุณแค่ต้องหาแผนที่สำหรับตัวละคร 26 หรือ 30 ตัวนี้” เขากล่าว

“แต่สำหรับคนจีน คุณต้องจัดการกับพวกเขาหลายพันคน” เขากล่าวต่อ “ฉันคิดว่าการประมาณจำนวนตัวอักษรขั้นต่ำในการอ่านหนังสือพิมพ์จะอยู่ที่ประมาณ 3,000 หรือ 5,000 ตัว Linear A ไม่ใช่ภาษาจีน แต่เนื่องจากมีรูปภาพหรือสัญลักษณ์โลโก้และอะไรทำนองนั้น มันจึงยากกว่า Linear B อย่างแน่นอน”

แม้ว่า Linear A จะยังไม่ถอดรหัส แต่ความสำเร็จของแนวทางถอดรหัสประสาทแบบใหม่ของ MIT ใน การถอดรหัส Linear B โดยอัตโนมัติซึ่งเกินความจำเป็นในการใช้คลังข้อมูลแบบขนานนั้นมีแนวโน้มที่ดี เข้าสู่ระบบ.

คำแนะนำของบรรณาธิการ

  • AI เปลี่ยน Breaking Bad ให้เป็นอนิเมะ — และมันน่ากลัวมาก
  • อะนาล็อกเอไอ? ฟังดูบ้าบอ แต่อาจจะเป็นอนาคตก็ได้
  • นี่คือสิ่งที่ A.I. วิเคราะห์แนวโน้ม คิดว่าจะเป็นสิ่งที่ยิ่งใหญ่ต่อไปในเทคโนโลยี
  • อนาคตของ A.I.: 4 เรื่องสำคัญที่ต้องจับตามองในอีกไม่กี่ปีข้างหน้า
  • สถาปัตยกรรมอัลกอริทึม: เราควรปล่อยให้ A.I. ออกแบบอาคารให้เราเหรอ?

หมวดหมู่

ล่าสุด

เทคโนโลยีชั้นนำของ Digital Trends จากงาน MWC 2023

เทคโนโลยีชั้นนำของ Digital Trends จากงาน MWC 2023

ตรวจสอบความครอบคลุมทั้งหมดของเราเกี่ยวกับ MWC 2...

Fortnite บทที่ 4 ได้ขโมยสายฟ้าของ Warzone 2.0 ไปโดยสิ้นเชิง

Fortnite บทที่ 4 ได้ขโมยสายฟ้าของ Warzone 2.0 ไปโดยสิ้นเชิง

แม้ว่า Call of Duty: Warzone 2.0 ถึงก ผู้เล่นมา...

เหตุใดโทรศัพท์พับที่ไม่รู้จักเครื่องนี้จึงน่าตื่นเต้นกว่า Z Fold 4

เหตุใดโทรศัพท์พับที่ไม่รู้จักเครื่องนี้จึงน่าตื่นเต้นกว่า Z Fold 4

ตรวจสอบความครอบคลุมทั้งหมดของเราเกี่ยวกับ MWC 2...