AI อ่านปากทุบตีมนุษย์ขณะแปลประโยคที่เงียบงัน

LipNet: คุณคิดว่าการอ่านริมฝีปากเป็นเรื่องง่ายแค่ไหน?

หนึ่งในส่วนที่น่าจดจำที่สุดของผลงานไซไฟชิ้นเอกของ Stanley Kubrick 2001: อะสเปซโอดิสซีย์ เป็นโครงเรื่องที่สมาชิกสองคนของ ดิสคัฟเวอรี่วัน ลูกเรือยานอวกาศเริ่มสงสัยมากขึ้นเกี่ยวกับพฤติกรรมของผู้ช่วย AI ของเรือ HAL 9000

เมื่อรู้ว่า HAL ฟังสิ่งที่พวกเขาพูดอยู่ตลอดเวลา พวกเขาจึงล่าถอยไปในที่ที่พวกเขารู้ว่า HAL ไม่สามารถฟังและตกลงที่จะตัดการเชื่อมต่อของเขา HAL ทำลายแผนของพวกเขาหลังจากนักบินอวกาศทั้งสองล้มเหลวในการพิจารณา ความสามารถในการอ่านริมฝีปากที่เหนือกว่าของ AI.

สิ่งแห่งอนาคตใช่มั้ย? ไม่เป็นไปตามการวิจัยที่ดำเนินการโดยนักวิจัยจากมหาวิทยาลัยอ๊อกซฟอร์ด พวกเขาได้พัฒนาโปรแกรมปัญญาประดิษฐ์ที่เรียกว่า LipNet ซึ่งสามารถตีความสิ่งที่ผู้คนพูดได้อย่างแม่นยำ โดยอิงจากวิธีที่พวกเขาขยับปากขณะพูดล้วนๆ

ที่เกี่ยวข้อง

Photoshop AI คิดว่า 'ความสุข' คือรอยยิ้มที่มีฟันผุ
ฉันนำเสนอแนวคิดการเริ่มต้นที่ไร้สาระของฉันให้กับ Robot VC
เราจะรู้ได้อย่างไรว่า AI มีความรู้สึกจริง ๆ แล้ว?

“LipNet อ่านริมฝีปากในระดับประโยคโดยใช้การเรียนรู้ของเครื่อง” เบรนแดน ชิลลิงฟอร์ด

หนึ่งในนักวิจัยของ กระดาษบอกกับ Digital Trends “โครงข่ายประสาทเทียมที่คล้ายกับโมเดลการรู้จำเสียงพูดที่ล้ำสมัยจะประมวลผลลำดับของเฟรมวิดีโอ โดยจับคู่สิ่งเหล่านี้เข้ากับประโยค วิธีการก่อนหน้านี้ใช้การคาดเดาคำแต่ละคำมากกว่าประโยค”

วิดีโอแนะนำ

ประสิทธิภาพของ LipNet เปรียบเทียบได้อย่างเหลือเชื่อกับผู้เชี่ยวชาญด้าน lipreading ของมนุษย์ใน GRID Corpus ซึ่งเป็นชุดข้อมูล lipreading ระดับประโยคที่ใหญ่ที่สุดที่เปิดเผยต่อสาธารณะ ในความเป็นจริง โดยที่ผู้เชี่ยวชาญที่เป็นมนุษย์ได้คะแนนเพียง 52 เปอร์เซ็นต์ LipNet ได้คะแนน 93 เปอร์เซ็นต์ วิธีการอ่านปากตามประโยคยังทำลายความพยายามที่ดีที่สุดก่อนหน้านี้โดยเครื่องจักร ซึ่งจัดการความแม่นยำ 79.6 เปอร์เซ็นต์บนชุดข้อมูลเดียวกัน

อย่างไรก็ตาม แม้ว่า HAL 9000 ในตำนานจะใช้ความสามารถในการอ่านริมฝีปากโดยไร้ประโยชน์ แต่ทีมงานที่อยู่เบื้องหลัง LipNet ก็มีเป้าหมายอื่นในการสร้างสรรค์สิ่งเหล่านั้น ผู้คนราว 360 ล้านคนทั่วโลกมีความพิการทางการได้ยิน เครื่องมืออย่าง LipNet อาจมีความสำคัญอย่างมากสำหรับบุคคลเหล่านี้ โดยช่วยตีความคำพูดได้อย่างแม่นยำในลักษณะที่ทำให้ชีวิตของพวกเขาง่ายขึ้น

“แอปพลิเคชันอื่น ๆ ที่เราสนใจ ได้แก่ การเขียนตามคำบอกอย่างเงียบ ๆ ในที่สาธารณะ การสนทนาที่ซ่อนอยู่ การรู้จำเสียงในสภาพแวดล้อมที่มีเสียงดัง การระบุตัวตนด้วยไบโอเมตริกซ์ และการประมวลผลภาพยนตร์เงียบ” ชิลลิงฟอร์ด อย่างต่อเนื่อง

แม้ว่าการเฝ้าระวังจะเป็นปัญหากับเทคโนโลยีใดๆ ก็ตามเช่นนี้ นันโด เด เฟรตัสซึ่งทำงานในโครงการนี้ด้วยกล่าวว่าไม่ใช่แอปพลิเคชันที่พวกเขามุ่งเน้น อย่างไรก็ตาม เขากล่าวว่า “คงไม่น่าแปลกใจ” หากห้องทดลองอื่นๆ พยายามต่อยอดงานดังกล่าวเพื่อจุดประสงค์นั้นในอนาคต

“สาธารณชนจะต้องตระหนักถึงสิ่งนี้ และพึ่งพาสถาบันประชาธิปไตยทางกฎหมายของเราในการจัดทำกฎหมายที่เหมาะสมที่ปกป้องความเป็นส่วนตัวและศักดิ์ศรีของเรา” เดอ เฟรทัส กล่าวต่อ “เราหวังว่าการเผยแพร่งานนี้จะช่วยสร้างความตระหนักรู้ ในขณะที่ยังคงเน้นย้ำถึงประโยชน์ของเทคโนโลยีนี้ในการช่วยเหลือผู้คนที่ต้องการความช่วยเหลือ”

คำแนะนำของบรรณาธิการ

คู่แข่ง ChatGPT ของ Apple อาจเขียนโค้ดให้คุณโดยอัตโนมัติ
Meta สร้าง DALL-E สำหรับวิดีโอ ซึ่งทั้งน่าขนลุกและน่าทึ่ง
ภาพลวงตาสามารถช่วยให้เราสร้าง AI รุ่นต่อไปได้
แล็ปท็อปแมชชีนเลิร์นนิงของ Lambda คือ Razer ที่ปลอมตัวมา
อ่าน 'พระคัมภีร์สังเคราะห์' ที่สวยงามน่าขนลุกของ A.I. ที่คิดว่าเป็นพระเจ้า

อัพเกรดไลฟ์สไตล์ของคุณDigital Trends ช่วยให้ผู้อ่านติดตามโลกแห่งเทคโนโลยีที่เปลี่ยนแปลงไปอย่างรวดเร็วด้วยข่าวสารล่าสุด รีวิวผลิตภัณฑ์สนุกๆ บทบรรณาธิการที่เจาะลึก และการแอบดูที่ไม่ซ้ำใคร

AI อ่านปากทุบตีมนุษย์ขณะแปลประโยคที่เงียบงัน

คำแนะนำของบรรณาธิการ

หมวดหมู่

ล่าสุด

กฎหมายต่อต้านการละเมิดลิขสิทธิ์ของสวีเดนทำให้ยอดขายเพลงเพิ่มขึ้น การจราจรทางอินเทอร์เน็ตลดลง

Console OS สัญญาว่าจะทำงานได้ดีขึ้นในการวาง Android บนพีซีของคุณ

Dell เผย Chromebook 11, Chromebook เครื่องแรก, ราคา, วันที่วางจำหน่าย