ก งานวิจัยชิ้นใหม่ โดยนักวิจัยจากวิทยาการคอมพิวเตอร์และปัญญาประดิษฐ์ของสถาบันเทคโนโลยีแมสซาชูเซตส์ ห้องปฏิบัติการ (CSAIL) แนะนำเทคนิคใหม่ในการฝึกระบบเหล่านี้ โดยให้พวกเขาเรียนรู้จากการดู ภาพ
วิดีโอแนะนำ
“นี่เป็นความพยายามที่จะทำให้เครื่องจักรต้องการการฝึกอบรมน้อยลงเพื่อเรียนรู้เกี่ยวกับภาษาพูด” จิม กลาสนักวิทยาศาสตร์การวิจัยอาวุโสของ CSAIL กล่าวกับ Digital Trends “วิธีทั่วไปในการฝึกระบบการรู้จำคำพูดคือการใช้การบันทึกของผู้คนที่พูด และในการถอดเสียงคำพูดแต่ละครั้ง จะต้องถอดความคำพูดที่พูดออกไปอย่างชัดเจน ตามหลักการแล้ว คุณมีเวลาหลายร้อยหรือหลายพันชั่วโมงในการพูดเพื่อให้ระบบทำงานได้อย่างถูกต้อง บริษัทที่ใหญ่ที่สุดบางแห่งที่ทำเช่นนี้ เช่น Baidu และ Google ใช้เวลาฝึกอบรมนับหมื่นชั่วโมง ยิ่งมีข้อมูลที่มีคำอธิบายประกอบมากเท่าไร ระบบเหล่านี้ก็จะทำงานได้ดียิ่งขึ้นเท่านั้น”
แล้วมีอะไรผิดปกติกับสิ่งนั้น? ท้ายที่สุดแล้ว ตามที่กล่าวไว้ เทคโนโลยีการรู้จำเสียงมีการพัฒนาที่ดีขึ้นอย่างต่อเนื่อง ไม่ว่านักวิทยาศาสตร์คอมพิวเตอร์จะทำอะไรก็ตาม เห็นได้ชัดว่าได้ผล
นั่นอาจเป็นเรื่องจริง แต่แนวทางใหม่นี้น่าสนใจด้วยเหตุผลสองประการ ประการแรก การเปิดความสามารถของเครื่องจักรในการฝึกฝนตัวเองให้เข้าใจโดยดูจากภาพและเสียงที่รวมกัน (ในที่สุด คุณคงจินตนาการได้ว่ามันเป็นการฝึกโดยการดู YouTube) มีความใกล้เคียงกับวิธีที่เราเรียนรู้ในฐานะมนุษย์มากขึ้น สิ่งมีชีวิต
ประการที่สองและที่สำคัญกว่านั้นคือความจริงที่ว่ามันสามารถช่วยนำการรู้จำเสียงมาสู่ส่วนต่างๆ ของโลกที่อาจได้รับประโยชน์อย่างมากจากเทคโนโลยีประเภทนี้
“ข้อมูลที่มีคำอธิบายประกอบมีราคาแพงในการผลิต” Glass กล่าวต่อ “การรู้จำเสียงพูดดำเนินมาเป็นเวลาหลายทศวรรษแล้ว และส่วนใหญ่ใช้สำหรับภาษาในประเทศที่สามารถลงทุนในทรัพยากรประเภทนี้ได้ เมื่อพูดถึงเรื่องภาษา มักจะเป็นภาษาที่บริษัทต่างๆ คิดว่าจะช่วยให้พวกเขาทำกำไรได้ ภาษาอังกฤษได้รับความสนใจมากที่สุด รองลงมาคือภาษายุโรปตะวันตก และภาษาอื่นๆ เช่น ภาษาญี่ปุ่นและภาษาจีนกลาง ปัญหาคือมีภาษาพูดประมาณ 7,000 ภาษาทั่วโลก และประมาณ 300 ภาษาที่มีคนพูดมากกว่า 1 ล้านคน สิ่งเหล่านี้ส่วนใหญ่ไม่ได้รับความสนใจมากนัก ถ้ามี”
ในบางพื้นที่ของโลกที่ระดับการรู้หนังสือต่ำ เป็นเรื่องง่ายที่จะเห็นว่าการรู้จำคำพูดสามารถเปลี่ยนแปลงเกมในแง่ของการให้ผู้คนเข้าถึงข้อมูลได้อย่างไร หวังว่าเทคโนโลยีนี้จะช่วยให้บรรลุเป้าหมายดังกล่าวได้
อย่างไรก็ตาม แม้ว่าการวิจัยจะน่าตื่นเต้น แต่ Glass ยังตั้งข้อสังเกตว่ายังอยู่ในช่วงเริ่มต้น ปัจจุบัน นักวิจัยของ CSAIL ได้ป้อนข้อมูลระบบของตนด้วยฐานข้อมูล 1,000 ภาพ โดยแต่ละภาพมีคำอธิบายด้วยวาจารูปแบบอิสระที่เกี่ยวข้องกับภาพไม่ทางใดก็ทางหนึ่ง จากนั้นพวกเขาจะทดสอบระบบโดยการบันทึกและขอให้ดึงภาพที่ 10 ภาพซึ่งตรงกับสิ่งที่ได้ยินมากที่สุด
เมื่อเวลาผ่านไป ความหวังก็คือวิธีการจดจำคำพูดดังกล่าวจะปรับปรุงประสิทธิภาพจนถึงจุดที่การติดฉลากข้อมูลการฝึกพูดที่ต้องใช้ความพยายามสูงไม่ถือว่าเป็นสิ่งจำเป็นอีกต่อไป
หากทุกอย่างเป็นไปตามแผนที่วางไว้ นั่นน่าจะดีกว่าสำหรับทุกคน ไม่ว่าคุณจะเป็นผู้พูดภาษาอังกฤษในสหรัฐอเมริกาหรือผู้พูดภาษาโซซาในแอฟริกาใต้
คำแนะนำของบรรณาธิการ
- A.I. ใหม่อันชาญฉลาด ระบบสัญญาว่าจะฝึกสุนัขของคุณในขณะที่คุณไม่อยู่บ้าน
- งานวิจัยใหม่เรื่อง "ร่มรื่น" จาก MIT ใช้เงาเพื่อดูว่ากล้องชนิดใดไม่สามารถทำได้
- AI. นักวิจัยสร้างระบบจดจำใบหน้าสำหรับชิมแปนซี
- MIT ซึ่งเป็น A.I ใหม่ของ Adobe สามารถลบพื้นหลังและตัวกรองโซเชียลได้ในคลิกเดียว
อัพเกรดไลฟ์สไตล์ของคุณDigital Trends ช่วยให้ผู้อ่านติดตามโลกแห่งเทคโนโลยีที่เปลี่ยนแปลงไปอย่างรวดเร็วด้วยข่าวสารล่าสุด รีวิวผลิตภัณฑ์สนุกๆ บทบรรณาธิการที่เจาะลึก และการแอบดูที่ไม่ซ้ำใคร