วิธีการรู้จำเสียงแบบใหม่เรียนรู้ผ่านรูปภาพ

การปรับปรุงข้อความ Android โทรศัพท์ส่งข้อความถึงกัน — โอลกา เลเบเดวา/123RF.com

ระบบรู้จำเสียงอาจยังไม่สมบูรณ์แบบ แต่เช่นเดียวกับการแสดงของ Amazon Echo ระบบเหล่านี้ดีขึ้นและแพร่หลายมากขึ้นตลอดเวลา

ก งานวิจัยชิ้นใหม่ โดยนักวิจัยจากวิทยาการคอมพิวเตอร์และปัญญาประดิษฐ์ของสถาบันเทคโนโลยีแมสซาชูเซตส์ ห้องปฏิบัติการ (CSAIL) แนะนำเทคนิคใหม่ในการฝึกระบบเหล่านี้ โดยให้พวกเขาเรียนรู้จากการดู ภาพ

วิดีโอแนะนำ

“นี่เป็นความพยายามที่จะทำให้เครื่องจักรต้องการการฝึกอบรมน้อยลงเพื่อเรียนรู้เกี่ยวกับภาษาพูด” จิม กลาสนักวิทยาศาสตร์การวิจัยอาวุโสของ CSAIL กล่าวกับ Digital Trends “วิธีทั่วไปในการฝึกระบบการรู้จำคำพูดคือการใช้การบันทึกของผู้คนที่พูด และในการถอดเสียงคำพูดแต่ละครั้ง จะต้องถอดความคำพูดที่พูดออกไปอย่างชัดเจน ตามหลักการแล้ว คุณมีเวลาหลายร้อยหรือหลายพันชั่วโมงในการพูดเพื่อให้ระบบทำงานได้อย่างถูกต้อง บริษัทที่ใหญ่ที่สุดบางแห่งที่ทำเช่นนี้ เช่น Baidu และ Google ใช้เวลาฝึกอบรมนับหมื่นชั่วโมง ยิ่งมีข้อมูลที่มีคำอธิบายประกอบมากเท่าไร ระบบเหล่านี้ก็จะทำงานได้ดียิ่งขึ้นเท่านั้น”

แล้วมีอะไรผิดปกติกับสิ่งนั้น? ท้ายที่สุดแล้ว ตามที่กล่าวไว้ เทคโนโลยีการรู้จำเสียงมีการพัฒนาที่ดีขึ้นอย่างต่อเนื่อง ไม่ว่านักวิทยาศาสตร์คอมพิวเตอร์จะทำอะไรก็ตาม เห็นได้ชัดว่าได้ผล

นั่นอาจเป็นเรื่องจริง แต่แนวทางใหม่นี้น่าสนใจด้วยเหตุผลสองประการ ประการแรก การเปิดความสามารถของเครื่องจักรในการฝึกฝนตัวเองให้เข้าใจโดยดูจากภาพและเสียงที่รวมกัน (ในที่สุด คุณคงจินตนาการได้ว่ามันเป็นการฝึกโดยการดู YouTube) มีความใกล้เคียงกับวิธีที่เราเรียนรู้ในฐานะมนุษย์มากขึ้น สิ่งมีชีวิต

ประการที่สองและที่สำคัญกว่านั้นคือความจริงที่ว่ามันสามารถช่วยนำการรู้จำเสียงมาสู่ส่วนต่างๆ ของโลกที่อาจได้รับประโยชน์อย่างมากจากเทคโนโลยีประเภทนี้

“ข้อมูลที่มีคำอธิบายประกอบมีราคาแพงในการผลิต” Glass กล่าวต่อ “การรู้จำเสียงพูดดำเนินมาเป็นเวลาหลายทศวรรษแล้ว และส่วนใหญ่ใช้สำหรับภาษาในประเทศที่สามารถลงทุนในทรัพยากรประเภทนี้ได้ เมื่อพูดถึงเรื่องภาษา มักจะเป็นภาษาที่บริษัทต่างๆ คิดว่าจะช่วยให้พวกเขาทำกำไรได้ ภาษาอังกฤษได้รับความสนใจมากที่สุด รองลงมาคือภาษายุโรปตะวันตก และภาษาอื่นๆ เช่น ภาษาญี่ปุ่นและภาษาจีนกลาง ปัญหาคือมีภาษาพูดประมาณ 7,000 ภาษาทั่วโลก และประมาณ 300 ภาษาที่มีคนพูดมากกว่า 1 ล้านคน สิ่งเหล่านี้ส่วนใหญ่ไม่ได้รับความสนใจมากนัก ถ้ามี”

ในบางพื้นที่ของโลกที่ระดับการรู้หนังสือต่ำ เป็นเรื่องง่ายที่จะเห็นว่าการรู้จำคำพูดสามารถเปลี่ยนแปลงเกมในแง่ของการให้ผู้คนเข้าถึงข้อมูลได้อย่างไร หวังว่าเทคโนโลยีนี้จะช่วยให้บรรลุเป้าหมายดังกล่าวได้

อย่างไรก็ตาม แม้ว่าการวิจัยจะน่าตื่นเต้น แต่ Glass ยังตั้งข้อสังเกตว่ายังอยู่ในช่วงเริ่มต้น ปัจจุบัน นักวิจัยของ CSAIL ได้ป้อนข้อมูลระบบของตนด้วยฐานข้อมูล 1,000 ภาพ โดยแต่ละภาพมีคำอธิบายด้วยวาจารูปแบบอิสระที่เกี่ยวข้องกับภาพไม่ทางใดก็ทางหนึ่ง จากนั้นพวกเขาจะทดสอบระบบโดยการบันทึกและขอให้ดึงภาพที่ 10 ภาพซึ่งตรงกับสิ่งที่ได้ยินมากที่สุด

เมื่อเวลาผ่านไป ความหวังก็คือวิธีการจดจำคำพูดดังกล่าวจะปรับปรุงประสิทธิภาพจนถึงจุดที่การติดฉลากข้อมูลการฝึกพูดที่ต้องใช้ความพยายามสูงไม่ถือว่าเป็นสิ่งจำเป็นอีกต่อไป

หากทุกอย่างเป็นไปตามแผนที่วางไว้ นั่นน่าจะดีกว่าสำหรับทุกคน ไม่ว่าคุณจะเป็นผู้พูดภาษาอังกฤษในสหรัฐอเมริกาหรือผู้พูดภาษาโซซาในแอฟริกาใต้

คำแนะนำของบรรณาธิการ

A.I. ใหม่อันชาญฉลาด ระบบสัญญาว่าจะฝึกสุนัขของคุณในขณะที่คุณไม่อยู่บ้าน
งานวิจัยใหม่เรื่อง "ร่มรื่น" จาก MIT ใช้เงาเพื่อดูว่ากล้องชนิดใดไม่สามารถทำได้
AI. นักวิจัยสร้างระบบจดจำใบหน้าสำหรับชิมแปนซี
MIT ซึ่งเป็น A.I ใหม่ของ Adobe สามารถลบพื้นหลังและตัวกรองโซเชียลได้ในคลิกเดียว

อัพเกรดไลฟ์สไตล์ของคุณDigital Trends ช่วยให้ผู้อ่านติดตามโลกแห่งเทคโนโลยีที่เปลี่ยนแปลงไปอย่างรวดเร็วด้วยข่าวสารล่าสุด รีวิวผลิตภัณฑ์สนุกๆ บทบรรณาธิการที่เจาะลึก และการแอบดูที่ไม่ซ้ำใคร

วิธีการรู้จำเสียงแบบใหม่เรียนรู้ผ่านรูปภาพ

คำแนะนำของบรรณาธิการ

หมวดหมู่

ล่าสุด

Mac ในอนาคตจะยืมเทคโนโลยีที่ยอดเยี่ยมนี้จาก iPad Pro

นักบินอวกาศตรวจสอบการสัมผัสกับแอมโมเนียระหว่างเดินอวกาศ

ลองดูเมกะโดรนที่ออกแบบมาเพื่อน้ำหนักบรรทุกที่หนักหน่วง