Deep Voice 2 ของ Baidu สามารถเลียนแบบเสียงของมนุษย์ได้

ไป่ตู้ ผู้นำในปักกิ่งซึ่งครองตลาดการค้นหาทางอินเทอร์เน็ตของจีนถึงร้อยละ 80 กำลังลงทุนอย่างหนักในด้านปัญญาประดิษฐ์ ในปี 2013 ได้เปิดสถาบันการเรียนรู้เชิงลึก ซึ่งเป็นศูนย์ R&D ที่เน้นการเรียนรู้ของเครื่อง และในเดือนพฤษภาคม ได้มีการปิดตัวเวอร์ชันใหม่ล่าสุดของ เสียงต่ำซึ่งเป็นเครื่องมืออ่านออกเสียงข้อความที่ขับเคลื่อนด้วย AI

เสียงลึก 2ซึ่งตามมาหลังจากการเปิดตัวสู่สาธารณะของ Deep Voice เมื่อต้นปีนี้ สามารถสร้างคำพูดแบบเรียลไทม์ที่แทบจะแยกไม่ออกจากเสียงของมนุษย์ สิ่งที่น่าประทับใจยิ่งกว่านั้นคือ ต้องใช้เสียงเพียงสามสิบนาทีเพื่อสร้างโมเดลที่ใช้งานได้ และสามารถเลียนแบบสำเนียงภูมิภาคของวิทยากรหลายร้อยคนได้

วิดีโอแนะนำ

นั่นเป็นการก้าวกระโดดที่ดีกว่า Deep Voice เวอร์ชันแรกๆ ซึ่งใช้เวลาหลายชั่วโมงในการเรียนรู้เสียงเดียว

สิ่งสำคัญคือความสามารถของ Deep Voice 2 ในการระบุความคล้ายคลึงระหว่างผู้พูดหลายร้อยคนเพื่อสร้างแบบจำลองการทำงานของเสียงมนุษย์ จากนั้นจะได้รับเสียงที่เป็นเอกลักษณ์จากรุ่นนั้นโดยอัตโนมัติ ซึ่งแตกต่างจากผู้ช่วยเสียงเช่น Siri ของ Apple ซึ่งจำเป็นต้องมี มนุษย์บันทึกคำพูดนับพันชั่วโมงที่วิศวกรปรับแต่งด้วยมือ Deep Voice 2 ไม่ต้องการคำแนะนำหรือคู่มือ การแทรกแซง

“ให้ข้อมูลที่ถูกต้องและมันสามารถเรียนรู้ได้จากคุณสมบัติที่สำคัญ” Andrew Gibiansky นักวิทยาศาสตร์การวิจัยที่ Silicon Valley AI Lab ของ Baidu กล่าวกับ The Verge

Baidu ไม่ใช่บริษัทเดียวที่ลงทุนในเทคโนโลยีการอ่านออกเสียงข้อความคุณภาพสูง WaveNet ของ Google ซึ่งเป็นผลิตภัณฑ์ของแผนก DeepMind ของบริษัท สร้างเสียงโดยสุ่มตัวอย่างคำพูดของมนุษย์จริง และสร้างเสียงของตัวเองด้วยเสียงที่หลากหลายอย่างอิสระ Project VoCo ของ Adobe ถอดเสียงคำพูดของมนุษย์เป็นข้อความที่แก้ไขได้แบบเรียลไทม์ และ Lyrebird ซึ่งเป็นสตาร์ทอัพด้าน AI ของแคนาดา ได้ออกใบอนุญาตอัลกอริธึมที่สามารถเลียนแบบเสียงใดๆ ก็ได้โดยใช้เสียงตัวอย่างเพียงนาทีเดียว หนึ่งพันประโยคในเวลาไม่ถึงครึ่งวินาที และสามารถแทรกอารมณ์คำพูดที่สร้างขึ้นด้วยอารมณ์ต่างๆ เช่น ความโกรธ ความเห็นอกเห็นใจ และ ความเครียด.

แต่อย่าคาดหวังว่า Deep Voice 2 หรือ WaveNet จะมาแทนที่ Siri ผู้ช่วยของ Googleหรือของอเมซอน อเล็กซา เร็วๆ นี้ — แอปแปลที่ขับเคลื่อนด้วย AI ต้องการทรัพยากรมากกว่าที่โทรศัพท์ในปัจจุบันจะจัดหาได้อย่างสมเหตุสมผล แต่ Baidu มองเห็นศักยภาพในแอปพลิเคชันต่างๆ เช่น แอปแปลงข้อความเป็นคำพูด และระบบช่วยเหลือด้วยเสียง “ความสามารถในการสังเคราะห์เสียงของมนุษย์หลายๆ เสียงได้อย่างรวดเร็วจะมีผลกระทบอย่างมากต่อผลิตภัณฑ์ เช่น ผู้ช่วยส่วนตัว และเครื่องอ่าน eBook ในอนาคต ตัวอย่างเช่น ตัวละครแต่ละตัวใน eBook ของคุณอาจมีเสียงที่เป็นเอกลักษณ์เมื่อคุณฟัง eBook”

อัพเกรดไลฟ์สไตล์ของคุณDigital Trends ช่วยให้ผู้อ่านติดตามโลกแห่งเทคโนโลยีที่เปลี่ยนแปลงไปอย่างรวดเร็วด้วยข่าวสารล่าสุด รีวิวผลิตภัณฑ์สนุกๆ บทบรรณาธิการที่เจาะลึก และการแอบดูที่ไม่ซ้ำใคร

Deep Voice 2 ของ Baidu สามารถเลียนแบบเสียงของมนุษย์ได้

หมวดหมู่

ล่าสุด

นี่คือวิธีที่ Google Docs ท้าทาย AI ของ Grammarly

ITunes UK สุดยอดสุนัขเพลงออนไลน์ของอังกฤษ

ซื้อชิ้นส่วนของยูโรปา