Deep Voice 2 ของ Baidu สามารถเลียนแบบเสียงของมนุษย์ได้

ไป่ตู้
ไป่ตู้ ผู้นำในปักกิ่งซึ่งครองตลาดการค้นหาทางอินเทอร์เน็ตของจีนถึงร้อยละ 80 กำลังลงทุนอย่างหนักในด้านปัญญาประดิษฐ์ ในปี 2013 ได้เปิดสถาบันการเรียนรู้เชิงลึก ซึ่งเป็นศูนย์ R&D ที่เน้นการเรียนรู้ของเครื่อง และในเดือนพฤษภาคม ได้มีการปิดตัวเวอร์ชันใหม่ล่าสุดของ เสียงต่ำซึ่งเป็นเครื่องมืออ่านออกเสียงข้อความที่ขับเคลื่อนด้วย AI

เสียงลึก 2ซึ่งตามมาหลังจากการเปิดตัวสู่สาธารณะของ Deep Voice เมื่อต้นปีนี้ สามารถสร้างคำพูดแบบเรียลไทม์ที่แทบจะแยกไม่ออกจากเสียงของมนุษย์ สิ่งที่น่าประทับใจยิ่งกว่านั้นคือ ต้องใช้เสียงเพียงสามสิบนาทีเพื่อสร้างโมเดลที่ใช้งานได้ และสามารถเลียนแบบสำเนียงภูมิภาคของวิทยากรหลายร้อยคนได้

วิดีโอแนะนำ

นั่นเป็นการก้าวกระโดดที่ดีกว่า Deep Voice เวอร์ชันแรกๆ ซึ่งใช้เวลาหลายชั่วโมงในการเรียนรู้เสียงเดียว

สิ่งสำคัญคือความสามารถของ Deep Voice 2 ในการระบุความคล้ายคลึงระหว่างผู้พูดหลายร้อยคนเพื่อสร้างแบบจำลองการทำงานของเสียงมนุษย์ จากนั้นจะได้รับเสียงที่เป็นเอกลักษณ์จากรุ่นนั้นโดยอัตโนมัติ ซึ่งแตกต่างจากผู้ช่วยเสียงเช่น Siri ของ Apple ซึ่งจำเป็นต้องมี มนุษย์บันทึกคำพูดนับพันชั่วโมงที่วิศวกรปรับแต่งด้วยมือ Deep Voice 2 ไม่ต้องการคำแนะนำหรือคู่มือ การแทรกแซง

ไป่ตู้ (สัญลักษณ์)

“ให้ข้อมูลที่ถูกต้องและมันสามารถเรียนรู้ได้จากคุณสมบัติที่สำคัญ” Andrew Gibiansky นักวิทยาศาสตร์การวิจัยที่ Silicon Valley AI Lab ของ Baidu กล่าวกับ The Verge

Baidu ไม่ใช่บริษัทเดียวที่ลงทุนในเทคโนโลยีการอ่านออกเสียงข้อความคุณภาพสูง WaveNet ของ Google ซึ่งเป็นผลิตภัณฑ์ของแผนก DeepMind ของบริษัท สร้างเสียงโดยสุ่มตัวอย่างคำพูดของมนุษย์จริง และสร้างเสียงของตัวเองด้วยเสียงที่หลากหลายอย่างอิสระ Project VoCo ของ Adobe ถอดเสียงคำพูดของมนุษย์เป็นข้อความที่แก้ไขได้แบบเรียลไทม์ และ Lyrebird ซึ่งเป็นสตาร์ทอัพด้าน AI ของแคนาดา ได้ออกใบอนุญาตอัลกอริธึมที่สามารถเลียนแบบเสียงใดๆ ก็ได้โดยใช้เสียงตัวอย่างเพียงนาทีเดียว หนึ่งพันประโยคในเวลาไม่ถึงครึ่งวินาที และสามารถแทรกอารมณ์คำพูดที่สร้างขึ้นด้วยอารมณ์ต่างๆ เช่น ความโกรธ ความเห็นอกเห็นใจ และ ความเครียด.

แต่อย่าคาดหวังว่า Deep Voice 2 หรือ WaveNet จะมาแทนที่ Siri ผู้ช่วยของ Googleหรือของอเมซอน อเล็กซา เร็วๆ นี้ — แอปแปลที่ขับเคลื่อนด้วย AI ต้องการทรัพยากรมากกว่าที่โทรศัพท์ในปัจจุบันจะจัดหาได้อย่างสมเหตุสมผล แต่ Baidu มองเห็นศักยภาพในแอปพลิเคชันต่างๆ เช่น แอปแปลงข้อความเป็นคำพูด และระบบช่วยเหลือด้วยเสียง “ความสามารถในการสังเคราะห์เสียงของมนุษย์หลายๆ เสียงได้อย่างรวดเร็วจะมีผลกระทบอย่างมากต่อผลิตภัณฑ์ เช่น ผู้ช่วยส่วนตัว และเครื่องอ่าน eBook ในอนาคต ตัวอย่างเช่น ตัวละครแต่ละตัวใน eBook ของคุณอาจมีเสียงที่เป็นเอกลักษณ์เมื่อคุณฟัง eBook”

อัพเกรดไลฟ์สไตล์ของคุณDigital Trends ช่วยให้ผู้อ่านติดตามโลกแห่งเทคโนโลยีที่เปลี่ยนแปลงไปอย่างรวดเร็วด้วยข่าวสารล่าสุด รีวิวผลิตภัณฑ์สนุกๆ บทบรรณาธิการที่เจาะลึก และการแอบดูที่ไม่ซ้ำใคร

หมวดหมู่

ล่าสุด

นี่คือวิธีที่ Google Docs ท้าทาย AI ของ Grammarly

นี่คือวิธีที่ Google Docs ท้าทาย AI ของ Grammarly

GoogleGoogle ประกาศชุดการปรับปรุงปัญญาประดิษฐ์เ...

ITunes UK สุดยอดสุนัขเพลงออนไลน์ของอังกฤษ

ITunes UK สุดยอดสุนัขเพลงออนไลน์ของอังกฤษ

หากคุณซื้อสินค้าที่ Walmart ทุกสัปดาห์ ก็ถึงเวล...

ซื้อชิ้นส่วนของยูโรปา

ซื้อชิ้นส่วนของยูโรปา

หากคุณซื้อสินค้าที่ Walmart ทุกสัปดาห์ ก็ถึงเวล...