ღრმა ხმა 2, რომელიც მოჰყვება Deep Voice-ის საჯარო დებიუტის შემდეგ ამ წლის დასაწყისში, შეუძლია რეალურ დროში წარმოქმნას მეტყველება, რომელიც თითქმის არ განსხვავდება ადამიანის ხმისგან. რაც უფრო შთამბეჭდავია, მას სჭირდება მხოლოდ ოცდაათი წუთი აუდიო სამუშაო მოდელის შესაქმნელად და შეუძლია ასობით სხვადასხვა დინამიკის რეგიონალური აქცენტების იმიტაცია.
რეკომენდებული ვიდეოები
ეს ბევრად უკეთესია, ვიდრე Deep Voice-ის ადრეული ვერსიები, რომლებსაც რამდენიმე საათი დასჭირდათ ერთი ხმის შესასწავლად.
მთავარია Deep Voice 2-ის უნარი დაადგინოს მსგავსება ასობით სხვადასხვა დინამიკს შორის, რათა შექმნას ადამიანის ხმის სამუშაო მოდელი. შემდეგ, ის დამოუკიდებლად იღებს უნიკალურ ხმებს ამ მოდელიდან - განსხვავებით ხმოვანი ასისტენტებისაგან, როგორიცაა Apple-ის Siri, რომელიც მოითხოვს, რომ ადამიანის ჩანაწერი ათასობით საათის განმავლობაში მეტყველებს, რომელსაც ინჟინრები ხელით აწყობენ, Deep Voice 2 არ საჭიროებს ხელმძღვანელობას ან სახელმძღვანელოს ჩარევა.
„მიეცით მას სწორი მონაცემები და მას შეუძლია გაიგოს, თუ რა სახის თვისებებია მნიშვნელოვანი“, განუცხადა The Verge-ს ენდრიუ გიბიანსკიმ, Baidu's Silicon Valley AI Lab-ის მკვლევარმა მეცნიერმა.
Baidu არ არის ერთადერთი კომპანია, რომელიც ინვესტიციას ახორციელებს მაღალი ხარისხის ტექსტის მეტყველების ტექნოლოგიაში. Google-ის WaveNet, კომპანიის DeepMind განყოფილების პროდუქტი, წარმოქმნის ხმებს რეალური ადამიანის მეტყველების შერჩევით და დამოუკიდებლად ქმნის საკუთარ ბგერებს სხვადასხვა ხმებში. Adobe's Project VoCo ტრანსკრიფებს ადამიანის მეტყველებას რედაქტირებად ტექსტზე რეალურ დროში. და Lyrebird, კანადური ხელოვნური ინტელექტის სტარტაპი, ლიცენზირებს ალგორითმებს, რომლებსაც შეუძლიათ ნებისმიერი ხმის იმიტაცია აუდიოს ნიმუშის მხოლოდ ერთი წუთით. ათასი წინადადება ნახევარ წამზე ნაკლებ დროში და შეუძლია მის მიერ წარმოქმნილ მეტყველებაში ისეთი ემოციებით გაჟღენთვა, როგორიცაა სიბრაზე, თანაგრძნობა და სტრესი.
მაგრამ ნუ ელით, რომ Deep Voice 2 ან WaveNet ჩაანაცვლებს Siri-ს Google ასისტენტი, ან ამაზონის ალექსა უახლოეს მომავალში — ხელოვნური ინტელექტის მქონე მთარგმნელობითი აპლიკაციები უფრო მეტ რესურსს მოითხოვს, ვიდრე დღევანდელ ტელეფონებს შეუძლიათ გონივრულად მიაწოდონ. მაგრამ Baidu ხედავს პოტენციალს ისეთ აპლიკაციებში, როგორიცაა ტექსტის მეტყველების აპლიკაციები და ხმაზე დაფუძნებული ასისტენტები. ”ადამიანის მრავალი ხმის სწრაფად სინთეზირების შესაძლებლობა მომავალში დიდ გავლენას მოახდენს პროდუქტებზე, როგორიცაა პირადი ასისტენტები და ელექტრონული წიგნის მკითხველები. მაგალითად, თქვენი eBook-ის თითოეულ პერსონაჟს შეიძლება ჰქონდეს უნიკალური ხმა, როდესაც უსმენთ eBook-ს“.
განაახლეთ თქვენი ცხოვრების წესიDigital Trends ეხმარება მკითხველს თვალყური ადევნონ ტექნოლოგიების სწრაფ სამყაროს ყველა უახლესი სიახლეებით, სახალისო პროდუქტების მიმოხილვებით, გამჭრიახი რედაქციებითა და უნიკალური თვალით.