Baidu's Deep Voice 2-ს შეუძლია ადამიანის ხმის მიბაძვა

ბაიდუ
Baidu, პეკინში დაფუძნებული ჯაგრნავტი, რომელიც ფლობს ჩინეთის ინტერნეტ საძიებო ბაზრის 80 პროცენტს, დიდ ინვესტიციას ახორციელებს ხელოვნურ ინტელექტში. 2013 წელს მან გახსნა ღრმა სწავლების ინსტიტუტი, R&D ცენტრი, რომელიც ორიენტირებულია მანქანათმცოდნეობაზე. მაისში კი მას უახლესი ვერსია მოედო ღრმა ხმა, მისი ხელოვნური ინტელექტის ფუნქციით მომუშავე ტექსტი მეტყველების ძრავა.

ღრმა ხმა 2, რომელიც მოჰყვება Deep Voice-ის საჯარო დებიუტის შემდეგ ამ წლის დასაწყისში, შეუძლია რეალურ დროში წარმოქმნას მეტყველება, რომელიც თითქმის არ განსხვავდება ადამიანის ხმისგან. რაც უფრო შთამბეჭდავია, მას სჭირდება მხოლოდ ოცდაათი წუთი აუდიო სამუშაო მოდელის შესაქმნელად და შეუძლია ასობით სხვადასხვა დინამიკის რეგიონალური აქცენტების იმიტაცია.

რეკომენდებული ვიდეოები

ეს ბევრად უკეთესია, ვიდრე Deep Voice-ის ადრეული ვერსიები, რომლებსაც რამდენიმე საათი დასჭირდათ ერთი ხმის შესასწავლად.

მთავარია Deep Voice 2-ის უნარი დაადგინოს მსგავსება ასობით სხვადასხვა დინამიკს შორის, რათა შექმნას ადამიანის ხმის სამუშაო მოდელი. შემდეგ, ის დამოუკიდებლად იღებს უნიკალურ ხმებს ამ მოდელიდან - განსხვავებით ხმოვანი ასისტენტებისაგან, როგორიცაა Apple-ის Siri, რომელიც მოითხოვს, რომ ადამიანის ჩანაწერი ათასობით საათის განმავლობაში მეტყველებს, რომელსაც ინჟინრები ხელით აწყობენ, Deep Voice 2 არ საჭიროებს ხელმძღვანელობას ან სახელმძღვანელოს ჩარევა.

ბაიდუ (ნიშანი)

„მიეცით მას სწორი მონაცემები და მას შეუძლია გაიგოს, თუ რა სახის თვისებებია მნიშვნელოვანი“, განუცხადა The Verge-ს ენდრიუ გიბიანსკიმ, Baidu's Silicon Valley AI Lab-ის მკვლევარმა მეცნიერმა.

Baidu არ არის ერთადერთი კომპანია, რომელიც ინვესტიციას ახორციელებს მაღალი ხარისხის ტექსტის მეტყველების ტექნოლოგიაში. Google-ის WaveNet, კომპანიის DeepMind განყოფილების პროდუქტი, წარმოქმნის ხმებს რეალური ადამიანის მეტყველების შერჩევით და დამოუკიდებლად ქმნის საკუთარ ბგერებს სხვადასხვა ხმებში. Adobe's Project VoCo ტრანსკრიფებს ადამიანის მეტყველებას რედაქტირებად ტექსტზე რეალურ დროში. და Lyrebird, კანადური ხელოვნური ინტელექტის სტარტაპი, ლიცენზირებს ალგორითმებს, რომლებსაც შეუძლიათ ნებისმიერი ხმის იმიტაცია აუდიოს ნიმუშის მხოლოდ ერთი წუთით. ათასი წინადადება ნახევარ წამზე ნაკლებ დროში და შეუძლია მის მიერ წარმოქმნილ მეტყველებაში ისეთი ემოციებით გაჟღენთვა, როგორიცაა სიბრაზე, თანაგრძნობა და სტრესი.

მაგრამ ნუ ელით, რომ Deep Voice 2 ან WaveNet ჩაანაცვლებს Siri-ს Google ასისტენტი, ან ამაზონის ალექსა უახლოეს მომავალში — ხელოვნური ინტელექტის მქონე მთარგმნელობითი აპლიკაციები უფრო მეტ რესურსს მოითხოვს, ვიდრე დღევანდელ ტელეფონებს შეუძლიათ გონივრულად მიაწოდონ. მაგრამ Baidu ხედავს პოტენციალს ისეთ აპლიკაციებში, როგორიცაა ტექსტის მეტყველების აპლიკაციები და ხმაზე დაფუძნებული ასისტენტები. ”ადამიანის მრავალი ხმის სწრაფად სინთეზირების შესაძლებლობა მომავალში დიდ გავლენას მოახდენს პროდუქტებზე, როგორიცაა პირადი ასისტენტები და ელექტრონული წიგნის მკითხველები. მაგალითად, თქვენი eBook-ის თითოეულ პერსონაჟს შეიძლება ჰქონდეს უნიკალური ხმა, როდესაც უსმენთ eBook-ს“.

განაახლეთ თქვენი ცხოვრების წესიDigital Trends ეხმარება მკითხველს თვალყური ადევნონ ტექნოლოგიების სწრაფ სამყაროს ყველა უახლესი სიახლეებით, სახალისო პროდუქტების მიმოხილვებით, გამჭრიახი რედაქციებითა და უნიკალური თვალით.

კატეგორიები

Ბოლო