Derin Ses 2Deep Voice'un bu yılın başlarında halka sunulmasının hemen ardından gelen, insan sesinden neredeyse ayırt edilemeyecek kadar gerçek zamanlı konuşma üretebiliyor. Daha da etkileyici olanı, çalışan bir model oluşturmak için yalnızca otuz dakikalık sese ihtiyaç duyması ve yüzlerce farklı konuşmacının bölgesel aksanlarını taklit edebilmesidir.
Önerilen Videolar
Bu, Deep Voice'un tek bir sesi öğrenmesi birkaç saat süren ilk versiyonlarından çok daha iyi.
Bunların anahtarı, Deep Voice 2'nin yüzlerce farklı konuşmacı arasındaki benzerlikleri tespit ederek insan sesinin çalışan bir modelini oluşturma yeteneğidir. Daha sonra, Apple'ın Siri'si gibi ses asistanlarının aksine, bu modelden bağımsız olarak benzersiz sesler türetiyor. Mühendislerin elle ayarladığı binlerce saatlik konuşmayı insan kaydeder; Deep Voice 2 rehberlik veya kılavuz gerektirmez araya girmek.
Baidu Silikon Vadisi Yapay Zeka Laboratuvarı'nda araştırma bilimcisi olan Andrew Gibiansky, The Verge'e "Doğru verileri verirseniz, ne tür özelliklerin önemli olduğunu kendi başına öğrenebilir" dedi.
Baidu, yüksek kaliteli metinden konuşmaya teknolojisine yatırım yapan tek şirket değil. Google'ın DeepMind bölümünün bir ürünü olan WaveNet, gerçek insan konuşmasını örnekleyerek ve çeşitli seslerde bağımsız olarak kendi seslerini oluşturarak sesler üretiyor. Adobe'nin Project VoCo'su, insan konuşmasını gerçek zamanlı olarak düzenlenebilir metne dönüştürür. Ve Kanadalı bir yapay zeka girişimi olan Lyrebird, herhangi bir sesi yalnızca bir dakikalık örnek ses ile taklit edebilen algoritmalara lisans veriyor. Yarım saniyeden daha kısa bir sürede bin cümle kurabilir ve yarattığı konuşmaya öfke, sempati, öfke gibi duygular aşılayabilir. stres.
Ancak Deep Voice 2 veya WaveNet'in Siri'nin yerini almasını beklemeyin. Google Asistanveya Amazon'un Alexa yakın zamanda — Yapay zeka destekli çeviri uygulamaları, günümüz telefonlarının makul düzeyde sağlayabileceğinden daha fazla kaynağa ihtiyaç duyuyor. Ancak Baidu, metinden konuşmaya uygulamaları ve ses tabanlı asistanlar gibi uygulamalarda potansiyel görüyor. "Birden fazla insan sesini hızlı bir şekilde sentezleme yeteneği, gelecekte kişisel asistanlar ve e-Kitap okuyucuları gibi ürünler üzerinde büyük bir etkiye sahip olacak. Örneğin, e-Kitabınızın her karakteri, e-Kitabı dinlediğinizde benzersiz bir sese sahip olabilir."
Yaşam tarzınızı yükseltinDigital Trends, en son haberler, eğlenceli ürün incelemeleri, anlayışlı başyazılar ve türünün tek örneği olan ön bakışlarla okuyucuların teknolojinin hızlı tempolu dünyasını takip etmelerine yardımcı olur.