Baidu's Deep Voice 2 dokáže napodobit lidský hlas

click fraud protection
baidu
Baidu, pekingský moloch, který ovládá 80 procent čínského trhu s internetovým vyhledáváním, masivně investuje do umělé inteligence. V roce 2013 otevřela Institute of Deep Learning, výzkumné a vývojové centrum zaměřené na strojové učení. A v květnu to vzalo obaly z nejnovější verze Hluboký hlas, jeho motor pro převod textu na řeč s umělou inteligencí.

Hluboký hlas 2, který navazuje na veřejný debut Deep Voice začátkem tohoto roku, dokáže produkovat řeč v reálném čase, která je téměř nerozeznatelná od lidského hlasu. O to působivější je, že k sestavení funkčního modelu potřebuje pouhých třicet minut zvuku a dokáže napodobit regionální akcenty stovek různých reproduktorů.

Doporučená videa

To je skokově lepší než rané verze Deep Voice, kterým trvalo několik hodin naučit se jeden hlas.

Klíčová je schopnost Deep Voice 2 identifikovat podobnosti mezi stovkami různých reproduktorů a vytvořit funkční model lidského hlasu. Poté z tohoto modelu autonomně odvozuje jedinečné hlasy – na rozdíl od hlasových asistentů, jako je Siri od Apple, kteří vyžadují Člověk zaznamená tisíce hodin řeči, kterou inženýři vyladí ručně, Deep Voice 2 nevyžaduje vedení ani manuál zásah.

Baidu (znamení)

„Dejte mu správná data a ono se může samo naučit, jaké funkce jsou důležité,“ řekl The Verge Andrew Gibiansky, vědecký pracovník v laboratoři Baidu's Silicon Valley AI Lab.

Baidu není jedinou společností, která investuje do vysoce kvalitní technologie převodu textu na řeč. Google WaveNet, produkt divize DeepMind společnosti, generuje hlasy vzorkováním skutečné lidské řeči a nezávislým vytvářením vlastních zvuků v různých hlasech. Adobe Project VoCo přepisuje lidskou řeč na upravitelný text v reálném čase. A Lyrebird, kanadský startup s umělou inteligencí, licencuje algoritmy, které dokážou napodobit jakýkoli hlas pomocí jediné minuty ukázkového zvuku, vytvořit tisíc vět za méně než půl sekundy a dokáže naplnit řeč, kterou vytváří, emocemi, jako je hněv, soucit a stres.

Neočekávejte však, že Deep Voice 2 nebo WaveNet nahradí Siri Google Assistantnebo Amazon Alexa v brzké době – překladatelské aplikace s umělou inteligencí vyžadují více zdrojů, než mohou dnešní telefony rozumně poskytnout. Baidu však vidí potenciál v aplikacích, jako jsou aplikace pro převod textu na řeč a hlasoví asistenti. „Schopnost rychle syntetizovat více lidských hlasů bude mít v budoucnu obrovský vliv na produkty, jako jsou osobní asistenti a čtečky elektronických knih. Například každá postava vaší e-knihy může mít při poslechu e-knihy jedinečný hlas.“

Upgradujte svůj životní stylDigitální trendy pomáhají čtenářům mít přehled o rychle se měnícím světě technologií se všemi nejnovějšími zprávami, zábavnými recenzemi produktů, zasvěcenými úvodníky a jedinečnými náhledy.