Voce adâncă 2, care urmează după debutul public al lui Deep Voice la începutul acestui an, poate produce un discurs în timp real care este aproape imposibil de distins de o voce umană. Cu atât mai impresionant, are nevoie de doar treizeci de minute de sunet pentru a construi un model funcțional și poate imita accentele regionale ale sute de difuzoare diferite.
Videoclipuri recomandate
Este mult mai bun decât versiunile inițiale ale Deep Voice, care au avut nevoie de mai multe ore pentru a învăța o singură voce.
Cheia este capacitatea lui Deep Voice 2 de a identifica asemănările între sute de difuzoare diferite pentru a construi un model de lucru al unei voci umane. Apoi, derivă în mod autonom voci unice din acel model - spre deosebire de asistenții vocali precum Siri de la Apple, care necesită ca un înregistrare umană de mii de ore de vorbire pe care inginerii le reglează manual, Deep Voice 2 nu necesită îndrumare sau manual intervenţie.
„Oferiți-i datele potrivite și poate învăța pe cont propriu ce fel de caracteristici sunt importante”, a declarat Andrew Gibiansky, cercetător la Silicon Valley AI Lab din Baidu, pentru The Verge.
Baidu nu este singura companie care investește în tehnologie text-to-speech de înaltă calitate. WaveNet de la Google, un produs al diviziei DeepMind a companiei, generează voci prin eșantionarea vorbirii umane reale și creând în mod independent propriile sunete într-o varietate de voci. Proiectul Adobe VoCo transcrie vorbirea umană în text editabil în timp real. Și Lyrebird, un startup canadian AI, licențiază algoritmi care pot imita orice voce cu doar un singur minut de eșantion audio, creează o mie de propoziții în mai puțin de jumătate de secundă și poate infuza discursul pe care îl creează cu emoții precum furie, simpatie și stres.
Dar nu vă așteptați ca Deep Voice 2 sau WaveNet să îl înlocuiască pe Siri Asistent Google, sau Amazon Alexa în curând — aplicațiile de traducere bazate pe inteligență artificială necesită mai multe resurse decât pot furniza în mod rezonabil telefoanele de astăzi. Dar Baidu vede potențial în aplicații precum aplicațiile text-to-speech și asistenții bazați pe voce. „Abilitatea de a sintetiza rapid mai multe voci umane va avea un efect uriaș asupra produselor precum asistenții personali și cititoarele de cărți electronice în viitor. De exemplu, fiecare personaj al cărții dvs. electronice ar putea avea o voce unică atunci când ascultați cartea electronică.”
Îmbunătățește-ți stilul de viațăDigital Trends îi ajută pe cititori să țină cont de lumea rapidă a tehnologiei cu toate cele mai recente știri, recenzii distractive despre produse, editoriale perspicace și anticipări unice.