Voce profonda 2, che segue il debutto pubblico di Deep Voice all'inizio di quest'anno, è in grado di produrre discorsi in tempo reale quasi indistinguibili da una voce umana. Ancora più impressionante, sono necessari solo trenta minuti di audio per costruire un modello funzionante e può imitare gli accenti regionali di centinaia di oratori diversi.
Video consigliati
Questo fa passi da gigante rispetto alle prime versioni di Deep Voice, che impiegavano diverse ore per imparare una voce.
La chiave è la capacità di Deep Voice 2 di identificare le somiglianze tra centinaia di altoparlanti diversi per costruire un modello funzionante di una voce umana. Quindi, deriva autonomamente voci uniche da quel modello, a differenza degli assistenti vocali come Siri di Apple, che richiedono un record umano migliaia di ore di discorso che gli ingegneri sintonizzano a mano, Deep Voice 2 non richiede guida o manuale intervento.
"Forniscigli i dati giusti e può imparare da solo quale tipo di caratteristiche sono importanti", ha detto a The Verge Andrew Gibiansky, ricercatore presso il laboratorio di intelligenza artificiale della Silicon Valley di Baidu.
Baidu non è l'unica azienda che investe in tecnologia di sintesi vocale di alta qualità. WaveNet di Google, un prodotto della divisione DeepMind dell'azienda, genera voci campionando il vero linguaggio umano e creando autonomamente i propri suoni in una varietà di voci. Project VoCo di Adobe trascrive il linguaggio umano in testo modificabile in tempo reale. E Lyrebird, una startup canadese di intelligenza artificiale, concede in licenza algoritmi in grado di imitare qualsiasi voce con un solo minuto di audio campione, creare mille frasi in meno di mezzo secondo, e può infondere al discorso che crea emozioni come rabbia, simpatia e fatica.
Ma non aspettarti che Deep Voice 2 o WaveNet sostituiscano Siri, il Assistente Googleo di Amazon Alexa in qualsiasi momento presto: le app di traduzione basate sull'intelligenza artificiale richiedono più risorse di quelle che i telefoni di oggi possono ragionevolmente fornire. Ma Baidu vede il potenziale in applicazioni come le app di sintesi vocale e gli assistenti vocali. “La capacità di sintetizzare rapidamente più voci umane avrà un enorme effetto su prodotti come assistenti personali e lettori di eBook in futuro. Ad esempio, ogni personaggio del tuo eBook potrebbe avere una voce unica quando ascolti l'eBook.
Aggiorna il tuo stile di vitaDigital Trends aiuta i lettori a tenere d'occhio il frenetico mondo della tecnologia con tutte le ultime notizie, recensioni divertenti sui prodotti, editoriali penetranti e anticipazioni uniche.