Tiefe Stimme 2, das im Anschluss an das öffentliche Debüt von Deep Voice Anfang des Jahres folgt, kann Echtzeitsprache erzeugen, die von einer menschlichen Stimme kaum zu unterscheiden ist. Umso beeindruckender ist, dass es nur 30 Minuten Audio benötigt, um ein funktionierendes Modell zu erstellen, und die regionalen Akzente von Hunderten verschiedener Sprecher imitieren kann.
Empfohlene Videos
Das ist um Längen besser als bei früheren Versionen von Deep Voice, bei denen das Erlernen einer Stimme mehrere Stunden dauerte.
Der Schlüssel liegt in der Fähigkeit von Deep Voice 2, Ähnlichkeiten zwischen Hunderten verschiedener Sprecher zu identifizieren, um ein funktionierendes Modell einer menschlichen Stimme zu erstellen. Dann leitet es autonom einzigartige Stimmen aus diesem Modell ab – im Gegensatz zu Sprachassistenten wie Apples Siri, die dies erfordern Da der Mensch Tausende von Stunden Sprache aufzeichnet, die von Ingenieuren per Hand abgestimmt werden, ist für Deep Voice 2 keine Anleitung oder Anleitung erforderlich Intervention.
„Geben Sie ihm die richtigen Daten, und er kann selbstständig lernen, welche Funktionen wichtig sind“, sagte Andrew Gibiansky, Forscher am Silicon Valley AI Lab von Baidu, gegenüber The Verge.
Baidu ist nicht das einzige Unternehmen, das in hochwertige Text-to-Speech-Technologie investiert. Googles WaveNet, ein Produkt der DeepMind-Abteilung des Unternehmens, erzeugt Stimmen, indem es echte menschliche Sprache abtastet und unabhängig davon eigene Klänge in verschiedenen Stimmen erzeugt. Adobes Project VoCo transkribiert menschliche Sprache in Echtzeit in bearbeitbaren Text. Und Lyrebird, ein kanadisches KI-Startup, lizenziert Algorithmen, die jede Stimme mit nur einer einzigen Minute Beispielaudio imitieren können eintausend Sätze in weniger als einer halben Sekunde und kann die Sprache, die es erzeugt, mit Emotionen wie Wut, Mitgefühl usw. durchdringen Stress.
Erwarten Sie jedoch nicht, dass Deep Voice 2 oder WaveNet Siri ersetzen Google Assistant, oder Amazon Alexa bald – KI-gestützte Übersetzungs-Apps erfordern mehr Ressourcen, als heutige Telefone vernünftigerweise bereitstellen können. Aber Baidu sieht Potenzial in Anwendungen wie Text-to-Speech-Apps und sprachbasierten Assistenten. „Die Fähigkeit, mehrere menschliche Stimmen schnell zu synthetisieren, wird in Zukunft große Auswirkungen auf Produkte wie persönliche Assistenten und E-Book-Reader haben. Beispielsweise könnte jeder Charakter Ihres E-Books eine einzigartige Stimme haben, wenn Sie das E-Book anhören.“
Werten Sie Ihren Lebensstil aufDigital Trends hilft Lesern mit den neuesten Nachrichten, unterhaltsamen Produktrezensionen, aufschlussreichen Leitartikeln und einzigartigen Einblicken, den Überblick über die schnelllebige Welt der Technik zu behalten.