Veritone möchte Ihre Stimme per Deepfake klonen

Da ist ein Video Das taucht regelmäßig in meinem YouTube-Feed auf. Es ist ein Gespräch zwischen den Rappern Snoop Dogg und 50 Cent, in dem sie die Tatsache beklagen, dass im Vergleich zu ihrer Generation alle modernen Hip-Hop-Künstler offenbar gleich klingen. „Wenn eine Person beschließt, sie selbst zu sein, bietet sie etwas an, was kein anderer sein kann“, sagt 50 Cent. „Ja, denn wenn du erst einmal du selbst bist – wer außer dir kann du sein?“ Snoop antwortet.

Inhalt

„Wir können vieles umfunktionieren“
Wie wird die Öffentlichkeit reagieren?
Denke an die Zukunft

Snoop Dogg verkörpert den klangähnlichen Flow heutiger Rapper

Als das Video im Oktober 2014 hochgeladen wurde, mag das im Großen und Ganzen der Fall gewesen sein. Aber nur ein paar Jahre später ist das ganz sicher nicht der Fall. In einer Welt voller Audio-Deepfakes ist es möglich, eine KI zu trainieren. um einer anderen Person unheimlich ähnlich zu klingen, indem man ihr ein Audiokorpus füttert, das aus Stunden ihrer gesprochenen Daten besteht. Die Ergebnisse sind beunruhigend genau.

Empfohlene Videos

Persönlichkeiten des öffentlichen Lebens wie die Rapper Jay-Z und der Psychologe Jordan Peterson haben sich bereits darüber beschwert, dass Menschen ihre Stimmen missbrauchen, indem sie Audio-Deepfakes erstellen und sie dann dazu bringen, im Internet alberne Dinge zu sagen. "Aufwachen," schrieb Peterson. „Die Heiligkeit Ihrer Stimme und Ihres Images ist ernsthaft gefährdet.“ Das sind nur die schelmischen Fälle. In anderen Fällen können die Ergebnisse in undifferenzierte Kriminalität münden. In ein Vorfall im Jahr 2019, Kriminelle nutzten einen Audio-Deepfake, um die Stimme des CEO eines Energieunternehmens nachzuahmen und einen Untergebenen am Telefon zu überreden, dringend 243.000 US-Dollar auf ein Bankkonto zu überweisen.

Veritone, ein A.I. Unternehmen, das intelligente Tools zur Etikettierung von Medien für die Unterhaltungsindustrie entwickelt, ist die Audio-Deepfake-Macht wieder in die Hände (oder, äh, die Kehlen) derer zu legen, denen sie zu Recht zusteht gehört. Diesen Monat gab das Unternehmen bekannt Marvel.ai, was Unternehmenspräsident Ryan Steelberg gegenüber Digital Trends als „komplette Voice-as-a-Service-Lösung“ beschrieb. Gegen eine Gebühr baut Veritone eine KI. Modellieren Sie das klingt genau wie Sie (oder, was wahrscheinlicher ist, eine berühmte Person mit einer sofort erkennbaren Stimme), die dann wie eine High-Tech-Version ausgeliehen werden kann Ariels Voice-as-Collateral-Schnäppchen aus Die kleine Meerjungfrau.

Synthetische Stimme von MARVEL.ai

„Ihre Stimme ist genauso wertvoll wie jeder andere Inhalt oder jedes Markenmerkmal, das Sie haben“, sagte Steelberg. „[Es ist auf einer Ebene mit] Ihrem Namen und Ihrem Abbild, Ihrem Gesicht, Ihrer Unterschrift oder einem Lied, das Sie geschrieben haben, oder einem Inhalt, den Sie erstellt haben.“

„Wir können vieles umfunktionieren“

Bestimmte Personen haben ihre Stimmen natürlich schon seit langem verkauft, indem sie Werbespots oder Voice-Overs aufzeichnen, Lieder singen und unzählige andere Formen der Monetarisierung nutzen. Aber all diese Unternehmungen erforderten, dass die Person die Worte tatsächlich aussprach. Die Lösung von Veritone verspricht, dies individuell skalierbar zu machen.

Was wäre, wenn es beispielsweise Kevin Hart möglich wäre, seine Stimme an eine Luxusmarke zu lizenzieren, die sie dann zur Erstellung personalisierter Anzeigen nutzen könnte? mit dem Namen des Betrachters, dem Standort der nächstgelegenen stationären Verkaufsstelle und dem jeweiligen Produkt, das er am wahrscheinlichsten kaufen könnte kaufen? Anstatt buchstäblich Tage in der Aufnahmekabine zu verbringen, hat A.I. könnte dies mit etwas mehr (on) ermöglichen Zumindest Harts Rolle), als auf der gepunkteten Linie zu unterzeichnen, dass seine Stimmähnlichkeit von besagtem Dritten genutzt werden darf Party. Während er einen Film drehte, eine Comedy-Tour machte, Urlaub machte oder sogar schlief, konnte seine digitale Stimme Geld einstreichen.

„Wir können vieles umfunktionieren“, erklärte Steelberg in Bezug auf den Trainingsprozess. „Menschen, die bereits viel reden, sei es bei der Produktion eines Podcasts oder in den Medien, es gibt eine Menge Daten da draußen. Wir haben wahrscheinlich schon eine Menge davon, wenn sie zufällig ein Kunde von uns sind.“

„Was wir an dieser neuen Kategorie der KI so faszinierend finden, ist ist die Erweiterbarkeit und die Variabilität.“

Steelberg sagte, dass Veritone vor einigen Jahren auf die Voice-as-a-Service-Idee gekommen sei. Allerdings war er damals nicht davon überzeugt, dass Modelle des maschinellen Lernens in der Lage seien, die von ihm gesuchten hyperrealistischen synthetischen Stimmen zu erzeugen. Dies ist besonders wichtig, wenn es um Stimmen geht, die wir gut kennen, auch wenn wir den betreffenden Sprecher noch nie persönlich getroffen haben. Die Ergebnisse könnten irgendwie sein hörbar Unheimliches Tal, bei dem jedes falsche Geräusch den Zuhörer darauf aufmerksam macht, dass es sich um eine Fälschung handelt. Aber hier im Jahr 2021 ist er überzeugt, dass die Dinge so weit fortgeschritten sind, dass dies jetzt möglich ist. Daher Marvel.ai.

Steelberg spricht in begeisterten Schlagworten über das enorme Potenzial der Technologie und spricht von ihrer möglichen Fülle an „Ausführungsmodalitäten“. Veritone kann Modelle für Text-to-Speech erstellen. Es können auch Modelle für Speech-to-Speech erstellt werden, bei denen ein Synchronsprecher eine Gesangsdarbietung durch Vorlesen „antreiben“ kann die Wörter mit passender Betonung einfügen und am Ende die fertige Stimme wie bei einem Snapchat überlagern Filter. Das Unternehmen kann auch jede Stimme mit einem Fingerabdruck versehen, um festzustellen, ob ein scheinbar echtes Audiostück, das irgendwo auftaucht, mit seiner Technologie erstellt wurde.

„Je mehr Sie darüber nachdenken … Ihnen werden buchstäblich 50 weitere [mögliche Anwendungsfälle] einfallen“, sagte er. „Was wir an dieser neuen Kategorie der KI so faszinierend finden, ist ist die Erweiterbarkeit und die Variabilität.“

Betrachten Sie einige andere. Ein berühmter Sportler mag auf dem Basketballplatz ein Gott sein, aber wenn es darum geht, ist er ein Teufel Zeilen in einem Drehbuch so lesen, dass sie natürlich klingen. Mithilfe der Technologie von Veritone können sie ihre Rolle in Zwischensequenzen von Videospielen spielen oder ein Hörbuch ihrer Memoiren lesen (die sie möglicherweise auch nicht geschrieben) könnte von einem Synchronsprecher vorgetragen werden, der dann digital so angepasst wird, dass er wie der klingt Athlet. Als weitere Möglichkeit könnte ein Film für andere Länder übersetzt werden, wobei die gleiche Stimme des Schauspielers ihn jetzt liest Zeilen auf Französisch, Mandarin oder einer anderen von mehreren Sprachen, auch wenn der Schauspieler nicht wirklich spricht ihnen.

Wie wird die Öffentlichkeit reagieren?

Eine große Frage, die darüber hängt, ist natürlich, wie die Öffentlichkeit darauf reagieren wird. Das ist das Knifflige und Unvorhersehbare. Heutzutage müssen Berühmtheiten eine komplexe Rolle spielen: Sowohl überlebensgroße Figuren, deren Gesicht auf Werbetafeln prangt, als auch Zuordenbare Personen, die Beziehungsprobleme haben, twittern über das Fernsehen im Schlafanzug und machen alberne Gesichter, wenn sie heiß essen Soße.

Was passiert dann, wenn Anzeigen geschaltet werden, die nicht nur die Lesezeilen einer Berühmtheit enthalten, sondern in Fällen, in denen wir das wissen? Der Darsteller hat diese Zeilen nie wirklich gesagt, sondern seine Stimme wurde programmatisch eingesetzt, um uns eine gezielte Aussage zu vermitteln Anzeige? Steelberg sagte, es sei kaum etwas anderes, als wenn eine Berühmtheit die Kontrolle über ihre sozialen Medien an einen Account Manager eines Drittanbieters übergibt. Wenn wir einen Tweet von Taylor Swift sehen, wissen wir, dass es sich wahrscheinlich nicht um Taylor selbst handelt, die die Botschaft verbreitet, insbesondere wenn es sich um eine Empfehlung oder einen Werbeinhalt handelt.

Aber die Stimme ist auf ganz reale Weise anders, gerade weil sie persönlicher ist. Vor allem, wenn damit ein gewisses Maß an Personalisierung einhergeht, was einer der sinnvollsten Anwendungsfälle ist. Die Wahrheit ist, dass, um den Drehbuchautor William Goldman zu zitieren, niemand weiß, wie die öffentliche Reaktion ausfallen wird – gerade weil niemand genau das zuvor getan hat.

„Es wird das gesamte Spektrum abdecken, oder?“ sagte Steelberg. „[Einige] Leute werden sagen: ‚Ich werde dieses Tool ein wenig nutzen, um meinen Tag zu bereichern und Zeit zu sparen.‘ Andere werden ganz klar sagen: „Ich möchte, dass meine Stimme überall meine Marke verbreitet, und ich werde sie lizenzieren.“ aus.'"

Seine beste Vermutung ist, dass die Annahme von Fall zu Fall erfolgen wird. „Sie müssen im Einklang mit der Reaktion Ihres Publikums sein und darauf achten, ob die Dinge funktionieren oder nicht“, sagte er. „Sie mögen es vielleicht lieben. Sie sagen vielleicht: „Weißt du was? Ich liebe die Tatsache, dass Sie mir zehnmal mehr Inhalte oder persönlichere Inhalte zur Verfügung stellen, obwohl ich weiß, dass Sie synthetische Inhalte verwendet haben, um diese zu ergänzen. Danke schön. Danke schön.'"

Denke an die Zukunft

Was die Zukunft betrifft? Steelberg sagte: „Wir wollen mit allen großen Talentagenturen zusammenarbeiten. Wir sind der Meinung, dass jeder, der mit einer seltenen Marke Geld verdienen möchte, über seine Sprachstrategie nachdenken sollte.“

Und erwarten Sie auch nicht, dass es nur um Audio geht. „Wir waren schon immer fasziniert von dem Potenzial, synthetische Inhalte zu nutzen, um einige der alten Formen der Inhaltsproduktion entweder zu erweitern, zu erweitern oder möglicherweise vollständig zu ersetzen“, fuhr er fort. „Sei es im akustischen Sinne oder, letztendlich in der Zukunft, a Videosinn.”

Das ist richtig: Sobald Veritone den Markt in der Welt der Audio-Deepfakes erobert hat, plant es, noch einen Schritt weiter zu gehen und in die Welt der Deepfakes einzusteigen vollständig realisierte virtuelle Avatare die sowohl klanglich als auch optisch nicht von ihrer Quelle zu unterscheiden sind.

Plötzlich diese personalisierte Anzeigen von Minderheitsbericht klingt viel weniger nach Science-Fiction.

Empfehlungen der Redaktion

Tech For Change CES 2023 Awards von Digital Trends
Im schnell eskalierenden Krieg zwischen Deepfakes und Deepfake-Detektoren
Alexa und Siri können den Ton Ihrer Stimme nicht verstehen, Oto jedoch schon
Kalifornien geht hart gegen Deepfakes aus Politik und Pornos vor
Bleiben Sie online anonym mit der Deepfake-Technologie, die Ihnen ein völlig neues Gesicht verleiht