Η Veritone θέλει να κλωνοποιήσει τη φωνή σας σε βάθος

Υπάρχει μια βίντεο που εμφανίζεται περιοδικά στη ροή μου στο YouTube. Είναι μια συνομιλία μεταξύ των ράπερ Snoop Dogg και του 50 Cent που θρηνεί το γεγονός ότι, σε σύγκριση με τη γενιά τους, όλοι οι σύγχρονοι καλλιτέχνες hip-hop προφανώς ακούγονται το ίδιο. «Όταν ένα άτομο αποφασίζει να είναι ο εαυτός του, προσφέρει κάτι που κανείς άλλος δεν μπορεί να είναι», λέει ο 50 Cent. «Ναι, γιατί όταν είσαι εσύ — ποιος μπορεί να είσαι εκτός από εσένα;» Ο Snoop απαντά.

Περιεχόμενα

  • «Μπορούμε να επαναπροσδιορίσουμε πολλά»
  • Πώς θα αντιδράσει το κοινό;
  • Σκεφτείτε το μέλλον

Ο Snoop Dogg υποδύεται τη ροή των σημερινών ράπερ που μοιάζει με ήχο

Όταν το βίντεο ανέβηκε τον Οκτώβριο του 2014, αυτό μπορεί να ήταν σε γενικές γραμμές αλήθεια. Αλλά λίγα χρόνια αργότερα σίγουρα δεν είναι. Σε έναν κόσμο ηχητικών deepfakes, είναι δυνατό να εκπαιδεύσετε ένα A.I. να ακούγεται παράξενα παρόμοιο με ένα άλλο άτομο, τροφοδοτώντας του ένα ηχητικό σώμα που αποτελείται από ώρες από τα προφορικά δεδομένα του. Τα αποτελέσματα είναι απίστευτα ακριβής.

Προτεινόμενα βίντεο

Δημόσια πρόσωπα όπως το ράπερ Jay-Z και ο ψυχολόγος Τζόρνταν Πίτερσον έχουν ήδη παραπονεθεί για άτομα που οικειοποιούνται κατάχρηση της φωνής τους δημιουργώντας ηχητικά ψεύτικα και στη συνέχεια τους βάζουν να λένε ανόητα πράγματα στο Διαδίκτυο. "Ξύπνα," έγραψε ο Peterson. «Η ιερότητα της φωνής σου και της εικόνας σου διατρέχει σοβαρό κίνδυνο». Αυτές είναι απλώς οι άτακτες περιπτώσεις. Σε άλλες, τα αποτελέσματα μπορεί να οδηγήσουν σε αδιάκριτη εγκληματικότητα. Σε ένα περιστατικό του 2019, οι εγκληματίες χρησιμοποίησαν ένα ακουστικό deepfake για να υποδυθούν τη φωνή του Διευθύνοντος Συμβούλου μιας ενεργειακής εταιρείας και να πείσουν έναν υποχείριο μέσω τηλεφώνου να μεταφέρει επειγόντως 243.000 δολάρια σε τραπεζικό λογαριασμό.

Veritone, ένα A.I. εταιρεία που δημιουργεί έξυπνα εργαλεία για την επισήμανση μέσων για τη βιομηχανία ψυχαγωγίας, είναι επαναφέροντας το ακουστικό deepfake power στα χέρια (ή, λάθος, στο λαιμό) εκείνων στους οποίους δικαίως ανήκει. Αυτό το μήνα, ανακοίνωσε η εταιρεία Marvel.ai, αυτό που ο πρόεδρος της εταιρείας Ryan Steelberg περιέγραψε στο Digital Trends ως μια «πλήρη λύση φωνής ως υπηρεσίας». Η Veritone θα κατασκευάσει έναντι αμοιβής ένα A.I. μοντέλο που ακούγεται ακριβώς όπως εσείς (ή, πιο πιθανό, ένα διάσημο πρόσωπο με αμέσως αναγνωρίσιμη φωνή), το οποίο στη συνέχεια μπορεί να λάβει άδεια δανεισμού σαν μια έκδοση υψηλής τεχνολογίας του του Άριελ διαπραγμάτευση φωνής ως εγγύηση από Η Μικρή Γοργόνα.

Synthetic Voice της MARVEL.ai

«Η φωνή σας είναι εξίσου πολύτιμη με οποιοδήποτε άλλο χαρακτηριστικό περιεχομένου ή επωνυμίας που έχετε», είπε ο Steelberg. "[Είναι σε ένα επίπεδο με] το όνομα και την ομοιότητα σας, το πρόσωπό σας, την υπογραφή σας ή ένα τραγούδι που έχετε γράψει ή ένα κομμάτι περιεχομένου που έχετε δημιουργήσει."

«Μπορούμε να επαναπροσδιορίσουμε πολλά»

Ορισμένα άτομα, φυσικά, έχουν πουλήσει εδώ και καιρό τις φωνές τους με τη μορφή ηχογράφησης διαφημίσεων ή φωνητικών φωνητικών, τραγουδώντας τραγούδια και αμέτρητες άλλες μορφές δημιουργίας εσόδων. Αλλά όλες αυτές οι προσπάθειες απαιτούσαν από το άτομο να πει πραγματικά τις λέξεις. Αυτό που υπόσχεται να κάνει η λύση της Veritone είναι να το κάνει μεμονωμένα επεκτάσιμο.

Τι θα γινόταν αν, για παράδειγμα, ήταν δυνατό για τον Kevin Hart να χορηγήσει άδεια για τη φωνή του σε μια μάρκα πολυτελείας που θα μπορούσε στη συνέχεια να τη χρησιμοποιήσει για να δημιουργήσει εξατομικευμένες διαφημίσεις με το όνομα του θεατή, την τοποθεσία του πλησιέστερου καταστήματος πώλησης και το συγκεκριμένο προϊόν που θα μπορούσαν να είναι πιο πιθανό να αγορά? Αντί να περνάει κυριολεκτικά μέρες στο θάλαμο ηχογράφησης, ο A.I. θα μπορούσε να επιτρέψει αυτό να γίνει με λίγα περισσότερα (ενεργό Το μέρος του Χαρτ, τουλάχιστον) από το να υπογράψει στη διακεκομμένη γραμμή για να συμφωνήσει ότι η ομοιότητα της φωνής του θα αξιοποιηθεί από τον εν λόγω τρίτο κόμμα. Ενώ βρισκόταν στα γυρίσματα μιας ταινίας, ή κάνοντας μια περιοδεία κωμωδίας, ή έκανε διακοπές ή ακόμα και κοιμόταν, η ψηφιακή του φωνή μπορεί να έβγαζε χρήματα.

«Μπορούμε να επαναπροσδιορίσουμε πολλά», εξήγησε ο Steelberg, σχετικά με τη διαδικασία εκπαίδευσης. «Οι άνθρωποι που μιλούν ήδη πολύ, αν παράγουν ένα podcast ή στα μέσα ενημέρωσης, υπάρχουν πολλά δεδομένα εκεί έξω. Πιθανότατα έχουμε ήδη έναν τόνο από αυτό, αν τύχει να είναι πελάτης μας."

«Αυτό που βρίσκουμε τόσο συναρπαστικό σε αυτή τη νέα κατηγορία A.I. είναι η επεκτασιμότητα και η μεταβλητότητα».

Ο Steelberg είπε ότι η ιδέα του voice-as-a-service εμφανίστηκε στη Veritone πριν από αρκετά χρόνια. Ωστόσο, εκείνη την εποχή δεν είχε πειστεί ότι τα μοντέλα μηχανικής μάθησης μπορούσαν να δημιουργήσουν τις υπερρεαλιστικές συνθετικές φωνές που αναζητούσε. Αυτό είναι ιδιαίτερα σημαντικό όταν πρόκειται για φωνές που γνωρίζουμε από κοντά, ακόμα κι αν δεν έχουμε συναντήσει ποτέ πραγματικά τον εν λόγω ομιλητή. Τα αποτελέσματα μπορεί να είναι κάποιου είδους ακουστός παράξενη κοιλάδα, με κάθε λάθος ήχο που ειδοποιεί τους ακροατές για το γεγονός ότι ακούνε ένα ψεύτικο. Αλλά εδώ το 2021 είναι πεπεισμένος ότι τα πράγματα έχουν προχωρήσει σε σημείο που αυτό είναι πλέον δυνατό. Εξ ου και Marvel.ai.

Ο Steelberg μιλά με ενθουσιασμένα τσιτάτα για τις τεράστιες δυνατότητες της τεχνολογίας, μιλώντας για την πιθανή πληθώρα των «τρόπων εκτέλεσης». Η Veritone μπορεί να δημιουργήσει μοντέλα για μετατροπή κειμένου σε ομιλία. Μπορεί επίσης να δημιουργήσει μοντέλα για ομιλία σε ομιλία, όπου ένας φωνητικός ηθοποιός μπορεί να «οδηγήσει» μια φωνητική απόδοση διαβάζοντας οι λέξεις με κατάλληλη κλίση και στη συνέχεια έχοντας την τελειωμένη φωνή επικάλυψη στο τέλος σαν ένα Snapchat φίλτρο. Η εταιρεία μπορεί επίσης να αποτυπώσει δακτυλικά αποτυπώματα σε κάθε φωνή, ώστε να μπορεί να πει εάν ένα κομμάτι φαινομενικά αληθινού ήχου που αναδύεται κάπου δημιουργήθηκε χρησιμοποιώντας την τεχνολογία της.

«Όσο περισσότερο το σκέφτεστε… θα βρείτε κυριολεκτικά 50 περισσότερες [πιθανές περιπτώσεις χρήσης]», είπε. «Αυτό που βρίσκουμε τόσο συναρπαστικό σε αυτή τη νέα κατηγορία A.I. είναι η επεκτασιμότητα και η μεταβλητότητα».

Σκεφτείτε μερικά άλλα. Ένας διάσημος αθλητής μπορεί να είναι θεός στο γήπεδο μπάσκετ, αλλά διάβολος όταν πρόκειται ανάγνωση γραμμών σε ένα σενάριο με τρόπο που ακούγεται φυσικό. Χρησιμοποιώντας την τεχνολογία της Veritone, τον ρόλο τους στις σκηνές βιντεοπαιχνιδιών ή στην ανάγνωση ενός ηχητικού βιβλίου των απομνημονεύσεών τους (τα οποία μπορεί επίσης να μην έχει γράψει) θα μπορούσε να εκτελεστεί από έναν φωνητικό ηθοποιό, ο οποίος στη συνέχεια τροποποιείται ψηφιακά ώστε να ακούγεται σαν αθλητής. Ως άλλη δυνατότητα, μια ταινία θα μπορούσε να μεταφραστεί για άλλες χώρες με την ίδια φωνή ηθοποιού να διαβάζει τώρα το γραμμές στα γαλλικά, στα μανδαρινικά ή σε οποιαδήποτε άλλη από πολλές γλώσσες, ακόμα κι αν ο ηθοποιός δεν μιλά πραγματικά τους.

Πώς θα αντιδράσει το κοινό;

Ένα μεγάλο ερώτημα που κρέμεται πάνω από όλα αυτά, φυσικά, είναι πώς τα μέλη του κοινού θα ανταποκριθούν σε όλα αυτά. Αυτό είναι το δύσκολο, απρόβλεπτο κομμάτι. Οι διασημότητες σήμερα πρέπει να διαδραματίσουν έναν περίπλοκο ρόλο: Και οι δύο φιγούρες που αξίζουν να κολλήσουν το πρόσωπό τους σε διαφημιστικές πινακίδες, αλλά και συγγενικά άτομα που έχουν προβλήματα σχέσης, κάνουν tweet ότι βλέπουν τηλεόραση με τις πιτζάμες τους και κάνουν ανόητες γκριμάτσες όταν τρώνε ζεστά σάλτσα.

Τι συμβαίνει, λοιπόν, όταν εμφανίζονται διαφημίσεις που δεν διαθέτουν μόνο γραμμές ανάγνωσης διασημοτήτων, αλλά σε περιπτώσεις που γνωρίζουμε ότι είπε Ο καλλιτέχνης δεν είπε ποτέ αυτές τις γραμμές, αλλά μάλλον χρησιμοποιήθηκε προγραμματικά η φωνή του για να μας φέρει μια στοχευμένη Ενα δ? Ο Steelberg είπε ότι είναι λίγο διαφορετικό από μια διασημότητα που παραδίδει τον έλεγχο των μέσων κοινωνικής δικτύωσης σε έναν διαχειριστή λογαριασμού τρίτου μέρους. Αν δούμε την Τέιλορ Σουίφτ να κάνει tweet, ξέρουμε ότι πιθανότατα η ίδια η Τέιλορ δεν εκπέμπει το μήνυμα, ειδικά αν πρόκειται για έγκριση ή διαφημιστικό περιεχόμενο.

Αλλά η φωνή είναι, με έναν πολύ πραγματικό τρόπο, διαφορετική, ακριβώς επειδή είναι πιο προσωπική. Ειδικά αν συνοδεύεται από έναν βαθμό εξατομίκευσης, που είναι μια από τις περιπτώσεις χρήσης που έχει το πιο νόημα. Η αλήθεια είναι ότι, για να αναφέρω τον σεναριογράφο Γουίλιαμ Γκόλντμαν, κανείς δεν ξέρει ποια θα είναι η ανταπόκριση του κοινού — ακριβώς επειδή κανείς δεν έχει κάνει ακριβώς αυτό πριν.

«Θα τρέξει το φάσμα, σωστά;» είπε ο Steelberg. "[Κάποιοι] άνθρωποι θα πουν, "Θα χρησιμοποιήσω αυτό το εργαλείο λίγο για να αυξήσω τη μέρα μου για να με βοηθήσω να εξοικονομήσω χρόνο". Άλλοι θα πουν, ολοφάνερα, «Θέλω η φωνή μου παντού να επεκτείνει την επωνυμία μου, και θα την αδειοδοτήσω έξω.'"

Η καλύτερη εικασία του είναι ότι η αποδοχή θα γίνει κατά περίπτωση. «Πρέπει να είστε συντονισμένοι με την αντίδραση του κοινού σας και αν δείτε ότι τα πράγματα λειτουργούν ή δεν λειτουργούν», είπε. «Μπορεί να τους αρέσει. Μπορεί να πουν, «Ξέρεις τι; Μου αρέσει το γεγονός ότι μου βγάζετε 10 φορές περισσότερο περιεχόμενο ή περισσότερο προσωπικό περιεχόμενο, παρόλο που ξέρω ότι χρησιμοποιήσατε συνθετικό περιεχόμενο για να το αυξήσετε. Ευχαριστώ. Ευχαριστώ.'"

Σκεφτείτε το μέλλον

Veritone MARVEL.ai
Veritone

Όσο για το μέλλον; Ο Steelberg είπε ότι «Θέλουμε να συνεργαστούμε με όλα τα μεγάλα γραφεία ταλέντων. Πιστεύουμε ότι οποιοσδήποτε ασχολείται με το να κερδίζει χρήματα γύρω από μια σπάνια επωνυμία θα πρέπει να σκέφτεται τη φωνητική στρατηγική του.»

Και μην περιμένετε να παραμείνει μόνο για τον ήχο. «Πάντα μας γοήτευε η δυνατότητα χρήσης συνθετικού περιεχομένου είτε για να επεκτείνουμε, να αυξήσουμε ή ενδεχομένως να αντικαταστήσουμε πλήρως ορισμένες από τις παλαιού τύπου μορφές παραγωγής περιεχομένου», συνέχισε. «Είτε αυτό με ηχητική έννοια ή, τελικά στο μέλλον, α αίσθηση βίντεο.”

Αυτό είναι σωστό: Μόλις στριμώξει την αγορά στον κόσμο των audio deepfakes, η Veritone σχεδιάζει να προχωρήσει ένα βήμα παραπέρα και να εισέλθει στον κόσμο των πλήρως υλοποιημένα εικονικά άβαταρ που τόσο ακούγονται όσο και φαίνονται δυσδιάκριτα από την πηγή τους.

Ξαφνικά αυτά εξατομικευμένες διαφημίσεις από Εκθεση μειονότητας ακούγεται πολύ λιγότερο σαν επιστημονική φαντασία.

Συστάσεις των συντακτών

  • Βραβεία Digital Trends Tech For Change CES 2023
  • Μέσα στον ταχέως κλιμακούμενο πόλεμο μεταξύ deepfakes και deepfake ανιχνευτών
  • Η Alexa και η Siri δεν μπορούν να καταλάβουν τον τόνο της φωνής σας, αλλά ο Oto μπορεί
  • Η Καλιφόρνια καταπολεμά τα deepfakes για πολιτική και πορνό
  • Παραμείνετε ανώνυμοι στο διαδίκτυο με την τεχνολογία deepfake που δημιουργεί ένα εντελώς νέο πρόσωπο για εσάς