Αυτό το AI μπορεί να παραπλανήσει τη φωνή σας μετά από μόλις τρία δευτερόλεπτα

Η τεχνητή νοημοσύνη (AI) είναι περνώντας μια στιγμή αυτή τη στιγμή, και ο άνεμος συνεχίζει να φυσά στα πανιά του με την είδηση ότι η Microsoft εργάζεται πάνω σε μια τεχνητή νοημοσύνη που μπορεί να μιμηθεί τη φωνή οποιουδήποτε μετά από ένα σύντομο δείγμα τριών δευτερολέπτων.

Το νέο εργαλείο, που ονομάζεται VALL-E, έχει εκπαιδευτεί σε περίπου 60.000 ώρες φωνητικών δεδομένων στην αγγλική γλώσσα, η οποία σύμφωνα με τη Microsoft είναι «εκατοντάδες φορές μεγαλύτερη από τα υπάρχοντα συστήματα». Χρησιμοποιώντας αυτή τη γνώση, οι δημιουργοί του ισχυρίζονται ότι χρειάζεται μόνο μια μικρή ποσότητα φωνητικής εισαγωγής για να κατανοήσει πώς να αναπαράγει τη φωνή ενός χρήστη.

άνδρας που μιλάει στο τηλέφωνο — Fizkes/Shutterstock

Πιο εντυπωσιακό, το VALL-E μπορεί να αναπαράγει τα συναισθήματα, τους φωνητικούς τόνους και το ακουστικό περιβάλλον που βρίσκονται σε κάθε δείγμα, κάτι με το οποίο άλλα προγράμματα φωνητικής τεχνητής νοημοσύνης έχουν δυσκολευτεί. Αυτό του δίνει μια πιο ρεαλιστική αύρα και φέρνει τα αποτελέσματά του πιο κοντά σε κάτι που θα μπορούσε να περάσει ως γνήσια ανθρώπινη ομιλία.

Σχετίζεται με

GPT-4: πώς να χρησιμοποιήσετε το chatbot AI που κάνει το ChatGPT σε ντροπή
Το Google Bard μπορεί τώρα να μιλήσει, αλλά μπορεί να πνίξει το ChatGPT;
Η νέα εταιρεία τεχνητής νοημοσύνης του Έλον Μασκ στοχεύει να «κατανοήσει το σύμπαν»

Σε σύγκριση με άλλους ανταγωνιστές μετατροπής κειμένου σε ομιλία (TTS), η Microsoft λέει ότι το VALL-E «υπερέχει σημαντικά το υπερσύγχρονο σύστημα μηδενικής λήψης TTS όσον αφορά την ομιλία φυσικότητα και ομοιότητα ηχείων». Με άλλα λόγια, το VALL-E μοιάζει πολύ περισσότερο με πραγματικούς ανθρώπους παρά με αντίπαλα AI που συναντούν εισόδους ήχου που δεν έχουν εκπαιδευτεί επί.

Προτεινόμενα βίντεο

Στο GitHub, η Microsoft έχει δημιουργήσει ένα μικρή βιβλιοθήκη δειγμάτων δημιουργήθηκε χρησιμοποιώντας VALL-E. Τα αποτελέσματα είναι ως επί το πλείστον πολύ εντυπωσιακά, με πολλά δείγματα που αναπαράγουν τη φωτεινότητα και την προφορά των φωνών των ομιλητών. Μερικά από τα παραδείγματα είναι λιγότερο πειστικά, υποδεικνύοντας ότι το VALL-E δεν είναι πιθανότατα ένα τελικό προϊόν, αλλά συνολικά το αποτέλεσμα είναι πειστικό.

Τεράστιες δυνατότητες — και κίνδυνοι

Ένα άτομο που πραγματοποιεί μια βιντεοκλήση σε μια συσκευή Microsoft Surface με Windows 11. — Microsoft/Unsplash

Σε ένα χαρτί που παρουσιάζει το VALL-E, η Microsoft εξηγεί ότι το VALL-E «μπορεί να εγκυμονεί πιθανούς κινδύνους από κακή χρήση του μοντέλου, όπως πλαστογράφηση φωνής ταυτοποίηση ή πλαστοπροσωπία ενός συγκεκριμένου ομιλητή». Ένα τόσο ικανό εργαλείο για τη δημιουργία ρεαλιστικών ανεβάσεων ομιλίας το φάντασμα του όλο και πιο πειστικά deepfakes, το οποίο θα μπορούσε να χρησιμοποιηθεί για να μιμηθεί οτιδήποτε, από έναν πρώην ρομαντικό σύντροφο έως μια εξέχουσα διεθνή προσωπικότητα.

Για να μετριαστεί αυτή η απειλή, η Microsoft λέει ότι «είναι δυνατό να δημιουργηθεί ένα μοντέλο ανίχνευσης για να γίνει διάκριση εάν ένα ηχητικό κλιπ συντέθηκε από το VALL-E». Η εταιρεία λέει ότι θα χρησιμοποιήσει και τη δική της Αρχές τεχνητής νοημοσύνης κατά την ανάπτυξη του έργου του. Αυτές οι αρχές καλύπτουν τομείς όπως η δικαιοσύνη, η ασφάλεια, το απόρρητο και η λογοδοσία.

Το VALL-E είναι μόνο το πιο πρόσφατο παράδειγμα πειραματισμού της Microsoft με την τεχνητή νοημοσύνη. Πρόσφατα, η εταιρεία εργάζεται σε ενσωμάτωση του ChatGPT στο Bing, χρησιμοποιώντας AI για να ανακεφαλαιώστε τις συναντήσεις των ομάδων σαςκαι εμβολιάζοντας προηγμένα εργαλεία σε εφαρμογές όπως Outlook, Word και PowerPoint. Και σύμφωνα με τη Semafor, η Microsoft θέλει να το κάνει επενδύσει 10 δισεκατομμύρια δολάρια στον κατασκευαστή του ChatGPT OpenAI, μια εταιρεία στην οποία έχει ήδη οργώσει σημαντικά κεφάλαια.

Παρά τους προφανείς κινδύνους, εργαλεία όπως το VALL-E θα μπορούσαν να είναι ιδιαίτερα χρήσιμα στην ιατρική, για παράδειγμα, για να βοηθήσουν τους ανθρώπους να ανακτήσουν τη φωνή τους μετά από ένα ατύχημα. Η δυνατότητα αναπαραγωγής ομιλίας με ένα τόσο μικρό σύνολο εισόδων θα μπορούσε να είναι πολλά υποσχόμενη σε αυτές τις περιπτώσεις, υπό την προϋπόθεση ότι γίνεται σωστά. Αλλά με όλα τα χρήματα που δαπανώνται για την τεχνητή νοημοσύνη - τόσο από τη Microsoft όσο και από άλλους - είναι σαφές ότι δεν θα εξαφανιστεί σύντομα.

Συστάσεις των συντακτών

Οι κορυφαίοι συγγραφείς απαιτούν πληρωμή από εταιρείες τεχνητής νοημοσύνης για τη χρήση του έργου τους
Τα καλύτερα εργαλεία επεξεργασίας βίντεο AI
Ο κατασκευαστής ChatGPT OpenAI αντιμετωπίζει έρευνα της FTC σχετικά με τους νόμους περί προστασίας των καταναλωτών
Οι ανακαλύψεις στην τεχνητή νοημοσύνη θα μπορούσαν να έρθουν μέσω του εγκεφάλου των μελισσών, λένε οι επιστήμονες
Η OpenAI χτίζει νέα ομάδα για να σταματήσει η υπερευφυής τεχνητή νοημοσύνη να γίνεται απατεώνας

Αναβαθμίστε τον τρόπο ζωής σαςΤο Digital Trends βοηθά τους αναγνώστες να παρακολουθούν τον γρήγορο κόσμο της τεχνολογίας με όλα τα τελευταία νέα, διασκεδαστικές κριτικές προϊόντων, διορατικά editorial και μοναδικές κρυφές ματιές.

Αυτό το AI μπορεί να παραπλανήσει τη φωνή σας μετά από μόλις τρία δευτερόλεπτα

Τεράστιες δυνατότητες — και κίνδυνοι

Συστάσεις των συντακτών

Κατηγορίες

Πρόσφατος

Η Wisenet-SmartCam D1 αναγνωρίζει τα πρόσωπα στην πόρτα σας

Η Maximus αποκαλύπτει το Answer Video Doorbell, New Porch Light στην CES 2019

Το Avengers: Infinity War θα γυριστεί εξ ολοκλήρου με κάμερες IMAX