Deep Voice 2, που ακολουθεί το δημόσιο ντεμπούτο του Deep Voice νωρίτερα φέτος, μπορεί να παράγει ομιλία σε πραγματικό χρόνο που δεν διακρίνεται σχεδόν από την ανθρώπινη φωνή. Ακόμη πιο εντυπωσιακό, χρειάζεται μόλις τριάντα λεπτά ήχου για τη δημιουργία ενός μοντέλου λειτουργίας και μπορεί να μιμηθεί τις τοπικές προφορές εκατοντάδων διαφορετικών ηχείων.
Προτεινόμενα βίντεο
Αυτό είναι άλματα και όρια καλύτερα από τις πρώτες εκδόσεις του Deep Voice, που χρειάστηκαν πολλές ώρες για να μάθει μια φωνή.
Το κλειδί είναι η ικανότητα του Deep Voice 2 να εντοπίζει ομοιότητες μεταξύ εκατοντάδων διαφορετικών ηχείων για να δημιουργήσει ένα λειτουργικό μοντέλο ανθρώπινης φωνής. Στη συνέχεια, αντλεί αυτόνομα μοναδικές φωνές από αυτό το μοντέλο — σε αντίθεση με τους βοηθούς φωνής όπως το Siri της Apple, που απαιτούν ανθρώπινο ρεκόρ χιλιάδων ωρών ομιλίας που οι μηχανικοί συντονίζουν με το χέρι, το Deep Voice 2 δεν απαιτεί καθοδήγηση ή εγχειρίδιο παρέμβαση.
«Δώστε του τα σωστά δεδομένα και μπορεί να μάθει από μόνο του τι είδους χαρακτηριστικά είναι σημαντικά», είπε στο The Verge ο Andrew Gibiansky, ερευνητής στο εργαστήριο τεχνητής νοημοσύνης της Silicon Valley της Baidu.
Η Baidu δεν είναι η μόνη εταιρεία που επενδύει σε τεχνολογία μετατροπής κειμένου σε ομιλία υψηλής ποιότητας. Το WaveNet της Google, προϊόν του τμήματος DeepMind της εταιρείας, παράγει φωνές δειγματίζοντας πραγματική ανθρώπινη ομιλία και δημιουργώντας ανεξάρτητα τους δικούς του ήχους σε μια ποικιλία φωνών. Το Project VoCo της Adobe μεταγράφει την ανθρώπινη ομιλία σε επεξεργάσιμο κείμενο σε πραγματικό χρόνο. Και η Lyrebird, μια καναδική startup τεχνητής νοημοσύνης, αδειοδοτεί αλγόριθμους που μπορούν να μιμηθούν οποιαδήποτε φωνή με ένα μόνο λεπτό δείγμα ήχου. χίλιες προτάσεις σε λιγότερο από μισό δευτερόλεπτο και μπορεί να εμφυσήσει την ομιλία που δημιουργεί με συναισθήματα όπως θυμό, συμπάθεια και στρες.
Αλλά μην περιμένετε το Deep Voice 2 ή το WaveNet να αντικαταστήσουν το Siri, το Βοηθός Google, ή του Amazon Alexa οποτεδήποτε σύντομα — Οι μεταφραστικές εφαρμογές με τεχνητή νοημοσύνη απαιτούν περισσότερους πόρους από ό, τι μπορούν εύλογα να παρέχουν τα σημερινά τηλέφωνα. Αλλά το Baidu βλέπει δυνατότητες σε εφαρμογές όπως οι εφαρμογές μετατροπής κειμένου σε ομιλία και βοηθοί που βασίζονται σε φωνή. «Η ικανότητα γρήγορης σύνθεσης πολλαπλών ανθρώπινων φωνών θα έχει τεράστια επίδραση σε προϊόντα όπως οι προσωπικοί βοηθοί και οι αναγνώστες eBook στο μέλλον. Για παράδειγμα, κάθε χαρακτήρας του eBook σας θα μπορούσε να έχει μια μοναδική φωνή όταν ακούτε το eBook."
Αναβαθμίστε τον τρόπο ζωής σαςΤο Digital Trends βοηθά τους αναγνώστες να παρακολουθούν τον γρήγορο κόσμο της τεχνολογίας με όλα τα τελευταία νέα, διασκεδαστικές κριτικές προϊόντων, διορατικά editorial και μοναδικές κρυφές ματιές.