Το πείραμα του Στάνφορντ δείχνει ότι η αναγνώριση ομιλίας γράφει κείμενα πιο γρήγορα από τους αντίχειρες
Καθηγητής Πληροφορικής του Στάνφορντ James Landay είπε ότι η μελέτη ξεκίνησε ως μια «συζήτηση στο καφέ» μεταξύ του ίδιου και του επίκουρου καθηγητή του Στάνφορντ Andrew Ng, επί του παρόντος επικεφαλής επιστήμονας στο Baidu. "Ο Andrew είπε ότι τα εργαλεία αναγνώρισης ομιλίας της Baidu έγιναν πολύ καλά, αλλά ότι δεν γνώριζαν το σωστό πείραμα για να το ποσοτικοποιήσουν", δήλωσε ο Landay στο Digital Trends.
Προτεινόμενα βίντεο
Το λογισμικό αναγνώρισης ομιλίας της Baidu Deep Speech 2 που βασίζεται σε σύννεφο βασίζεται σε ένα νευρωνικό δίκτυο βαθιάς εκμάθησης: ένα εντυπωσιακό εργαλείο μηχανικής μάθησης που είναι σε θέση να εκπαιδεύσει τον εαυτό του αναλύοντας τεράστια σύνολα δεδομένων πραγματικών ομιλία.
Σχετίζεται με
- ΟΛΑ ΣΥΜΠΕΡΙΛΑΜΒΑΝΟΝΤΑΙ. μπορείς να καταλάβεις αν είσαι καλός χειρουργός απλώς σαρώνοντας τον εγκέφαλό σου
- ΟΛΑ ΣΥΜΠΕΡΙΛΑΜΒΑΝΟΝΤΑΙ. Οι ερευνητές δημιούργησαν ένα σύστημα αναγνώρισης προσώπου για χιμπατζήδες
«Προηγουμένως, δεν είχαμε τα δεδομένα και την υπολογιστική ικανότητα να δημιουργήσουμε αυτά τα μοντέλα, έτσι ώστε ένας υπολογιστής να μπορεί να κατανοεί διαφορετικές προφορές και μοτίβα ομιλίας», συνέχισε ο Landay.
Στο τέλος, η περιστασιακή συνομιλία μεταξύ Landay και Ng μετατράπηκε σε ένα πλήρες πείραμα, στο οποίο συμμετείχαν 32 συμμετέχοντες που μιλούσαν είτε κινέζικα είτε αγγλικά. Όλοι οι συμμετέχοντες είχαν μεγαλώσει μέσω μηνυμάτων κειμένου και οι δύο χρησιμοποιούσαν τα τυπικά πληκτρολόγια που συνοδεύουν το iPhone.
Για τους αγγλόφωνους αυτό σήμαινε το κανονικό πληκτρολόγιο iOS QWERTY, ενώ τα ηχεία Mandarin χρησιμοποιούσαν το πληκτρολόγιο Pinyin της Apple. Και στις δύο περιπτώσεις, η αναγνώριση ομιλίας ήταν περίπου τρεις φορές πιο γρήγορη από ό, τι οι χρήστες μπορούσαν να πληκτρολογήσουν — ενώ το σφάλμα Το ποσοστό ήταν 20,4% χαμηλότερο για την αγγλική αναγνώριση ομιλίας και 63,4% χαμηλότερο για το Mandarin ισοδύναμος.
«Η προσδοκία μου ήταν ότι η ομιλία θα ήταν πιο γρήγορη από το κείμενο», είπε ο Landay. «Το γνωρίζουμε αυτό, γιατί μπορείς να μιλάς πιο γρήγορα από ό, τι μπορείς να πληκτρολογήσεις. Το πρόβλημα στο παρελθόν ήταν ότι κάνατε πολλά λάθη με την αναγνώριση ομιλίας και αυτό σας επιβράδυνε. Νόμιζα ότι η ομιλία θα αποδεικνυόταν πιο γρήγορα. Αυτό που δεν περίμενα ήταν ότι θα τελείωνε τρεις φορές πιο γρήγορα. Σκέφτηκα ότι ίσως θα κάναμε 50 τοις εκατό πιο γρήγορα. Αντίθετα, ήταν πολύ περισσότερα από αυτό».
Η δοκιμή δεν είναι 100 τοις εκατό ολοκληρωμένη, φυσικά. Επί του παρόντος, το ταχύτερο πληκτρολόγιο για κινητά στον κόσμο (τουλάχιστον στα αγγλικά) είναι το πληκτρολόγιο Fleksy τρίτου κατασκευαστή. Σε ένα παγκόσμιο ρεκόρ Γκίνες του 2014 για την ταχύτερη αποστολή μηνυμάτων, ένας χρήστης μπόρεσε να πληκτρολογήσει a Πρόταση 126 γραμμάτων σε μόλις 18,44 δευτερόλεπτα. Ωστόσο, ο Landay σημείωσε ότι αυτή η μελέτη επέλεξε ένα κανονικό πληκτρολόγιο iPhone επειδή δίνει μια καλή ένδειξη του τυπικού δακτυλογράφου. «Οι περισσότεροι άνθρωποι δεν αφιερώνουν χρόνο για να μάθουν εναλλακτικά πληκτρολόγια», είπε.
Όσον αφορά το τι σημαίνει η μελέτη, ο Landay προτείνει ότι αντιπροσωπεύει ένα σημαντικό σημείο αναφοράς για την αναγνώριση ομιλίας. «Υπάρχει ακόμα περιθώριο βελτίωσης, αλλά πιστεύουμε ότι έχει ξεπεραστεί κάποιου είδους σημείο καμπής», είπε. «Περαιτέρω βελτιώσεις θα έρθουν στην αναγνώριση ονομάτων, την καλύτερη απόδοση σε θορυβώδη περιβάλλοντα κ.λπ.».
Αυτό, είπε, ανοίγει περισσότερες δυνατότητες στους προγραμματιστές να σκεφτούν πιο σοβαρά την ενσωμάτωση της αναγνώρισης ομιλίας στα συστήματά τους χωρίς ανησυχία. «Αυτό που θα έχει ολοένα και περισσότερο νόημα είναι να βασίζεσαι στον λόγο», είπε. «Για παράδειγμα, πολυτροπικές διεπαφές που συνδυάζουν την ομιλία με άλλα στοιχεία για να βοηθήσουν τους ανθρώπους να πλοηγηθούν. Η μεγαλύτερη πρόκληση, όμως, θα είναι η κατανόηση του έννοια των λέξεων και των προτάσεων. Αυτό το κομμάτι έχει ακόμα δρόμο να διανύσει».
Συστάσεις των συντακτών
- Η χρήση της Alexa είναι δύσκολη εάν έχετε αναπηρία ομιλίας. Η Voiceitt θα μπορούσε να το διορθώσει
- Κινεζική εταιρεία που εργάζεται για την αναγνώριση προσώπου που μπορεί να σας αναγνωρίσει κάτω από μια μάσκα
- Το Gboard της Google πρόκειται να γίνει πολύ καλύτερο στην αναγνώριση ομιλίας
Αναβαθμίστε τον τρόπο ζωής σαςΤο Digital Trends βοηθά τους αναγνώστες να παρακολουθούν τον γρήγορο κόσμο της τεχνολογίας με όλα τα τελευταία νέα, διασκεδαστικές κριτικές προϊόντων, διορατικά editorial και μοναδικές κρυφές ματιές.