Νέα μέθοδος αναγνώρισης ομιλίας μαθαίνει μέσω εικόνων

Βελτιώσεις μηνυμάτων android τηλέφωνα που στέλνουν γραπτά μηνύματα μεταξύ τους
Όλγα Λεμπέντεβα/123RF.com
Τα συστήματα αναγνώρισης ομιλίας μπορεί να μην είναι ακόμα τέλεια, αλλά όπως δείχνουν το Amazon Echo, γίνονται όλο και καλύτερα και πιο πανταχού παρόντα.

ΕΝΑ νέο κομμάτι της έρευνας από ερευνητές της Επιστήμης Υπολογιστών και της Τεχνητής Νοημοσύνης του Ινστιτούτου Τεχνολογίας της Μασαχουσέτης Το Εργαστήριο (CSAIL) προτείνει μια νέα τεχνική για την εκπαίδευση αυτών των συστημάτων — κάνοντας τα να μάθουν κοιτάζοντας εικόνες.

Προτεινόμενα βίντεο

"Αυτή είναι μια προσπάθεια να πείσουμε τις μηχανές να απαιτούν λιγότερο εποπτευόμενη εκπαίδευση για να μάθουν την προφορική γλώσσα." Τζιμ Γκλας, ένας ανώτερος ερευνητής επιστήμονας στο CSAIL, είπε στο Digital Trends. «Ο συμβατικός τρόπος εκπαίδευσης συστημάτων αναγνώρισης ομιλίας είναι η χρήση ηχογραφήσεων ανθρώπων που μιλούν και, για κάθε εκφώνηση, η μεταγραφή ακριβώς των λέξεων που έχουν ειπωθεί. Στην ιδανική περίπτωση, έχετε εκατοντάδες ή χιλιάδες ώρες ομιλίας για να λειτουργεί σωστά το σύστημα. Μερικές από τις μεγαλύτερες εταιρείες που το κάνουν αυτό - όπως η Baidu και η Google - χρησιμοποιούν δεκάδες χιλιάδες ώρες για εκπαίδευση. Όσο περισσότερα σχολιασμένα δεδομένα έχουν, τόσο καλύτερη απόδοση αυτών των συστημάτων».

Τι συμβαίνει λοιπόν με αυτό; Εξάλλου, όπως σημειώθηκε, η τεχνολογία αναγνώρισης ομιλίας βελτιώνεται συνεχώς. Ό, τι κι αν κάνουν οι επιστήμονες υπολογιστών προφανώς λειτουργεί.

Αυτό μπορεί να είναι αλήθεια, αλλά αυτή η νέα προσέγγιση είναι ενδιαφέρουσα για μερικούς λόγους. Πρώτον, ανοίγοντας την ικανότητα μιας μηχανής να εκπαιδεύεται ώστε να κατανοεί κοιτάζοντας συνδυασμένες εικόνες και ήχο (τελικά, θα μπορούσατε να φανταστείτε ότι εκπαιδεύεται παρακολουθώντας το YouTube) είναι πολύ πιο κοντά στον τρόπο που μαθαίνουμε ως άνθρωποι όντα.

Δεύτερον - και αναμφισβήτητα πιο σημαντικό - είναι το γεγονός ότι θα μπορούσε να βοηθήσει να φέρει την αναγνώριση ομιλίας σε μέρη του κόσμου που θα μπορούσαν να ωφεληθούν πολύ από αυτό το είδος τεχνολογίας.

«Τα σχολιασμένα δεδομένα είναι ακριβά στην παραγωγή τους», συνέχισε ο Γκλας. «Η αναγνώριση ομιλίας συνεχίζεται εδώ και δεκαετίες και η πλειονότητά της αφορά γλώσσες σε χώρες που έχουν την οικονομική δυνατότητα να επενδύσουν σε τέτοιου είδους πόρους. Όσον αφορά τη γλώσσα, τείνει να είναι αυτές που οι εταιρείες πιστεύουν ότι θα τις βοηθήσουν να αποκομίσουν κέρδος. Τα αγγλικά έχουν λάβει μακράν τη μεγαλύτερη προσοχή, ακολουθούμενα από τις δυτικοευρωπαϊκές γλώσσες και άλλες γλώσσες όπως τα ιαπωνικά και τα μανδαρινικά. Το πρόβλημα είναι ότι υπάρχουν περίπου 7.000 γλώσσες που ομιλούνται στον κόσμο και περίπου 300 που ομιλούνται από περισσότερους από 1 εκατομμύριο ανθρώπους. Πολλά από αυτά απλά δεν έχουν λάβει πολλή προσοχή — αν υπάρχει».

Σε μέρη του κόσμου όπου τα επίπεδα αλφαβητισμού είναι χαμηλά, είναι εύκολο να δούμε πώς η αναγνώριση ομιλίας θα μπορούσε να αλλάξει το παιχνίδι όσον αφορά την παροχή πρόσβασης σε πληροφορίες στους ανθρώπους. Ας ελπίσουμε ότι αυτή η τεχνολογία μπορεί να βοηθήσει στην επίτευξη αυτού του στόχου.

Όσο συναρπαστική και αν είναι η έρευνα, ωστόσο, ο Glass σημειώνει ότι βρίσκεται ακόμα σε πολύ πρώιμα στάδια. Προς το παρόν, οι ερευνητές του CSAIL τροφοδοτούν το σύστημά τους με μια βάση δεδομένων 1.000 εικόνων, η καθεμία με μια λεκτική περιγραφή ελεύθερης μορφής που σχετίζεται με αυτό κατά κάποιο τρόπο. Στη συνέχεια δοκιμάζουν το σύστημα δίνοντάς του μια εγγραφή και ζητώντας του να ανακτήσει 10 εικόνες που ταιριάζουν καλύτερα με αυτό που ακούει.

Με την πάροδο του χρόνου, η ελπίδα είναι ότι τέτοιες προσεγγίσεις στην αναγνώριση ομιλίας θα βελτιωθούν στην αποτελεσματικότητά τους σε σημείο που η επίπονη επισήμανση των δεδομένων εκπαίδευσης ομιλίας δεν θεωρείται πλέον αναγκαιότητα.

Εάν όλα πάνε σύμφωνα με το σχέδιο, αυτό θα πρέπει να είναι καλύτερο για όλους - είτε είστε ομιλητής της αγγλικής γλώσσας στις ΗΠΑ είτε ομιλητής της Xhosa στη Νότια Αφρική.

Συστάσεις των συντακτών

  • Έξυπνο νέο A.I. το σύστημα υπόσχεται να εκπαιδεύσει τον σκύλο σας ενώ λείπετε από το σπίτι
  • Νέα «σκιώδης» έρευνα από το MIT χρησιμοποιεί σκιές για να δει τι δεν μπορούν οι κάμερες
  • ΟΛΑ ΣΥΜΠΕΡΙΛΑΜΒΑΝΟΝΤΑΙ. Οι ερευνητές δημιούργησαν ένα σύστημα αναγνώρισης προσώπου για χιμπατζήδες
  • MIT, το νέο A.I της Adobe. θα μπορούσε να φέρει αφαίρεση φόντου με ένα κλικ, φίλτρα κοινωνικής δικτύωσης

Αναβαθμίστε τον τρόπο ζωής σαςΤο Digital Trends βοηθά τους αναγνώστες να παρακολουθούν τον γρήγορο κόσμο της τεχνολογίας με όλα τα τελευταία νέα, διασκεδαστικές κριτικές προϊόντων, διορατικά editorial και μοναδικές κρυφές ματιές.