Η νέα τεχνολογία IBM Speech Tech στοχεύει να γίνει Υπεράνθρωπος

click fraud protection

IBM έχει παρουσίασε το Embedded ViaVoice 4.4, το οποίο προσφέρει αναγνώριση εντολών ελεύθερης μορφής, υπηρεσίες μετάφρασης και υποτιτλισμού on-the-fly και μπορεί να ισχυριστεί ότι κατανοεί ορισμένες αποχρώσεις της προφορικής αγγλικής γλώσσας. Η τεχνολογία έχει σχεδιαστεί για να επιτρέπει στους χρήστες να ελέγχουν συστήματα που είναι ενσωματωμένα σε οχήματα, συσκευές χειρός και άλλους μη υπολογιστές εφαρμογές για να μιλάτε ευέλικτα και φυσικά σε συσκευές χωρίς να χρειάζεται να απομνημονεύσετε και να προφέρετε προσεκτικά προκαθορισμένα προφορικά εντολές.

Ως παράδειγμα "αναγνώρισης εντολών ελεύθερης μορφής", η IBM προσφέρει ότι μια εντολή αλλαγής ενός ραδιοφωνικού σταθμού σε ένα αυτοκίνητο σε 104,3 FM, οι χρήστες μπορούν να εκφωνήστε διάφορες εντολές όπως "Αλλαγή σε 104,3", "Συντονισμός σε 104,3 FM" ή "Ρύθμιση του ραδιοφωνικού σταθμού στο 104,3". Ενεργοποίηση του συστήματος να η κατανόηση ενός μεγαλύτερου εύρους έξυπνων εντολών θα επιτρέψει την τεχνολογία αναγνώρισης φωνής να χρησιμοποιηθεί με μεγαλύτερη επιτυχία σε ένα ευρύτερο φάσμα εφαρμογές. Το ViaVoice χρησιμοποιεί τώρα στατιστική και σημασιολογική ανάλυση εντολών για να ερμηνεύσει εντολές εκτός ενός προκαθορισμένου, απομνημονευμένου συνόλου, και η βελτιωμένη ακουστική μοντελοποίηση παρέχει μεγαλύτερη ακρίβεια σε θορυβώδεις συνθήκες και όπου η ομιλία διακόπτεται από παροδική θορύβους.

Προτεινόμενα βίντεο

Δύο άλλα έργα αναγνώρισης ομιλίας στην IBM, το MASTOR και το Tales, προσφέρουν δύο ενδιαφέρουσες νέες κατευθύνσεις για την έρευνα ομιλίας. ΜΑΣΤΟΡ Το (Multilingual Automatic Speech-to-Speech Translator), ένα ερευνητικό έργο της IBM, μπορεί να μεταφράσει δυναμικά την αγγλική ομιλία στα Κινεζικά Μανδαρινικά. Ένας χρήστης μιλάει σε ένα μικρόφωνο στα αγγλικά και ο MASTOR μεταφράζει την πρόταση στα Mandarin on the fly. Το MASTOR χρησιμοποιεί στατιστική ανάλυση της προφορικής εισόδου, αποσυμπιάζοντας πρώτα την πρόταση σε ένα σύνολο δομικών και εννοιολογικά μοτίβα, στη συνέχεια συντάσσοντας μια μεταφρασμένη πρόταση στη γλώσσα-στόχο χρησιμοποιώντας τα ίδια μοτίβα. Κάποια καθυστέρηση είναι αναπόφευκτη σε συστήματα όπως αυτό

Συστάσεις των συντακτών

  • Το καλύτερο λογισμικό ομιλίας σε κείμενο για το 2022
  • Η τεχνολογία αναγνώρισης προσώπου για τις αρκούδες στοχεύει στη διατήρηση της ασφάλειας των ανθρώπων
  • Η IBM δεν θα αναπτύσσει ή θα ερευνά πλέον τεχνολογία αναγνώρισης προσώπου

Αναβαθμίστε τον τρόπο ζωής σαςΤο Digital Trends βοηθά τους αναγνώστες να παρακολουθούν τον γρήγορο κόσμο της τεχνολογίας με όλα τα τελευταία νέα, διασκεδαστικές κριτικές προϊόντων, διορατικά editorial και μοναδικές κρυφές ματιές.