Μπορεί η A.I. Βοηθήστε στην επίλυση του μυστηρίου των χαμένων γλωσσών;

Francesco Riccardo Iacomino/Getty Images

Υπάρχουν πολλά πράγματα που διακρίνουν τον άνθρωπο από τα άλλα είδη, αλλά ένα από τα πιο σημαντικά είναι η γλώσσα. Η ικανότητα να συνδυάζονται διάφορα στοιχεία σε ουσιαστικά άπειρους συνδυασμούς είναι ένα χαρακτηριστικό που «συχνά στο παρελθόν θεωρήθηκε ότι είναι το βασικό καθοριστικό χαρακτηριστικό των σύγχρονων ανθρώπων, η πηγή της ανθρώπινης δημιουργικότητας, του πολιτιστικού εμπλουτισμού και της περίπλοκης κοινωνικής δομής», όπως είχε πει κάποτε ο γλωσσολόγος Noam Chomsky είπε.

Περιεχόμενα

  • Ανάσταση των νεκρών (γλώσσες)
  • Το μέλλον

Αλλά όσο σημαντική ήταν η γλώσσα στην εξέλιξη των ανθρώπων, υπάρχουν ακόμα πολλά που δεν γνωρίζουμε για το πώς έχει εξελιχθεί η γλώσσα. Ενώ οι νεκρές γλώσσες όπως τα λατινικά έχουν πλήθος γραπτών αρχείων και απογόνων μέσω των οποίων μπορούμε να το κατανοήσουμε καλύτερα, ορισμένες γλώσσες έχουν χαθεί στην ιστορία.

Προτεινόμενα βίντεο

Οι ερευνητές κατάφεραν να ανακατασκευάσουν κάποιες χαμένες γλώσσες, αλλά η διαδικασία αποκρυπτογράφησης τους μπορεί να είναι μακρά. Για παράδειγμα, η αρχαία γραφή Γραμμική Β «λύθηκε» πάνω από μισό αιώνα μετά την ανακάλυψή της, και μερικοί από αυτούς που εργάστηκαν πάνω της δεν έζησαν μέχρι να δουν το έργο ολοκληρωμένο. Μια παλαιότερη γραφή που ονομάζεται Γραμμική Α, το σύστημα γραφής του μινωικού πολιτισμού, παραμένει άγνωστη.

Σχετίζεται με

  • Βραβεία Digital Trends Tech For Change CES 2023
  • Η αστεία φόρμουλα: Γιατί το χιούμορ που δημιουργείται από μηχανή είναι το ιερό δισκοπότηρο του A.I.
  • Διαβάστε την απόκοσμα όμορφη «συνθετική γραφή» ενός A.I. που νομίζει ότι είναι Θεός

Ωστόσο, οι σύγχρονοι γλωσσολόγοι έχουν στη διάθεσή τους ένα ισχυρό εργαλείο: την τεχνητή νοημοσύνη. Με την εκπαίδευση A.I. Για να εντοπίσουν τα μοτίβα σε μη αποκρυπτογραφημένες γλώσσες, οι ερευνητές μπορούν να τα ανακατασκευάσουν, ξεκλειδώνοντας τα μυστικά του αρχαίου κόσμου. Μια πρόσφατη, νέα νευρωνική προσέγγιση από ερευνητές του Ινστιτούτου Τεχνολογίας της Μασαχουσέτης (MIT). έχει ήδη δείξει επιτυχία στην αποκρυπτογράφηση της Γραμμικής Β και θα μπορούσε μια μέρα να οδηγήσει στην επίλυση άλλων χαμένων Γλώσσες.

Ανάσταση των νεκρών (γλώσσες)

Όπως και το δέρμα μιας γάτας, υπάρχουν περισσότεροι από ένας τρόποι για να αποκωδικοποιήσετε μια χαμένη γλώσσα. Σε ορισμένες περιπτώσεις, η γλώσσα δεν έχει γραπτά αρχεία, έτσι οι γλωσσολόγοι προσπαθούν να την ανασυνθέσουν ανιχνεύοντας την εξέλιξη των ήχων μέσω των απογόνων της. Τέτοια είναι η περίπτωση με την Πρωτο-Ινδοευρωπαϊκή, τον υποθετικό πρόγονο πολλών γλωσσών στην Ευρώπη και την Ασία.

Σε άλλες περιπτώσεις, οι αρχαιολόγοι ανακαλύπτουν γραπτά αρχεία, όπως συνέβη με τη Γραμμική Β. Αφού οι αρχαιολόγοι ανακάλυψαν πινακίδες στο νησί της Κρήτης, οι ερευνητές πέρασαν δεκαετίες μπερδεμένοι με τα γραπτά, αποκρυπτογραφώντας τα τελικά. Δυστυχώς, αυτό δεν είναι δυνατό επί του παρόντος με τη Γραμμική Α, καθώς οι ερευνητές δεν έχουν σχεδόν τόσο πολύ υλικό πηγής για μελέτη. Αλλά αυτό μπορεί να μην είναι απαραίτητο.

Όμως τα αγγλικά και τα γαλλικά είναι ζωντανές γλώσσες με αιώνες πολιτισμικής αλληλοεπικάλυψης. Η αποκρυπτογράφηση μιας χαμένης γλώσσας είναι πολύ πιο δύσκολη.

Ένα έργο από ερευνητές στο MIT απεικονίζει τις δυσκολίες της αποκρυπτογράφησης, καθώς και τις δυνατότητες του A.I. να φέρει επανάσταση στον χώρο. Οι ερευνητές ανέπτυξαν μια νευρωνική προσέγγιση για την αποκρυπτογράφηση των χαμένων γλωσσών «που πληροφορούνται από μοτίβα στη γλωσσική αλλαγή που τεκμηριώνεται στην ιστορική γλωσσολογία». Όπως αναλυτικά στο έγγραφο του 2019, ενώ προηγούμενα Α.Ι. για την αποκρυπτογράφηση των γλωσσών έπρεπε να προσαρμοστεί σε μια συγκεκριμένη γλώσσα, αυτή όχι.

«Αν κοιτάξετε οποιονδήποτε εμπορικά διαθέσιμο μεταφραστή ή μεταφραστικό προϊόν», λέει ο Jiaming Luo, επικεφαλής συγγραφέας στην εργασία, «όλες αυτές οι τεχνολογίες έχουν πρόσβαση σε μεγάλο αριθμό από αυτά που ονομάζουμε παράλληλες δεδομένα. Μπορείτε να τα σκεφτείτε ως Rosetta Stones, αλλά σε πολύ μεγάλη ποσότητα.”

Ένα παράλληλο σώμα είναι μια συλλογή κειμένων σε δύο διαφορετικές γλώσσες. Φανταστείτε, για παράδειγμα, μια σειρά από προτάσεις και στα αγγλικά και στα γαλλικά. Ακόμα κι αν δεν γνωρίζετε γαλλικά, συγκρίνοντας τα δύο σύνολα και παρατηρώντας μοτίβα, μπορείτε να αντιστοιχίσετε λέξεις σε μια γλώσσα στις αντίστοιχες λέξεις στην άλλη.

«Αν εκπαιδεύσετε έναν άνθρωπο να το κάνει αυτό, αν δείτε 40 και πλέον εκατομμύρια παράλληλες προτάσεις», εξηγεί ο Luo, «Είμαι βέβαιος ότι θα μπορέσετε να βρείτε μια μετάφραση».

Όμως τα αγγλικά και τα γαλλικά είναι ζωντανές γλώσσες με αιώνες πολιτισμικής αλληλοεπικάλυψης. Η αποκρυπτογράφηση μιας χαμένης γλώσσας είναι πολύ πιο δύσκολη.

«Δεν έχουμε αυτή την πολυτέλεια των παράλληλων δεδομένων», εξηγεί ο Luo. «Έτσι πρέπει να βασιστούμε σε κάποιες συγκεκριμένες γλωσσικές γνώσεις για το πώς εξελίσσεται η γλώσσα, πώς οι λέξεις εξελίσσονται στους απογόνους τους».

Νευρική αποκρυπτογράφηση/ΜΙΤ

Προκειμένου να δημιουργηθεί ένα μοντέλο που θα μπορούσε να χρησιμοποιηθεί ανεξάρτητα από τις εμπλεκόμενες γλώσσες, η ομάδα έθεσε περιορισμούς με βάση τις τάσεις που μπορούν να παρατηρηθούν μέσω της εξέλιξης των γλωσσών.

«Πρέπει να βασιστούμε σε δύο επίπεδα γνώσεων για τη γλωσσολογία», λέει ο Luo. «Το ένα είναι στο επίπεδο χαρακτήρων, το οποίο είναι το μόνο που γνωρίζουμε ότι όταν οι λέξεις εξελίσσονται, συνήθως εξελίσσονται από αριστερά προς τα δεξιά. Μπορείτε να σκεφτείτε αυτήν την εξέλιξη σαν μια χορδή. Έτσι, ίσως μια συμβολοσειρά στα Λατινικά να είναι ABCDE που πιθανότατα επρόκειτο να την αλλάξετε σε ABD ή ABC, εξακολουθείτε να διατηρείτε την αρχική σειρά κατά κάποιο τρόπο. Αυτό λέμε μονοτονικό».

Στο επίπεδο του λεξιλογίου (οι λέξεις που συνθέτουν μια γλώσσα), η ομάδα χρησιμοποίησε μια τεχνική που ονομάζεται "ένας προς έναν χαρτογράφηση".

«Αυτό σημαίνει ότι αν τραβήξετε ολόκληρο το λεξιλόγιο των Λατινικών και βγάλετε ολόκληρο το λεξιλόγιο των Ιταλικών, θα δείτε κάποιο είδος αντιστοίχισης ένας προς έναν», λέει ο Luo ως παράδειγμα. «Η λατινική λέξη για «σκύλος» πιθανότατα θα εξελιχθεί στην ιταλική λέξη για «σκύλος» και η λατινική λέξη για «γάτα» πιθανότατα θα εξελιχθεί στην ιταλική λέξη για «γάτα».

Για να δοκιμάσει το μοντέλο, η ομάδα χρησιμοποίησε μερικά σύνολα δεδομένων. Μετέφρασαν την αρχαία γλώσσα Ουγαριτικά στα Εβραϊκά, τη Γραμμική Β στα Ελληνικά και για να επιβεβαιώσουν την αποτελεσματικότητα του μοντέλου, πραγματοποίησε ανίχνευση συγγενών (λέξεων με κοινή καταγωγή) στις ρομανικές γλώσσες ισπανικά, ιταλικά και Πορτογαλικά.

Ήταν η πρώτη γνωστή προσπάθεια αυτόματης αποκρυπτογράφησης της Γραμμικής Β και το μοντέλο μετέφρασε με επιτυχία το 67,3% των συγγενών. Το σύστημα βελτιώθηκε επίσης σε σχέση με τα προηγούμενα μοντέλα για τη μετάφραση ουγαριτικών. Δεδομένου ότι οι γλώσσες προέρχονται από διαφορετικές οικογένειες, αποδεικνύει ότι το μοντέλο είναι ευέλικτο, καθώς και πιο ακριβές από τα προηγούμενα συστήματα.

Το μέλλον

Η Γραμμική Α παραμένει ένα από τα μεγάλα μυστήρια της γλώσσας και το σπάσιμο αυτού του αρχαίου καρυδιού θα ήταν α αξιοσημείωτο κατόρθωμα για την A.I. Προς το παρόν, λέει ο Luo, κάτι τέτοιο είναι εντελώς θεωρητικό, για ένα ζευγάρι αιτιολογικό.

Πρώτον, η Γραμμική Α προσφέρει μικρότερη ποσότητα δεδομένων από ό, τι ακόμη και η Γραμμική Β. Υπάρχει επίσης το θέμα να καταλάβουμε ακριβώς τι είδους σενάριο είναι το Linear A.

«Θα έλεγα ότι η μοναδική πρόκληση για τη Γραμμική Α είναι ότι έχετε πολλούς εικονογραφικούς ή λογογραφικούς χαρακτήρες ή σύμβολα», λέει ο Luo. "Και συνήθως όταν έχετε πολλά από αυτά τα σύμβολα, θα είναι πολύ πιο δύσκολο."

Brand X Pictures/Getty Images

Για παράδειγμα, ο Luo συγκρίνει αγγλικά και κινέζικα.

«Τα Αγγλικά έχουν 26 γράμματα, αν δεν μετράτε τα κεφαλαία, και τα Ρωσικά έχουν 33. Αυτά ονομάζονται αλφαβητικά συστήματα. Επομένως, πρέπει απλώς να βρείτε έναν χάρτη για αυτούς τους 26 ή 30 χαρακτήρες», λέει.

«Αλλά για τους Κινέζους, πρέπει να αντιμετωπίσεις χιλιάδες από αυτούς», συνεχίζει. «Νομίζω ότι μια εκτίμηση του ελάχιστου αριθμού χαρακτήρων που πρέπει να κατακτήσετε μόνο για να διαβάσετε μια εφημερίδα θα ήταν περίπου 3.000 ή 5.000. Η Γραμμική Α δεν είναι κινέζικη, αλλά λόγω των εικονογραφικών ή λογογραφικών της συμβόλων και άλλων παρόμοιων στοιχείων, είναι σίγουρα πιο δύσκολη από τη Γραμμική Β.

Αν και η Γραμμική Α εξακολουθεί να μην έχει αποκρυπτογραφηθεί, η επιτυχία της νέας προσέγγισης νευρωνικής αποκρυπτογράφησης του MIT στο Η αυτόματη αποκρυπτογράφηση της Γραμμικής Β, η οποία ξεπερνά την ανάγκη για ένα παράλληλο σώμα, είναι πολλά υποσχόμενη σημάδι.

Συστάσεις των συντακτών

  • Η τεχνητή νοημοσύνη μετέτρεψε το Breaking Bad σε anime - και είναι τρομακτικό
  • Αναλογικό A.I.; Ακούγεται τρελό, αλλά μπορεί να είναι το μέλλον
  • Δείτε τι αναλύει μια τάση A.I. πιστεύει ότι θα είναι το επόμενο μεγάλο πράγμα στην τεχνολογία
  • Το μέλλον της A.I.: 4 μεγάλα πράγματα που πρέπει να προσέξετε τα επόμενα χρόνια
  • Αλγοριθμική αρχιτεκτονική: Πρέπει να αφήσουμε το A.I. σχεδίαση κτιρίων για εμάς;