Der er mange ting, der adskiller mennesker fra andre arter, men en af de vigtigste er sproget. Evnen til at sammenkæde forskellige elementer i i det væsentlige uendelige kombinationer er en egenskab, der "ofte tidligere er blevet anset for at være kerne definerende træk ved moderne mennesker, kilden til menneskelig kreativitet, kulturel berigelse og kompleks social struktur," som sprogforsker Noam Chomsky engang sagde.
Indhold
- Genoplive de døde (sprog)
- Fremtiden
Men lige så vigtigt som sproget har været i menneskets udvikling, er der stadig meget, vi ikke ved om, hvordan sproget har udviklet sig. Mens døde sprog som latin har et væld af skriftlige optegnelser og efterkommere, hvorigennem vi bedre kan forstå det, er nogle sprog tabt til historien.
Anbefalede videoer
Forskere har været i stand til at rekonstruere nogle tabte sprog, men processen med at tyde dem kan være lang. For eksempel blev det gamle skrift Linear B "løst" over et halvt århundrede efter dets opdagelse, og nogle af dem, der arbejdede på det, levede ikke for at se arbejdet færdigt. Et ældre skrift kaldet Linear A, den minoiske civilisations skriftsystem, forbliver ukodet.
Relaterede
- Digital Trends' Tech For Change CES 2023 Awards
- Den sjove formel: Hvorfor maskingenereret humor er den hellige gral for A.I.
- Læs det uhyggeligt smukke 'syntetiske skrift' af en A.I. der tror, det er Gud
Moderne lingvister råder dog over et stærkt værktøj: Kunstig intelligens. Ved at træne A.I. for at lokalisere mønstrene i ukodede sprog, kan forskere rekonstruere dem og låse op for den antikke verdens hemmeligheder. En nylig, ny neural tilgang af forskere ved Massachusetts Institute of Technology (MIT) har allerede vist succes med at dechifrere Linear B, og kunne en dag føre til at løse andre tabte Sprog.
Genoplive de døde (sprog)
Ligesom at flå en kat, er der mere end én måde at afkode et tabt sprog på. I nogle tilfælde har sproget ingen skriftlige optegnelser, så lingvister forsøger at rekonstruere det ved at spore udviklingen af lyde gennem dets efterkommere. Sådan er det med Proto-Indo-European, den hypotetiske stamfader til adskillige sprog gennem Europa og Asien.
I andre tilfælde udgraver arkæologer skriftlige optegnelser, hvilket var tilfældet med Linear B. Efter at arkæologer opdagede tabletter på øen Kreta, brugte forskere årtier på at pusle over skrifterne og til sidst tyde dem. Desværre er dette i øjeblikket ikke muligt med Linear A, da forskere ikke har nær så meget kildemateriale at studere. Men det er måske ikke nødvendigt.
Men engelsk og fransk er levende sprog med århundreders kulturelt overlap. Det er langt vanskeligere at tyde et tabt sprog.
Et projekt af forskere ved MIT illustrerer vanskelighederne ved dechiffrering, såvel som potentialet i A.I. at revolutionere området. Forskerne udviklede en neural tilgang til at dechifrere tabte sprog "informeret af mønstre i sprogændringer dokumenteret i historisk lingvistik." Som beskrevet i detaljer et papir fra 2019, mens tidligere A.I. for dechifrering af sprog skulle skræddersyes til et specifikt sprog, dette gør ikke.
"Hvis du ser på en hvilken som helst kommercielt tilgængelig oversætter eller oversættelsesprodukt," siger Jiaming Luo, lederen forfatter på papiret, "alle disse teknologier har adgang til et stort antal af det, vi kalder parallelt data. Du kan tænke på dem som Rosetta Stones, men i en meget stor mængde."
Et parallelkorpus er en samling tekster på to forskellige sprog. Forestil dig for eksempel en række sætninger på både engelsk og fransk. Selvom du ikke kan fransk, kan du ved at sammenligne de to sæt og observere mønstre kortlægge ord på ét sprog til de tilsvarende ord i det andet.
"Hvis du træner et menneske til at gøre dette, hvis du ser mere end 40 millioner parallelle sætninger," forklarer Luo, "jeg er sikker på, at du vil være i stand til at finde ud af en oversættelse."
Men engelsk og fransk er levende sprog med århundreders kulturelt overlap. Det er langt vanskeligere at tyde et tabt sprog.
"Vi har ikke den luksus af parallelle data," forklarer Luo. "Så vi er nødt til at stole på en vis specifik sproglig viden om, hvordan sprog udvikler sig, hvordan ord udvikler sig til deres efterkommere."
For at skabe en model, der kunne bruges uanset de involverede sprog, satte teamet begrænsninger baseret på tendenser, der kan observeres gennem udviklingen af sprog.
"Vi er nødt til at stole på to niveauer af indsigt i lingvistik," siger Luo. "Man er på karakterniveauet, hvilket er alt, hvad vi ved, at når ord udvikler sig, udvikler de sig normalt fra venstre mod højre. Du kan tænke på denne udvikling som en slags snor. Så måske er en streng på latin ABCDE, som du højst sandsynligt ville ændre det til ABD eller ABC, du bevarer stadig den oprindelige rækkefølge på en måde. Det er det, vi kalder monotont."
På niveau med ordforråd (de ord, der udgør et sprog), brugte holdet en teknik kaldet "en-til-en kortlægning."
"Det betyder, at hvis du trækker hele ordforrådet ud af latin og trækker hele ordforrådet ud af italiensk, vil du se en form for en-til-en-matchning," tilbyder Luo som et eksempel. "Det latinske ord for 'hund' vil sandsynligvis udvikle sig til det italienske ord for 'hund', og det latinske ord for 'kat' vil sandsynligvis udvikle sig til det italienske ord for 'kat'."
For at teste modellen brugte teamet nogle få datasæt. De oversatte det antikke sprog ugaritisk til hebraisk, lineært B til græsk, og for at bekræfte modellens effektivitet, udført beslægtet (ord med fælles herkomst) detektion inden for de romanske sprog spansk, italiensk og portugisisk.
Det var det første kendte forsøg på automatisk at dechifrere Linear B, og modellen oversatte med succes 67,3% af de beslægtede. Systemet er også forbedret i forhold til tidligere modeller til oversættelse af ugaritisk. Da sprogene kommer fra forskellige familier, viser det, at modellen er fleksibel og mere præcis end tidligere systemer.
Fremtiden
Lineær A forbliver et af sprogets store mysterier, og at knække den gamle nød ville være en bemærkelsesværdig bedrift for A.I. For nu, siger Luo, er sådan noget helt teoretisk for et par grunde.
For det første tilbyder Linear A en mindre mængde data, end selv Linear B gør. Der er også spørgsmålet om at finde ud af, hvilken slags script Linear A endda er.
"Jeg vil sige, at den unikke udfordring for Linear A er, at du har en masse billed- eller logografiske tegn eller symboler," siger Luo. "Og normalt, når du har mange af disse symboler, vil det være meget sværere."
Som et eksempel sammenligner Luo engelsk og kinesisk.
"Engelsk har 26 bogstaver, hvis du ikke tæller store bogstaver med, og russisk har 33. Disse kaldes alfabetiske systemer. Så du skal bare finde ud af et kort for de her 26 eller 30-noget karakterer,« siger han.
"Men for kinesere er du nødt til at håndtere tusindvis af dem," fortsætter han. "Jeg tror, at et estimat af den minimale mængde karakterer, man skal mestre, bare for at læse en avis, ville være omkring 3.000 eller 5.000. Linear A er ikke kinesisk, men på grund af dets billed- eller logografiske symboler og sådan noget, er det bestemt sværere end Linear B."
Selvom Linear A stadig er ukrypteret, er succesen med MITs nye neurale dechifreringstilgang i automatisk dechifrering af Linear B, der bevæger sig ud over behovet for et parallelt korpus, er en lovende skilt.
Redaktørens anbefalinger
- AI forvandlede Breaking Bad til en anime - og det er skræmmende
- Analog A.I.? Det lyder skørt, men det er måske fremtiden
- Her er hvad en trendanalyserende A.I. tror, vil være den næste store ting inden for tech
- Fremtiden for A.I.: 4 store ting at holde øje med i de næste par år
- Algoritmisk arkitektur: Skal vi lade A.I. designe bygninger for os?