Jest wiele rzeczy, które odróżniają ludzi od innych gatunków, ale jedną z najważniejszych jest język. Zdolność łączenia różnych elementów w zasadniczo nieskończone kombinacje jest cechą, która „w przeszłości często była uważana za podstawowa cecha definiująca współczesnego człowieka, źródło ludzkiej kreatywności, wzbogacenia kulturowego i złożonej struktury społecznej” – stwierdził kiedyś językoznawca Noam Chomsky powiedział.
Zawartość
- Wskrzeszanie umarłych (języki)
- Przyszłość
Choć język był ważny w ewolucji człowieka, wciąż wiele nie wiemy na temat jego ewolucji. Chociaż martwe języki, takie jak łacina, mają mnóstwo zapisów pisanych i potomków, dzięki którym możemy je lepiej zrozumieć, niektóre języki zaginęły w historii.
Polecane filmy
Naukowcom udało się zrekonstruować niektóre zaginione języki, ale proces ich rozszyfrowania może być długi. Na przykład starożytny skrypt Linear B został „rozwiązany” ponad pół wieku po jego odkryciu, a niektórzy z tych, którzy nad nim pracowali, nie dożyli ukończenia pracy. Starsze pismo zwane linearnym A, systemem pisma cywilizacji minojskiej, pozostaje nierozszyfrowane.
Powiązany
- Nagrody Digital Trends „Tech For Change” na targach CES 2023
- Zabawna formuła: dlaczego humor generowany maszynowo jest świętym Graalem sztucznej inteligencji?
- Przeczytaj niesamowicie piękne „syntetyczne pismo” AI. który myśli, że jest Bogiem
Współcześni lingwiści mają jednak do dyspozycji potężne narzędzie: sztuczną inteligencję. Szkoląc sztuczną inteligencję aby zlokalizować wzorce w nierozszyfrowanych językach, badacze mogą je zrekonstruować, odkrywając tajemnice starożytnego świata. Niedawne, nowatorskie podejście neuronowe opracowane przez naukowców z Massachusetts Institute of Technology (MIT) już to umożliwiło już wykazał sukces w rozszyfrowaniu liniowego B i pewnego dnia może doprowadzić do rozwiązania innych zagubionych Języki.
Wskrzeszanie umarłych (języki)
Podobnie jak oskórowanie kota, istnieje więcej niż jeden sposób na odszyfrowanie utraconego języka. W niektórych przypadkach język nie ma zapisów pisanych, dlatego lingwiści próbują go zrekonstruować, śledząc ewolucję dźwięków u jego potomków. Tak jest w przypadku praindoeuropejskiego, hipotetycznego przodka wielu języków w Europie i Azji.
W innych przypadkach archeolodzy odkrywają źródła pisane, co miało miejsce w przypadku Linear B. Po tym, jak archeolodzy odkryli tabliczki na Krecie, badacze spędzili dziesięciolecia na zastanawianiu się nad pismami, aż w końcu je rozszyfrowali. Niestety nie jest to obecnie możliwe w przypadku Linear A, ponieważ badacze nie mają aż tak dużej ilości materiału źródłowego do zbadania. Ale to może nie być konieczne.
Ale angielski i francuski to żywe języki, w których kultury nakładają się na siebie od wieków. Odszyfrowanie zaginionego języka jest znacznie trudniejsze.
Projekt naukowców z MIT ilustruje trudności w rozszyfrowaniu, a także potencjał sztucznej inteligencji. zrewolucjonizować tę dziedzinę. Naukowcy opracowali neuronowe podejście do odszyfrowywania zaginionych języków „w oparciu o wzorce zmian językowych udokumentowane w językoznawstwie historycznym”. Jak szczegółowo opisano w artykuł z 2019 roku, podczas gdy poprzednie A.I. ponieważ odszyfrowanie języków musiało być dostosowane do konkretnego języka, ten nie jest.
„Jeśli spojrzeć na dowolnego dostępnego na rynku tłumacza lub produkt do tłumaczenia” – mówi Jiaming Luo, kierownik autor artykułu: „wszystkie te technologie mają dostęp do dużej liczby tego, co nazywamy równoległymi dane. Można o nich myśleć jak o kamieniach z Rosetty, ale w bardzo dużej ilości.
Korpus równoległy to zbiór tekstów w dwóch różnych językach. Wyobraź sobie na przykład serię zdań w języku angielskim i francuskim. Nawet jeśli nie znasz francuskiego, porównując oba zestawy i obserwując wzorce, możesz przypisać słowa w jednym języku do równoważnych słów w drugim.
„Jeśli wyszkolisz człowieka, aby to robił, jeśli zobaczysz ponad 40 milionów równoległych zdań” – wyjaśnia Luo – „Jestem pewien, że będziesz w stanie znaleźć tłumaczenie”.
Ale angielski i francuski to żywe języki, w których kultury nakładają się na siebie od wieków. Odszyfrowanie zaginionego języka jest znacznie trudniejsze.
„Nie mamy luksusu równoległych danych” – wyjaśnia Luo. „Musimy więc polegać na konkretnej wiedzy językowej na temat ewolucji języka i ewolucji słów, które zmieniają się w ich potomków”.
Aby stworzyć model, który można zastosować niezależnie od używanych języków, zespół ustalił ograniczenia w oparciu o trendy, które można zaobserwować na podstawie ewolucji języków.
„Musimy polegać na dwóch poziomach spostrzeżeń z zakresu językoznawstwa” – mówi Luo. „Jedno z nich dotyczy poziomu charakteru i wiemy tylko tyle, że słowa ewoluują, zwykle ewoluują od lewej do prawej. Można myśleć o tej ewolucji jak o sznurku. Może więc ciąg znaków po łacinie to ABCDE i najprawdopodobniej zamierzasz go zmienić na ABD lub ABC, w pewnym sensie nadal zachowując pierwotną kolejność. To właśnie nazywamy monotonią.
Na poziomie słownictwa (słów tworzących język) zespół zastosował technikę zwaną „mapowaniem jeden do jednego”.
„Oznacza to, że jeśli wyciągniesz całe słownictwo łacińskie i całe słownictwo włoskiego, zobaczysz pewnego rodzaju dopasowanie jeden do jednego” – podaje jako przykład Luo. „Łacińskie słowo oznaczające „pies” prawdopodobnie ewoluuje do włoskiego słowa oznaczającego „pies”, a łacińskie słowo oznaczające „kot” prawdopodobnie ewoluuje do włoskiego słowa oznaczającego „kot”.
Aby przetestować model, zespół wykorzystał kilka zbiorów danych. Przetłumaczyli starożytny język ugarycki na hebrajski, linearny B na grecki i aby potwierdzić skuteczność modelu, przeprowadził wykrywanie pokrewnych (słów o wspólnym pochodzeniu) w językach romańskich, hiszpańskim, włoskim i Portugalski.
Była to pierwsza znana próba automatycznego rozszyfrowania liniowego B, a model pomyślnie przetłumaczył 67,3% pokrewnych. System udoskonalono także w stosunku do poprzednich modeli tłumaczenia języka ugaryckiego. Biorąc pod uwagę, że języki pochodzą z różnych rodzin, pokazuje to, że model jest elastyczny, a także dokładniejszy niż poprzednie systemy.
Przyszłość
Liniowe A pozostaje jedną z największych tajemnic języka, a złamanie tego starożytnego orzecha byłoby nie lada wyzwaniem niezwykły wyczyn A.I. Na razie, mówi Luo, coś takiego jest całkowicie teoretyczne w przypadku pary powodów.
Po pierwsze, tryb liniowy A oferuje mniejszą ilość danych niż nawet tryb liniowy B. Pozostaje także kwestia ustalenia, jakim rodzajem scenariusza jest w ogóle Linear A.
„Powiedziałbym, że wyjątkowym wyzwaniem dla Linear A jest to, że masz wiele znaków lub symboli obrazowych lub logograficznych” – mówi Luo. „Zazwyczaj, gdy masz dużo tych symboli, będzie to znacznie trudniejsze”.
Na przykład Luo porównuje angielski i chiński.
„Angielski ma 26 liter, jeśli nie liczyć wielkich liter, a rosyjski ma 33. Nazywa się je systemami alfabetycznymi. Musisz więc po prostu wymyślić mapę dla tych 26 lub 30 postaci” – mówi.
„Ale Chińczycy mają do czynienia z tysiącami” – kontynuuje. „Myślę, że szacunkowa minimalna liczba znaków, które należy opanować, aby przeczytać gazetę, wyniesie około 3000 lub 5000. Liniowy A nie jest chiński, ale ze względu na symbole graficzne, logograficzne i tym podobne jest zdecydowanie trudniejszy niż liniowy B.
Chociaż liniowy A jest nadal nierozszyfrowany, sukces nowatorskiej metody deszyfrowania neuronowego zastosowanej w MIT w automatyczne rozszyfrowanie liniowego B, wykraczające poza potrzebę równoległego korpusu, jest obiecujące podpisać.
Zalecenia redaktorów
- Sztuczna inteligencja zamieniła Breaking Bad w anime – i to jest przerażające
- Analogowa sztuczna inteligencja? Brzmi szalenie, ale może to być przyszłość
- Oto, co analizująca trendy A.I. uważa, że będzie to kolejna wielka rzecz w technologii
- Przyszłość sztucznej inteligencji: 4 ważne rzeczy, na które warto zwrócić uwagę w ciągu najbliższych kilku lat
- Architektura algorytmiczna: czy powinniśmy pozwolić A.I. projektować dla nas budynki?