האם א.י. לעזור לפתור את תעלומת השפות האבודות?

פרנצ'סקו ריקרדו יאקומינו/Getty Images

יש הרבה דברים שמבדילים את בני האדם ממינים אחרים, אבל אחד החשובים שבהם הוא השפה. היכולת לחבר אלמנטים שונים בשילובים אינסופיים למעשה היא תכונה ש"נחשבה לעתים קרובות בעבר ל- מאפיין הליבה של בני האדם המודרני, מקור היצירתיות האנושית, העשרה תרבותית ומבנה חברתי מורכב", כפי שפעם הבלשן נועם חומסקי אמר.

תוכן

  • להחיות את המתים (שפות)
  • העתיד

אבל עד כמה שהשפה הייתה חשובה באבולוציה של בני האדם, עדיין יש הרבה שאנחנו לא יודעים על האופן שבו התפתחה השפה. בעוד שלשפות מתות כמו לטינית יש שפע של רשומות כתובות וצאצאים שדרכם נוכל להבין זאת טוב יותר, חלק מהשפות אבדו להיסטוריה.

סרטונים מומלצים

חוקרים הצליחו לשחזר כמה שפות אבודות, אבל תהליך הפענוח שלהן יכול להיות ארוך. לדוגמה, התסריט העתיק Linear B "נפתר" למעלה מחצי מאה לאחר גילויו, וכמה מאלה שעבדו עליו לא חיו לראות את העבודה הושלמה. כתב ישן יותר בשם Linear A, מערכת הכתיבה של הציוויליזציה המינואית, נותר בלתי מפוענח.

קָשׁוּר

  • פרסי Tech For Change של Digital Trends CES 2023
  • הנוסחה המצחיקה: מדוע הומור שנוצר על ידי מכונה הוא הגביע הקדוש של A.I.
  • קרא את 'הכתב הסינטטי' היפה להחריד של א.י. שחושב שזה אלוהים

אולם לבלשנים מודרניים יש כלי רב עוצמה העומד לרשותם: בינה מלאכותית. על ידי הכשרת א.י. כדי לאתר את הדפוסים בשפות לא מפוענחות, החוקרים יכולים לשחזר אותם, ולפתוח את סודות העולם העתיק. גישה עצבית חדשה וחדשה על ידי חוקרים במכון הטכנולוגי של מסצ'וסטס (MIT). כבר הראה הצלחה בפענוח ליניארי B, ויום אחד יכול להוביל לפתרון אבודים אחרים שפות.

להחיות את המתים (שפות)

בדומה לעור של חתול, יש יותר מדרך אחת לפענח שפה אבודה. במקרים מסוימים, לשפה אין תיעוד כתוב, ולכן בלשנים מנסים לשחזר אותה על ידי מעקב אחר התפתחות הצלילים דרך צאצאיה. כך הוא המקרה של פרוטו-הודו-אירופי, האב הקדמון ההיפותטי של שפות רבות דרך אירופה ואסיה.

במקרים אחרים, ארכיאולוגים חושפים תיעוד כתוב, מה שהיה במקרה של Linear B. לאחר שארכיאולוגים גילו לוחות באי כרתים, החוקרים בילו עשרות שנים בתמיהה על הכתבים, ולבסוף פיענחו אותם. למרבה הצער, זה לא אפשרי כרגע עם Linear A, מכיוון שלחוקרים אין כמעט חומר מקור ללמוד. אבל אולי זה לא נחוץ.

אבל אנגלית וצרפתית הן שפות חיות עם חפיפה תרבותית של מאות שנים. פענוח שפה אבודה הוא הרבה יותר מסובך.

פרויקט של חוקרים ב-MIT ממחיש את קשיי הפענוח, כמו גם את הפוטנציאל של A.I. לחולל מהפכה בתחום. החוקרים פיתחו גישה עצבית לפענוח שפות אבודות "המיועדות על ידי דפוסים בשינוי שפה המתועדים בבלשנות היסטורית". כפי שמפורט ב מאמר משנת 2019, בעוד א.י. כי פענוח שפות היה צריך להיות מותאם לשפה ספציפית, זו לא.

"אם אתה מסתכל על כל מתרגם או מוצר תרגום זמין מסחרית", אומר ג'יאמינג לואו, המוביל מחבר המאמר, "לכל הטכנולוגיות הללו יש גישה למספר רב של מה שאנו מכנים מקבילים נתונים. אפשר לחשוב עליהם כעל אבני רוזטה, אבל בכמות גדולה מאוד".

קורפוס מקביל הוא אוסף של טקסטים בשתי שפות שונות. תארו לעצמכם, למשל, סדרה של משפטים באנגלית וגם בצרפתית. גם אם אינך יודע צרפתית, על ידי השוואה בין שני הקבוצות והתבוננות בתבניות, תוכל למפות מילים בשפה אחת למילים המקבילות בשפה השנייה.

"אם אתה מאמן אדם לעשות את זה, אם אתה רואה 40 פלוס מיליון משפטים מקבילים", מסביר לואו, "אני בטוח שתצליח להבין תרגום."

אבל אנגלית וצרפתית הן שפות חיות עם חפיפה תרבותית של מאות שנים. פענוח שפה אבודה הוא הרבה יותר מסובך.

"אין לנו את הלוקסוס הזה של נתונים מקבילים", מסביר לואו. "אז אנחנו צריכים להסתמך על ידע לשוני ספציפי לגבי איך השפה מתפתחת, איך מילים מתפתחות לצאצאיהן."

פענוח עצבי/MIT

על מנת ליצור מודל שניתן להשתמש בו ללא קשר לשפות המעורבות, הצוות הגדיר אילוצים המבוססים על מגמות שניתן לצפות בהן באמצעות התפתחות השפות.

"עלינו להסתמך על שתי רמות של תובנות על בלשנות", אומר לואו. "אחד הוא ברמת הדמות, וזה כל מה שאנחנו יודעים שכאשר מילים מתפתחות, הן בדרך כלל מתפתחות משמאל לימין. אתה יכול לחשוב על האבולוציה הזו כמעין מחרוזת. אז אולי מחרוזת בלטינית היא ABCDE שסביר להניח שתשנה את זה ל-ABD או ABC, אתה עדיין משמר את הסדר המקורי בצורה מסוימת. לזה אנחנו קוראים מונוטוני".

ברמת אוצר המילים (המילים המרכיבות שפה), הצוות השתמש בטכניקה שנקראת "מיפוי אחד לאחד".

"זה אומר שאם תשלפו את כל אוצר המילים של הלטינית ותשלפו את כל אוצר המילים של האיטלקית, תראו איזושהי התאמה של אחד לאחד", מציע לואו כדוגמה. "המילה הלטינית ל'כלב' תתפתח כנראה למילה האיטלקית ל'כלב' והמילה הלטינית ל'חתול' כנראה תתפתח למילה האיטלקית ל'חתול'."

כדי לבדוק את המודל, הצוות השתמש בכמה מערכי נתונים. הם תרגמו את השפה הקדומה אוגרית לעברית, לינארית B ליוונית, וכדי לאשר את יעילות המודל, ביצע זיהוי קוגנטי (מילים עם מוצא משותף) בשפות הרומאניות ספרדית, איטלקית ו פורטוגזית.

זה היה הניסיון הידוע הראשון לפענח אוטומטית ליניארי B, והמודל תרגם בהצלחה 67.3% מהקוגנטים. המערכת השתפרה גם בדגמים קודמים לתרגום אוגרית. בהתחשב בכך שהשפות מגיעות ממשפחות שונות, זה מדגים שהמודל גמיש, כמו גם מדויק יותר ממערכות קודמות.

העתיד

ליניארי A נותרה אחת התעלומות הגדולות של השפה, ופיצוח האגוז העתיק הזה יהיה א הישג יוצא דופן עבור A.I. לעת עתה, אומר לואו, משהו כזה הוא תיאורטי לחלוטין, עבור זוג סיבות.

ראשית, ליניארי A מציע כמות נתונים קטנה יותר מאשר ליניארי B. יש גם עניין של להבין בדיוק איזה סוג של תסריט ליניארי A הוא אפילו.

"הייתי אומר שהאתגר הייחודי של Linear A הוא שיש לך הרבה דמויות או סמלים ציוריים או לוגוגרפיים", אומר לואו. "ובדרך כלל כשיש לך הרבה מהסמלים האלה, זה יהיה הרבה יותר קשה."

מותג X Pictures/Getty Images

כדוגמה, לואו משווה אנגלית וסינית.

"באנגלית יש 26 אותיות אם לא סופרים אותיות רישיות, ולרוסית יש 33. אלה נקראות מערכות אלפביתיות. אז אתה רק צריך למצוא מפה עבור 26 או 30 הדמויות האלה", הוא אומר.

"אבל עבור סינים, אתה צריך להתמודד עם אלפים מהם", הוא ממשיך. "אני חושב שהערכה של כמות הדמויות המינימלית שיש לשלוט רק כדי לקרוא עיתון תהיה בערך 3,000 או 5,000. ליניארי A הוא לא סינית, אבל בגלל הסמלים הציוריים או הלוגוגרפיים שלו ודברים כאלה, זה בהחלט קשה יותר מליניארי B."

למרות ליניארי A עדיין לא מפוענח, הצלחת גישת הפענוח העצבי החדש של MIT ב פענוח אוטומטי של Linear B, מעבר לצורך בקורפוס מקביל, הוא מבטיח סִימָן.

המלצות עורכים

  • AI הפך את Breaking Bad לאנימה - וזה מפחיד
  • A.I אנלוגי? זה נשמע מטורף, אבל זה יכול להיות העתיד
  • הנה מה A.I לניתוח מגמות. חושב שזה יהיה הדבר הגדול הבא בטכנולוגיה
  • העתיד של A.I.: 4 דברים גדולים שכדאי לצפות בהם בשנים הקרובות
  • ארכיטקטורה אלגוריתמית: האם לתת ל-A.I. לעצב לנו מבנים?