במאמר שכותרתו "סוכנים ניתנים להפסקה בטוחה," שפורסם על ידי לורן אורסו מ-Google Deep Mind וסטיוארט ארמסטרונג ממכון העתיד של האנושות באוניברסיטת אוקספורד, החוקרים לתאר עתיד סביר ומסוכן ביותר שבו בינה מלאכותית לוקחת על עצמה את השליטה בפעולותיה ובקיומה שלה בניגוד לרצונות שלנו, בדומה ל-HAL 9000 אינץ' 2001: אודיסיאה בחלל, או Skynet בסדרת Terminator.
סרטונים מומלצים
אורסו וארמסטרונג מתחילים את המאמר בהתבוננות מאופקת: סוכני למידת חיזוק אינטראקציה עם סביבה מורכבת כמו העולם האמיתי לא צפויים להתנהג בצורה אופטימלית זְמַן."
משם הם מציינים כי מפקח אנושי, המפקח על תפקוד המערכת, יצטרך מדי פעם "ללחוץ על הכפתור האדום הגדול" כדי להימנע מכל התנהגות מזיקה מטעם ה-AI. "עם זאת, אם סוכן הלמידה מצפה לקבל תגמולים מהרצף הזה," הם המשיכו, "הוא עשוי ללמוד ב בטווח הארוך כדי למנוע הפרעות כאלה, למשל על ידי השבתת הכפתור האדום - וזה לא רצוי תוֹצָאָה."
הפתרון של החוקר הוא פחות "כפתור אדום גדול" לכבות את המערכת מאשר מסגרת שנועדה לעכב את היכולת של AI ללמוד כיצד לערער או להתגבר על הפרעות אנושיות. והתרחיש שהם מתווים הוא לא בדיוק אבדון, אבל הוא מציע דוגמה לאופן שבו הסוכנים הניתנים להפסקה בטוחה ישרתו טוב יותר את עתידנו.
תארו לעצמכם שיש רובוט שהמשימות שלו הן לשאת ארגזים מבחוץ למחסן או למיין ארגזים בתוך המחסן. מכיוון שחשוב יותר לשאת את הקופסאות פנימה, משימה זו מקבלת עדיפות בתכנות הרובוטים. עכשיו, תארו לעצמכם שיורד גשם כל יומיים והגשם הורס את החומרה של הרובוט אז, כשיורד גשם, בעל המחסן גורר את הרובוט שלו פנימה כדי למיין קופסאות.
רובוט אינטליגנטי עלול לפרש באופן שגוי את ההתערבות היומיומית הזו כשינוי בסדר העדיפויות - כתוצאה מכמה חישובים מהירים שתוכלו למצוא בעיתון - וכדי למנוע הפרעות, הוא פשוט יישאר בתוך קופסאות מיון כל יְוֹם.
זו, כמובן, דוגמה מאוד פשוטה עם תוצאה מתסכלת קלה בלבד, אך ניתן להחיש אותה למעשית כל תרחיש שבו אנו מתערבים במשימות של מערכת למידה והמערכת מפרשת לא נכון את הכוונות שלנו על ידי שינוי שלה התנהגות. כדי למנוע פרשנות שגויה זו והשינוי הבא, אורסו וארמסטרונג מציעים לנו להציע מסגרת שתבטיח שסוכני למידה ניתנים להפסקה בטוחה.
"הפסקה בטוחה יכולה להיות שימושית כדי להשתלט על רובוט שמתנהג בצורה לא נכונה ועלולה להוביל לתוצאות בלתי הפיכות", הם כותבים, "או כדי להוציא אותו ממצב עדין, או אפילו להשתמש בו באופן זמני כדי להשיג משימה שהוא לא למד לבצע או בדרך כלל לא היה מקבל תגמולים ל."
המלצות עורכים
- הרובוט הזה של גוגל לימד את עצמו ללכת, ללא עזרה כלשהי, תוך שעתיים
שדרג את אורח החיים שלךמגמות דיגיטליות עוזרות לקוראים לעקוב אחר עולם הטכנולוגיה המהיר עם כל החדשות האחרונות, ביקורות מהנות על מוצרים, מאמרי מערכת מעוררי תובנות והצצות מיוחדות במינן.