DeepMind נהיה לא מציאותי עם סוכן AI חדש ללמידה מהירה

DeepMind - למידת חיזוק עם משימות עזר ללא פיקוח

DeepMind של גוגל משחרר השבוע מאמר בשם למידה תגבורת עם משימות עזר ללא פיקוח, המתאר שיטה להגביר את מהירות הלמידה של בינה מלאכותית ואת הביצועים הסופיים של סוכנים - או בוטים. שיטה זו כוללת הוספת שתי משימות עיקריות נוספות לביצוע בזמן שה-AI מתאמן, ומתבססת על התקן העומק בסיס למידת חיזוק, שהיא בעצם שיטת תגמול/ענישה של ניסוי וטעייה שבה בינה מלאכותית לומדת ממנה טעויות.

המשימה הראשונה שנוספה להאצת למידת AI היא היכולת להבין כיצד לשלוט בפיקסלים על המסך. לפי DeepMind, שיטה זו דומה לאופן שבו תינוק לומד לשלוט בידיו על ידי הזזתן וצפייה בתנועות אלו. במקרה של AI, הבוט יבין קלט חזותי על ידי שליטה בפיקסלים, ובכך יוביל לציונים טובים יותר.

סרטונים מומלצים

"קחו בחשבון תינוק שלומד למקסם את הכמות המצטברת של אדום שהוא צופה בו. כדי לחזות נכון את הערך האופטימלי, על התינוק להבין כיצד להגביר 'אדמומיות' באמצעים שונים, כולל מניפולציה (קירוב חפץ אדום לעיניים); תנועה (נעה מול חפץ אדום); ותקשורת (בכי עד שההורים מביאים חפץ אדום)", נכתב במאמר של DeepMind. "סביר להניח שהתנהגויות אלו יחזרו על עצמן עבור מטרות רבות אחרות שהתינוק עשוי להיתקל בהן לאחר מכן."

קָשׁוּר

  • הבוט הזה יהרוס אותך ב-Pictionary. זה גם אבן דרך עצומה עבור A.I.
  • ה-DeepMind של גוגל מאמן את המכוניות האוטונומיות של Waymo כמו בוטים של StarCraft II
  • גוגל מצאה דרך להשתמש ב-A.I. כדי להגביר את התועלת של אנרגיית הרוח

המשימה השנייה שנוספה משמשת לאימון ה-AI לחזות מה יהיו הפרסים המיידיים על סמך היסטוריה קצרה של פעולות קודמות. כדי לאפשר זאת, הצוות סיפק כמויות שוות של היסטוריות קודמות מתגמלות ולא מתגמלות. התוצאה הסופית היא שה-AI יכול לגלות תכונות ויזואליות שסביר להניח שיובילו לתגמולים מהר יותר מבעבר.

"כדי ללמוד בצורה יעילה יותר, הסוכנים שלנו משתמשים במנגנון הפעלה חוזרת של חוויה כדי לספק עדכונים נוספים למבקרים. בדיוק כפי שבעלי חיים חולמים על אירועים מתגמלים באופן חיובי או שלילי בתדירות גבוהה יותר, הסוכנים שלנו מעדיפים לחזור על רצפים המכילים אירועים מתגמלים", מוסיף העיתון.

עם שתי משימות העזר הללו שנוספו לסוכן A3C הקודם, הסוכן/בוט החדש שנוצר מבוסס על מה שהצוות מכנה Unreal (UNSupervised REinforcement ו-Auxiliary Learning). הקבוצה למעשה ישבה את הבוט הזה מול 57 משחקים של אטארי ומשחק נפרד וולפנשטייןמשחק מבוך כמו 13 רמות. בכל התרחישים, הבוט קיבל את תמונת הפלט הגולמית של RGB, מה שמספק לו גישה ישירה לפיקסלים עבור דיוק של 100 אחוז. הבוט Unreal קיבל תגמול בכל רחבי הלוח עבור משימות כמו להפיל חייזרים פנימה פולשי החלל לתפוס תפוחים במבוך תלת מימדי.

מכיוון שהבוט Unreal יכול לשלוט בפיקסלים ולחזות אם פעולות יפיקו תגמולים, הוא מסוגל ללמוד פי 10 מהר יותר מהסוכן הטוב ביותר הקודם של DeepMind (A3C). אפילו יותר, הוא מייצר ביצועים טובים יותר גם מהאלוף הקודם.

"עכשיו אנחנו יכולים להשיג 87 אחוז מהביצועים האנושיים של המומחים בממוצע ברמות המבוך שחשבנו, עם ביצועים על-אנושיים במספר מהן", אמרה החברה. "באטרי, הסוכן משיג כעת ביצועים אנושיים פי 9 בממוצע."

ב-DeepMind יש תקווה שהעבודה שנכנסה לבוט Unreal תאפשר לצוות להגדיל את כל הסוכנים/בוטים שלו כדי לטפל בסביבות מורכבות עוד יותר בעתיד הקרוב. עד אז, בדוק את הסרטון המוטמע למעלה ומראה את הבינה המלאכותית נעה במבוכים ותופסת תפוחים בעצמה ללא כל התערבות אנושית.

המלצות עורכים

  • שַׁחְמָט. סַכָּנָה. ללכת. מדוע אנו משתמשים במשחקים כאמת מידה עבור A.I?
  • בוחנים מחדש את עלייתה של A.I.: עד כמה הגיעה הבינה המלאכותית מאז 2010?
  • ה-DeepMind A.I. מביס יריבים אנושיים ב- Quake III Capture the Flag

שדרג את אורח החיים שלךמגמות דיגיטליות עוזרות לקוראים לעקוב אחר עולם הטכנולוגיה המהיר עם כל החדשות האחרונות, ביקורות מהנות על מוצרים, מאמרי מערכת מעוררי תובנות והצצות מיוחדות במינן.