מתכנת מאמן בינה מלאכותית לצייר פרצופים מטקסט

זמן אימוני T2F

המתכנת אנימש קרנואר רצה לדעת איך דמויות המתוארות בספרים יופיעו במציאות, אז הוא פנה לבינה מלאכותית כדי לראות אם היא יכולה להציג את האנשים הבדיוניים האלה כראוי. פרויקט המחקר, שנקרא T2F, משתמש ברשת יריבתית (GAN) כדי לקודד טקסט ולסנתז תמונות פנים.

במילים פשוטות, GAN מורכב מ שתי רשתות עצביות שמתווכחות זו עם זו כדי להפיק את התוצאות הטובות ביותר. לדוגמה, תפקידה של רשת מס' 1 הוא לרמות את רשת מס' 2 להאמין שתמונה מעובדת היא צילום אמיתי בעוד שרשת מס' 2 יוצאת להוכיח שהתמונה לכאורה היא רק תמונה מעובדת. תהליך הלוך ושוב זה מכוונן את תהליך הרינדור עד שרשת מס' 2 בסופו של דבר שולל.

סרטונים מומלצים

קרנואר התחילה את הפרויקט באמצעות א מערך נתונים בשם Face2Text שסופק על ידי חוקרים מאוניברסיטת קופנהגן, המכיל תיאורי שפה טבעית עבור 400 תמונות אקראיות.

"התיאורים מנוקים כדי להסיר כיתובים סרבנים ובלתי רלוונטיים שסופקו לאנשים בתמונות", הוא כותב. "חלק מהתיאורים לא רק מתארים את תווי הפנים, אלא גם מספקים מידע מרומז מהתמונות."

בעוד שהתוצאות הנובעות מפרויקט T2F של קרנואר אינן בדיוק פוטוריאליסטיות, זו התחלה. הסרטון המוטבע למעלה מציג תצוגה חלופית של האופן שבו ה-GAN הוכשר לעיבוד איורים מטקסט, החל בלוקים מוצקים של צבע וכלה בפוקסל מחוספס אך ניתן לזיהוי עיבודים.

"מצאתי שלדגימות שנוצרו ברזולוציות גבוהות יותר (32x32 ו-64x64) יש יותר רעשי רקע בהשוואה לדגימות שנוצרו ברזולוציות נמוכות יותר", מסביר קרנואר. "אני תופס את זה בגלל כמות הנתונים הלא מספקת (רק 400 תמונות)."

הטכניקה המשמשת לאימון הרשתות האדוורסריות נקראת "גידול מתקדם של GANs", מה שמשפר איכות ויציבות לאורך זמן. כפי שמראה הסרטון, מחולל התמונות מתחיל ברזולוציה נמוכה במיוחד. שכבות חדשות מוכנסות לאט למודל, ומגדילות את הפרטים ככל שהאימון מתקדם לאורך זמן.

"הגידול המתקדם של GANs הוא טכניקה פנומנלית לאימון GANs מהר יותר ובצורה יציבה יותר", הוא מוסיף. "ניתן לצרף את זה לתרומות חדשות שונות ממאמרים אחרים."

בדוגמה שסופקה, תיאור הטקסט ממחיש אישה בשנות ה-20 המאוחרות לחייה עם שיער חום וארוך מורח לצד אחד, תווי פנים עדינים וללא איפור. היא "מזדמנת" ו"רגועה". תיאור אחר ממחיש גבר בשנות ה-40 לחייו עם פנים מוארכות, אף בולט, עיניים חומות, קו שיער נסוג ושפם קצר. למרות שהתוצאות הסופיות מפוקסלות ביותר, הרינדורים הסופיים מראים התקדמות רבה באיך A.I. יכול ליצור פרצופים מאפס.

קרנואר אומר שהוא מתכנן להרחיב את הפרויקט כדי לשלב מערכי נתונים נוספים כמו Flicker8K ו-Coco כיתובים. בסופו של דבר, T2F יכול לשמש בתחום אכיפת החוק כדי לזהות קורבנות ו/או פושעים בהתבסס על תיאורי טקסט, בין היתר. הוא פתוח להצעות ותרומות לפרויקט.

כדי לגשת לקוד ולתרום, עבור אל המאגר של Karnewar ב- Github כאן.

המלצות עורכים

  • מדענים משתמשים ב-A.I. ליצור קוד גנטי אנושי מלאכותי
  • בוחנים מחדש את עלייתה של A.I.: עד כמה הגיעה הבינה המלאכותית מאז 2010?
  • אינטל ופייסבוק חוברות יחד כדי לתת לקופר לייק דחיפה לבינה מלאכותית

שדרג את אורח החיים שלךמגמות דיגיטליות עוזרות לקוראים לעקוב אחר עולם הטכנולוגיה המהיר עם כל החדשות האחרונות, ביקורות מהנות על מוצרים, מאמרי מערכת מעוררי תובנות והצצות מיוחדות במינן.