שיטת זיהוי דיבור חדשה לומדת באמצעות תמונות

שיפורים בהודעות אנדרואיד טלפונים שולחים הודעות טקסט אחד לשני
Olga Lebedeva/123RF.com
מערכות זיהוי דיבור אולי עדיין לא מושלמות, אבל כפי שמראים כמו Amazon Echo, הן משתפרות ונפוצות יותר כל הזמן.

א מחקר חדש על ידי חוקרים במדעי המחשב והבינה המלאכותית של המכון הטכנולוגי של מסצ'וסטס מעבדה (CSAIL) מציעה טכניקה חדשה לאימון מערכות אלו - על ידי כך שהן ילמדו על ידי התבוננות תמונות.

סרטונים מומלצים

"זהו ניסיון לגרום למכונות לדרוש פחות הכשרה מפוקחת כדי ללמוד על השפה המדוברת", ג'ים גלאס, מדען מחקר בכיר ב-CSAIL, אמר ל-Digital Trends. "הדרך המקובלת לאמן מערכות זיהוי דיבור היא באמצעות הקלטות של אנשים מדברים, ולגבי כל אמירה, לתמלל בדיוק את המילים שנאמרו. באופן אידיאלי, יש לך מאות או אלפי שעות דיבור על מנת שהמערכת תפעל כראוי. כמה מהחברות הגדולות שעושות זאת - כמו Baidu וגוגל - משתמשות בעשרות אלפי שעות לאימון. ככל שיש להם יותר נתונים מבוארים, כך המערכות הללו מתפקדות טוב יותר."

אז מה רע בזה? אחרי הכל, כאמור, טכנולוגיית זיהוי הדיבור משתפרת ללא הרף. כל מה שמדעני מחשבים עושים ברור שעובד.

זה אולי נכון, אבל הגישה החדשה הזו מעניינת מכמה סיבות. ראשית, פתיחת היכולת של מכונה לאמן את עצמה להבין על ידי התבוננות בתמונות ושמע משולבות (בסופו של דבר, אתה יכול לדמיין את זה מתאמן על ידי צפייה ביוטיוב) הוא הרבה יותר קרוב לדרך שבה אנו לומדים כבני אדם יצורים.

שנית - וללא ספק יותר חשוב מכך - היא העובדה שזה יכול לעזור להביא זיהוי דיבור לחלקים בעולם שעשויים להפיק תועלת רבה מטכנולוגיה מהסוג הזה.

"נתונים מוערים יקרים להפקה", המשיך גלאס. "זיהוי דיבור נמשך כבר עשרות שנים, ורובם נועד לשפות במדינות שיכולות להרשות לעצמן להשקיע במשאבים מסוג זה. כשזה מגיע לשפה, זה נוטה להיות אלו שחברות חושבות שיעזרו להן להרוויח. האנגלית קיבלה ללא ספק את מירב תשומת הלב, ואחריה שפות מערב אירופה ושפות אחרות כמו יפנית ומנדרינית. הבעיה היא שיש כ-7,000 שפות המדוברות בעולם וכ-300 המדוברות על ידי יותר ממיליון אנשים. הרבה מאלה פשוט לא זכו לתשומת לב רבה - אם בכלל".

בחלקים של העולם שבהם רמות האוריינות נמוכות, קל לראות כיצד זיהוי דיבור יכול להיות מחליף משחק במונחים של מתן גישה לאנשים למידע. יש לקוות שטכנולוגיה זו יכולה לעזור למטרה זו.

עם זאת, ככל שהמחקר מרגש, גלאס מציין שהוא עדיין בשלבים הראשונים שלו. נכון לעכשיו, חוקרי CSAIL מאכילים את המערכת שלהם במסד נתונים של 1,000 תמונות, כל אחת עם תיאור מילולי בצורה חופשית המתייחסת אליה בצורה כלשהי. לאחר מכן הם בודקים את המערכת על ידי מתן הקלטה ומבקשים ממנה לאחזר 10 תמונות המתאימות ביותר למה שהיא שומעת.

עם הזמן, התקווה היא שגישות כאלה לזיהוי דיבור ישפרו ביעילותן עד לנקודה שבה תיוג עמל של נתוני אימון דיבור כבר לא נחשב כהכרח.

אם הכל ילך לפי התוכנית, זה אמור להיות טוב יותר לכולם - בין אם אתה דובר אנגלית בארה"ב או דובר Xhosa בדרום אפריקה.

המלצות עורכים

  • A.I חדש וחכם המערכת מבטיחה לאמן את הכלב שלך בזמן שאתה מחוץ לבית
  • מחקר 'מוצל' חדש מ-MIT משתמש בצללים כדי לראות מה מצלמות לא יכולות
  • א.י. חוקרים יוצרים מערכת לזיהוי פנים עבור שימפנזים
  • MIT, ה-A.I החדש של אדובי. יכול להביא הסרת רקע בלחיצה אחת, מסננים חברתיים

שדרג את אורח החיים שלךמגמות דיגיטליות עוזרות לקוראים לעקוב אחר עולם הטכנולוגיה המהיר עם כל החדשות האחרונות, ביקורות מהנות על מוצרים, מאמרי מערכת מעוררי תובנות והצצות מיוחדות במינן.