טקסטים לזיהוי דיבור מהיר פי 3 ממה שאתה יכול להקליד

ניסוי סטנפורד מראה שזיהוי דיבור כותב טקסטים מהר יותר מאשר אגודלים

הכתבה ממוחשבת היא הרבה יותר טובה ממה שהייתה לפני עשור, אבל בדיוק כמה טובה יותר? זה היה אתגר מדעני מחשבים מאוניברסיטת סטנפורד, אוניברסיטת וושינגטון וענקית הטכנולוגיה הסינית באידו לאחרונה השתלב בניסוי שהעמיד בני אדם מול תוכנת זיהוי הדיבור החדישה ביותר הן במהירות והן דיוק.

פרופסור למדעי המחשב בסטנפורד ג'יימס לנדיי אמר שהמחקר התחיל כ"שיחת בית קפה" בינו לבין פרופסור סגן סטנפורד אנדרו נג, כיום מדען ראשי בבאידו. "אנדרו אמר שכלי זיהוי הדיבור של Baidu נעשו ממש מעולים, אבל שהם לא הכירו את הניסוי הנכון לכמת אותו", אמר לנדאי ל-Digital Trends.

סרטונים מומלצים

תוכנת זיהוי דיבור מבוססת ענן Deep Speech 2 של Baidu מבוססת על רשת עצבית למידה עמוקה: כלי למידת מכונה מרשים שמסוגל לאמן את עצמו על ידי ניתוח מערכי נתונים עצומים של מציאות נְאוּם.

קָשׁוּר

  • א.י. יכול לדעת אם אתה מנתח טוב רק על ידי סריקת המוח שלך
  • א.י. חוקרים יוצרים מערכת לזיהוי פנים עבור שימפנזים

"בעבר, לא היו לנו את הנתונים והיכולת החישובית לבנות את המודלים האלה, כך שמחשב יוכל להבין מבטאים ודפוסי דיבור שונים", המשיך לנדי.

בסופו של דבר, השיחה האקראית בין Landay ל-Ng הפכה לניסוי מלא, שכלל 32 משתתפים שדיברו סינית או אנגלית. כל המשתתפים התבגרו בהעברת הודעות טקסט, ושניהם השתמשו במקלדות הסטנדרטיות שמגיעות עם האייפון.

עבור דוברי האנגלית המשמעות הייתה מקלדת ה-QWERTY הרגילה של iOS, בעוד שדוברי המנדרינית השתמשו במקלדת Pinyin של אפל. בשני המקרים, זיהוי הדיבור היה מהיר בערך פי שלושה ממה שהמשתמשים הצליחו להקליד - בעוד השגיאה השיעור היה נמוך ב-20.4 אחוזים עבור זיהוי הדיבור באנגלית, ו-63.4 אחוזים נמוך יותר עבור המנדרינית שווה ערך.

"הציפייה שלי הייתה שהדיבור יהיה מהיר יותר מטקסט", אמר לנדי. "אנחנו יודעים את זה, כי אתה יכול לדבר מהר יותר ממה שאתה יכול להקליד. הבעיה בעבר הייתה שקיבלת הרבה שגיאות בזיהוי דיבור, וזה האט אותך. חשבתי שהדיבור יתברר מהר יותר. מה שלא ציפיתי זה שזה יהיה מהיר פי שלושה. חשבתי שאולי נגיע מהר יותר ב-50 אחוז. במקום זה היה הרבה יותר מזה".

המבחן אינו מקיף ב-100 אחוז, כמובן. נכון לעכשיו המקלדת הניידת המהירה ביותר בעולם (לפחות באנגלית) היא מקלדת Fleksy של צד שלישי. בשיא גינס לשנת 2014 לשליחת הודעות טקסט מהירה ביותר, משתמש הצליח להקליד א משפט בן 126 אותיות תוך 18.44 שניות בלבד. עם זאת, Landay ציין כי מחקר זה בחר במקלדת אייפון רגילה מכיוון שהיא נותנת אינדיקציה טובה של הקלדנית הטיפוסית. "רוב האנשים לא לוקחים את הזמן ללמוד מקלדות אלטרנטיביות", אמר.

באשר למשמעות המחקר, לנדאי מציע שהוא מהווה אמת מידה חשובה לזיהוי דיבור. "יש עדיין מקום לשפר, אבל אנחנו חושבים שנקודת פיתול כלשהי עברה", אמר. "שיפורים נוספים יבואו בזיהוי שמות, ביצועים טובים יותר בסביבות רועשות וכו'."

זה, לדבריו, פותח אפשרויות נוספות למפתחים לחשוב ברצינות רבה יותר על שילוב זיהוי דיבור במערכות שלהם ללא חשש. "מה שיותר הגיוני הוא הסתמכות על דיבור", אמר. "לדוגמה, ממשקים מולטי-מודאליים המשלבים דיבור עם אלמנטים אחרים כדי לעזור לאנשים לנווט. עם זאת, האתגר הגדול ביותר הוא להבין את מַשְׁמָעוּת של מילים ומשפטים. לחלק הזה יש עוד דרך לעבור".

המלצות עורכים

  • השימוש באלקסה הוא מסובך אם יש לך מוגבלות בדיבור. Voiceitt יכול לתקן את זה
  • חברה סינית שעובדת על זיהוי פנים שיכולה לזהות אותך מתחת למסכה
  • Gboard של גוגל עומד להשתפר בהרבה בזיהוי דיבור

שדרג את אורח החיים שלךמגמות דיגיטליות עוזרות לקוראים לעקוב אחר עולם הטכנולוגיה המהיר עם כל החדשות האחרונות, ביקורות מהנות על מוצרים, מאמרי מערכת מעוררי תובנות והצצות מיוחדות במינן.