חדש IBM Speech Tech שואף להיות על אנושי

IBM יש ל חשפה את ViaVoice 4.4 Embedded, שמציעה זיהוי פקודות בצורה חופשית, שירותי תרגום וכתוביות תוך כדי תנועה, ויכולה להתיימר להבין כמה ניואנסים של אנגלית מדוברת. הטכנולוגיה נועדה לאפשר למשתמשים לשלוט במערכות המוטמעות בכלי רכב, מכשירי כף יד ועוד שאינם מחשבים יישומים שידברו בצורה גמישה וטבעי למכשירים ללא צורך לשנן ולהגות בקפידה דיבור מוגדר מראש פקודות.

כדוגמה ל"זיהוי פקודות חופשיות", IBM מציעה שפקודה לשנות תחנת רדיו במכונית ל-104.3 FM, המשתמשים יכולים דבר פקודות מגוונות כגון "שנה ל-104.3", "כוונן ל-104.3 FM" או "הגדר את תחנת הרדיו ל-104.3". הפעלת המערכת ל להבין מגוון גדול יותר של פקודות אינטואיטיביות יאפשר שימוש בטכנולוגיית זיהוי קולי בצורה מוצלחת יותר במגוון רחב יותר של יישומים. ViaVoice משתמשת כעת בניתוח סטטיסטי וסמנטי של פקודות כדי לפרש פקודות מחוץ לסט מוגדר מראש, שנשנן, ומידול אקוסטי משופר מספק דיוק רב יותר בתנאים רועשים ובמקומות שבהם הדיבור מופרע על ידי חולף רעשים.

סרטונים מומלצים

שני פרויקטים נוספים של זיהוי דיבור ב-IBM, MASTOR ו-Tales, מציעים שני כיוונים חדשים ומסקרנים לחקר דיבור.

מאסטר (Multilingual Automatic Speech-to-Speech Translator), פרויקט מחקר של יבמ, יכול לתרגם באופן דינמי דיבור אנגלית לסינית מנדרינית. משתמש מדבר למיקרופון באנגלית, ו-MASTOR מתרגם את המשפט למנדרינית תוך כדי תנועה. MASTOR משתמש בניתוח סטטיסטי של הקלט המדובר, תחילה מפרק את המשפט לקבוצה מבנית ודפוסים מושגיים, ולאחר מכן הידור משפט מתורגם בשפת היעד תוך שימוש באותם דפוסים. זמן חביון מסוים הוא בלתי נמנע במערכות כמו זו

המלצות עורכים

  • תוכנת הדיבור לטקסט הטובה ביותר לשנת 2022
  • טכנולוגיית זיהוי פנים לדובים שואפת לשמור על בטיחות בני האדם
  • יבמ לא תפתח או תחקור עוד טכנולוגיית זיהוי פנים

שדרג את אורח החיים שלךמגמות דיגיטליות עוזרות לקוראים לעקוב אחר עולם הטכנולוגיה המהיר עם כל החדשות האחרונות, ביקורות מהנות על מוצרים, מאמרי מערכת מעוררי תובנות והצצות מיוחדות במינן.