طريقة جديدة للتعرف على الكلام تتعلم من خلال الصور

تعمل رسائل Android على تحسين الرسائل النصية للهواتف بعضها البعض
أولغا ليبيديفا/123RF.com
قد لا تكون أنظمة التعرف على الكلام مثالية بعد، ولكن كما تظهر أمثال Amazon Echo، فإنها تتحسن وتنتشر في كل مكان طوال الوقت.

أ قطعة جديدة من البحث من قبل باحثين في معهد ماساتشوستس للتكنولوجيا في علوم الكمبيوتر والذكاء الاصطناعي يقترح المختبر (CSAIL) تقنية جديدة لتدريب هذه الأنظمة، وذلك من خلال جعلها تتعلم من خلال النظر إليها الصور.

مقاطع الفيديو الموصى بها

"هذه محاولة لجعل الآلات تتطلب تدريبًا أقل إشرافًا للتعرف على اللغة المنطوقة" جيم جلاس، قال عالم أبحاث كبير في CSAIL لـ Digital Trends. "الطريقة التقليدية لتدريب أنظمة التعرف على الكلام هي استخدام تسجيلات للأشخاص الذين يتحدثون، ونسخ الكلمات التي قيلت بالضبط لكل كلمة. من الناحية المثالية، لديك مئات أو آلاف ساعات الكلام حتى يعمل النظام بشكل صحيح. بعض الشركات الكبرى التي تقوم بذلك – مثل بايدو وجوجل – تستخدم عشرات الآلاف من الساعات للتدريب. وكلما زاد عدد البيانات المشروحة لديهم، كان أداء هذه الأنظمة أفضل.

إذن ما الخطأ في ذلك؟ بعد كل شيء، كما ذكرنا سابقًا، فإن تقنية التعرف على الكلام تتحسن باستمرار. من الواضح أن كل ما يفعله علماء الكمبيوتر ناجح.

قد يكون هذا صحيحا، ولكن هذا النهج الجديد مثير للاهتمام لعدة أسباب. أولاً، فتح قدرة الآلة على تدريب نفسها على الفهم من خلال النظر إلى الصور والصوت المدمجين (في النهاية، يمكنك أن تتخيل ذلك أثناء التدريب من خلال مشاهدة اليوتيوب) وهو أقرب بكثير إلى الطريقة التي نتعلم بها كبشر الكائنات.

ثانيًا - وربما الأهم - هو حقيقة أنه يمكن أن يساعد في جلب التعرف على الكلام إلى أجزاء من العالم قد تستفيد بشكل كبير من هذا النوع من التكنولوجيا.

وتابع جلاس: "إن إنتاج البيانات المشروحة أمر مكلف". "لقد استمر التعرف على الكلام منذ عقود، وكان معظمه مخصصًا للغات في البلدان التي يمكنها تحمل تكاليف الاستثمار في هذا النوع من الموارد. عندما يتعلق الأمر باللغة، فهي تميل إلى تلك التي تعتقد الشركات أنها ستساعدها على تحقيق الربح. وقد حظيت اللغة الإنجليزية بأكبر قدر من الاهتمام، تليها لغات أوروبا الغربية، ولغات أخرى مثل اليابانية والماندرين. المشكلة هي أن هناك حوالي 7000 لغة يتم التحدث بها في العالم وحوالي 300 لغة يتحدث بها أكثر من مليون شخص. الكثير منها لم يحظ باهتمام كبير – إن وجد”.

في أجزاء من العالم حيث مستويات المعرفة بالقراءة والكتابة منخفضة، من السهل أن نرى كيف يمكن أن يغير التعرف على الكلام قواعد اللعبة من حيث تزويد الأشخاص بإمكانية الوصول إلى المعلومات. نأمل أن تساعد هذه التكنولوجيا في تحقيق هذا الهدف.

على الرغم من أن البحث مثير، إلا أن جلاس يشير إلى أنه لا يزال في مراحله المبكرة جدًا. في الوقت الحاضر، يقوم باحثو CSAIL بتغذية نظامهم بقاعدة بيانات مكونة من 1000 صورة، تحتوي كل منها على وصف لفظي حر يرتبط بها بطريقة ما. ثم يقومون باختبار النظام من خلال تسجيله ومطالبته باستعادة 10 صور تتطابق بشكل أفضل مع ما يسمعه.

مع مرور الوقت، الأمل هو أن مثل هذه الأساليب للتعرف على الكلام سوف تتحسن في فعاليتها إلى النقطة التي لم يعد فيها وضع العلامات الشاقة على بيانات التدريب على الكلام ضرورة.

إذا سارت الأمور وفقًا للخطة، فمن المفترض أن يكون ذلك أفضل للجميع - سواء كنت متحدثًا باللغة الإنجليزية في الولايات المتحدة أو متحدثًا للغة Xhosa في جنوب إفريقيا.

توصيات المحررين

  • الذكاء الاصطناعي الجديد الذكي. يعدك النظام بتدريب كلبك أثناء تواجدك بعيدًا عن المنزل
  • يستخدم بحث "مشبوه" جديد من معهد ماساتشوستس للتكنولوجيا الظلال لمعرفة ما لا تستطيع الكاميرات رؤيته
  • منظمة العفو الدولية. يقوم الباحثون بإنشاء نظام للتعرف على الوجه للشمبانزي
  • معهد ماساتشوستس للتكنولوجيا، الذكاء الاصطناعي الجديد من أدوبي. يمكن أن يؤدي إلى إزالة الخلفية بنقرة واحدة، والمرشحات الاجتماعية

ترقية نمط حياتكتساعد الاتجاهات الرقمية القراء على متابعة عالم التكنولوجيا سريع الخطى من خلال أحدث الأخبار ومراجعات المنتجات الممتعة والمقالات الافتتاحية الثاقبة ونظرات خاطفة فريدة من نوعها.