A yeni araştırma Massachusetts Teknoloji Enstitüsü Bilgisayar Bilimi ve Yapay Zeka araştırmacıları tarafından Laboratuvar (CSAIL), bu sistemleri eğitmek için yeni bir teknik önermektedir: bakarak öğrenmelerini sağlayarak Görüntüler.
Önerilen Videolar
"Bu, makinelerin konuşma dilini öğrenmek için daha az denetimli eğitime ihtiyaç duymasını sağlama girişimidir." Jim GlassCSAIL'de kıdemli bir araştırma bilimcisi olan Digital Trends'e şunları söyledi. "Konuşma tanıma sistemlerini eğitmenin geleneksel yolu, konuşan insanların kayıtlarını kullanmak ve her bir ifade için tam olarak söylenen kelimelerin yazıya geçirilmesidir. İdeal olarak sistemin düzgün çalışması için yüzlerce veya binlerce saat konuşmanız gerekir. Baidu ve Google gibi bunu yapan en büyük şirketlerden bazıları eğitim için onbinlerce saat harcıyor. Ne kadar çok açıklamalı veriye sahip olurlarsa, bu sistemler o kadar iyi performans gösterir."
Peki bunda yanlış olan ne? Sonuçta, belirtildiği gibi konuşma tanıma teknolojisi sürekli olarak iyileşiyor. Bilgisayar bilimcilerinin yaptığı her şey açıkça işe yarıyor.
Bu doğru olabilir ancak bu yeni yaklaşım birkaç nedenden dolayı ilgi çekicidir. İlk olarak, bir makinenin birleştirilmiş görüntülere ve seslere bakarak kendisini anlayacak şekilde eğitme yeteneğinin ortaya çıkarılması (sonunda YouTube izleyerek eğitim almayı hayal edebilirsiniz) insan olarak öğrenme şeklimize çok daha yakın varlıklar.
İkincisi ve tartışmasız daha önemlisi, dünyanın bu tür teknolojilerden büyük ölçüde yararlanabilecek bölgelerine konuşma tanıma özelliğinin getirilmesine yardımcı olabileceği gerçeğidir.
Glass, "Açıklamalı verilerin üretilmesi pahalıdır" diye devam etti. “Konuşma tanıma onlarca yıldır devam ediyor ve çoğunluğu bu tür kaynaklara yatırım yapmaya gücü yeten ülkelerdeki diller içindi. Dil söz konusu olduğunda, genellikle şirketlerin kâr elde etmelerine yardımcı olacağını düşündükleri dildir. Açık ara en fazla ilgiyi İngilizce çekmiş, onu Batı Avrupa dilleri ve Japonca ve Mandarin gibi diğer diller izlemiştir. Sorun şu ki, dünyada yaklaşık 7.000 dil konuşuluyor ve 300 civarında dil de 1 milyondan fazla insan tarafından konuşuluyor. Bunların çoğu çok fazla ilgi görmedi - eğer varsa."
Dünyanın okuryazarlık seviyelerinin düşük olduğu bölgelerinde, konuşma tanımanın insanlara bilgiye erişim sağlama açısından oyunun kurallarını nasıl değiştirebileceğini görmek kolaydır. Umarım bu teknoloji bu hedefe ulaşmaya yardımcı olabilir.
Araştırma ne kadar heyecan verici olsa da Glass, bunun henüz başlangıç aşamasında olduğunu belirtiyor. Şu anda CSAIL araştırmacıları, sistemlerini her biri bir şekilde kendisiyle ilgili olan serbest biçimli sözlü açıklamalara sahip 1000 görüntüden oluşan bir veritabanıyla besliyor. Daha sonra sisteme bir kayıt vererek ve duyduklarıyla en iyi eşleşen 10 görüntüyü almasını isteyerek sistemi test ediyorlar.
Zamanla, konuşma tanımaya yönelik bu tür yaklaşımların, konuşma eğitimi verilerinin zahmetli etiketlenmesinin artık bir zorunluluk olarak görülmediği noktaya kadar etkinliklerinin artacağı ümit edilmektedir.
Her şey planlandığı gibi giderse, bu herkes için daha iyi olacaktır; ister ABD'de İngilizce konuşun ister Güney Afrika'da Xhosa dilini konuşun.
Editörlerin Önerileri
- Akıllı yeni A.I. sistem siz evden uzaktayken köpeğinizi eğitmeyi vaat ediyor
- MIT'nin yeni 'gölgeli' araştırması, kameraların neyi göremediğini görmek için gölgeleri kullanıyor
- yapay zeka araştırmacılar şempanzeler için yüz tanıma sistemi geliştiriyor
- MIT, Adobe'nin yeni yapay zekası. tek tıklamayla arka plan kaldırma ve sosyal filtreler getirebilir
Yaşam tarzınızı yükseltinDigital Trends, en son haberler, eğlenceli ürün incelemeleri, anlayışlı başyazılar ve türünün tek örneği olan ön bakışlarla okuyucuların teknolojinin hızlı tempolu dünyasını takip etmelerine yardımcı olur.