Konuşma Tanıma Metinleri Yazabileceğinizden 3 Kat Daha Hızlı

Stanford deneyi, konuşma tanımanın metinleri başparmaklardan daha hızlı yazdığını gösteriyor

Bilgisayar diktesi on yıl öncesine göre çok daha iyi, ama tam olarak ne kadar iyi? Bu, Stanford Üniversitesi, Washington Üniversitesi ve Çinli teknoloji devi Baidu'dan bilgisayar bilimcileri için zorlu bir işti. Yakın zamanda insanları hem hız hem de performans açısından en son teknolojiye sahip konuşma tanıma yazılımıyla karşı karşıya getiren bir deneye katıldı. kesinlik.

Stanford bilgisayar bilimi profesörü James Landay çalışmanın kendisi ve Stanford yardımcı profesörü arasında bir "kahvehane sohbeti" olarak başladığını söyledi Andrew Ng, şu anda Baidu'da baş bilim adamı. Landay, Digital Trends'e şunları söyledi: "Andrew, Baidu'nun konuşma tanıma araçlarının gerçekten mükemmel hale geldiğini ancak bunu ölçmek için doğru deneyi bilmediklerini söyledi."

Önerilen Videolar

Baidu'nun Deep Speech 2 bulut tabanlı konuşma tanıma yazılımı, derin öğrenme sinir ağını temel alır: muazzam gerçek veri kümelerini analiz ederek kendini eğitebilen etkileyici bir makine öğrenme aracı konuşma.

İlgili

  • yapay zeka Sadece beyninizi tarayarak iyi bir cerrah olup olmadığınızı anlayabilirsiniz
  • yapay zeka araştırmacılar şempanzeler için yüz tanıma sistemi geliştiriyor

Landay şöyle devam etti: "Önceden, bir bilgisayarın farklı aksanları ve konuşma kalıplarını anlayabilmesi için bu modelleri oluşturacak verilere ve hesaplama yeteneğine sahip değildik."

Sonunda Landay ve Ng arasındaki sıradan konuşma, Çince veya İngilizce konuşan 32 katılımcının dahil olduğu tam kapsamlı bir deneye dönüştü. Tüm katılımcılar kısa mesaj göndermeyi öğrenmişti ve her ikisi de iPhone ile birlikte gelen standart klavyeleri kullanıyordu.

İngilizce konuşanlar için bu, normal iOS QWERTY klavye anlamına gelirken, Mandarin konuşanlar Apple'ın Pinyin klavyesini kullanıyordu. Her iki durumda da konuşma tanıma, kullanıcıların yazabildiğinden yaklaşık üç kat daha hızlıydı. İngilizce konuşma tanımada bu oran yüzde 20,4, Mandarin Çincesinde ise yüzde 63,4 daha düşüktü eş değer.

Landay, "Beklentim konuşmanın metinden daha hızlı olmasıydı" dedi. “Bunu biliyoruz çünkü yazabildiğinizden daha hızlı konuşabiliyorsunuz. Geçmişteki sorun, konuşma tanımada çok fazla hata almanızdı ve bu da sizi yavaşlatıyordu. Konuşmanın daha hızlı olacağını düşündüm. Beklemediğim şey ise üç kat daha hızlı olmasıydı. Belki yüzde 50 daha hızlı olabiliriz diye düşündüm. Aksine bundan çok daha fazlasıydı.”

Test elbette yüzde 100 kapsamlı değil. Şu anda dünyanın en hızlı mobil klavyesi (en azından İngilizce) üçüncü taraf Fleksy klavyesidir. En hızlı mesajlaşma dalında 2014 Guinness Dünya Rekoru'nda, bir kullanıcı klavyeyle mesaj atmayı başardı. Sadece 18,44 saniyede 126 harfli cümle. Ancak Landay, bu çalışmanın normal bir iPhone klavyesini seçtiğini çünkü bunun tipik daktilo hakkında iyi bir fikir verdiğini belirtti. "Çoğu insan alternatif klavyeleri öğrenmeye zaman ayırmıyor" dedi.

Çalışmanın ne anlama geldiğine gelince Landay, bunun konuşma tanıma açısından önemli bir ölçüt temsil ettiğini öne sürüyor. "Hala geliştirilecek alanlar var, ancak bir tür dönüm noktasının geçildiğini düşünüyoruz" dedi. "İsimleri tanıma, gürültülü ortamlarda daha iyi performans gösterme vb. konularda daha fazla gelişme sağlanacak."

Bunun, geliştiricilere konuşma tanımayı endişelenmeden sistemlerine dahil etme konusunda daha ciddi düşünmeleri için daha fazla olasılık açtığını söyledi. "Giderek daha anlamlı hale gelecek olan şey konuşmaya güvenmektir" dedi. “Örneğin, insanların gezinmesine yardımcı olmak için konuşmayı diğer unsurlarla birleştiren çok modlu arayüzler. Ancak en büyük zorluk, Anlam kelimelerden ve cümlelerden oluşur. Bu kısmın hala gidecek yolu var.”

Editörlerin Önerileri

  • Konuşma engeliniz varsa Alexa'yı kullanmak zordur. Voiceitt bunu düzeltebilir
  • Çinli firma maske altında sizi tanımlayabilecek yüz tanıma üzerinde çalışıyor
  • Google'ın Gboard'u konuşma tanıma konusunda çok daha iyi hale gelmek üzere

Yaşam tarzınızı yükseltinDigital Trends, en son haberler, eğlenceli ürün incelemeleri, anlayışlı başyazılar ve türünün tek örneği olan ön bakışlarla okuyucuların teknolojinin hızlı tempolu dünyasını takip etmelerine yardımcı olur.