Teksty rozpoznawania mowy 3 razy szybciej, niż możesz pisać

click fraud protection

Eksperyment Stanforda pokazuje, że rozpoznawanie mowy pisze teksty szybciej niż kciuki

Dyktowanie komputerowe jest o wiele lepsze niż dziesięć lat temu, ale o ile dokładnie lepsze? Było to wyzwanie dla informatyków z Uniwersytetu Stanforda, Uniwersytetu Waszyngtońskiego i chińskiego giganta technologicznego Baidu niedawno wziął udział w eksperymencie, w którym ludzie mierzyli się z najnowszym, najnowocześniejszym oprogramowaniem do rozpoznawania mowy, zarówno pod względem szybkości, jak i... dokładność.

Profesor informatyki w Stanford Jamesa Landaya powiedział, że badanie rozpoczęło się od „rozmowy w kawiarni” pomiędzy nim a adiunktem na Uniwersytecie Stanforda Andrzej Ng, obecnie główny naukowiec w Baidu. „Andrew powiedział, że narzędzia Baidu do rozpoznawania mowy stają się naprawdę świetne, ale nie znają odpowiedniego eksperymentu, aby to określić ilościowo” – Landay powiedział Digital Trends.

Polecane filmy

Oparte na chmurze oprogramowanie Baidu Deep Speech 2 do rozpoznawania mowy opiera się na sieci neuronowej głębokiego uczenia się: imponujące narzędzie do uczenia maszynowego, które jest w stanie samo się szkolić, analizując ogromne zbiory danych rzeczywistych przemówienie.

Powiązany

  • sztuczna inteligencja można stwierdzić, czy jesteś dobrym chirurgiem, po prostu skanując swój mózg
  • sztuczna inteligencja badacze tworzą system rozpoznawania twarzy dla szympansów

„Wcześniej nie mieliśmy danych ani możliwości obliczeniowych, aby zbudować te modele, aby komputer mógł zrozumieć różne akcenty i wzorce mowy” – kontynuował Landay.

W końcu swobodna rozmowa między Landayem i Ng przekształciła się w pełnowymiarowy eksperyment, w którym wzięło udział 32 uczestników mówiących po chińsku lub angielsku. Wszyscy uczestnicy dorastali, korzystając z wiadomości tekstowych i obaj używali standardowych klawiatur dostarczanych z iPhonem.

Dla osób mówiących po angielsku oznaczało to zwykłą klawiaturę QWERTY iOS, podczas gdy osoby mówiące w języku mandaryńskim korzystały z klawiatury Pinyin firmy Apple. W obu przypadkach rozpoznawanie mowy było około trzy razy szybsze, niż użytkownicy byli w stanie pisać – podczas gdy wystąpił błąd wskaźnik był o 20,4% niższy w przypadku rozpoznawania mowy w języku angielskim i o 63,4% niższy w przypadku języka mandaryńskiego. równowartość.

„Spodziewałem się, że mowa będzie szybsza niż tekst” – powiedział Landay. „Wiemy o tym, ponieważ potrafisz mówić szybciej niż pisać. W przeszłości problemem było to, że podczas rozpoznawania mowy pojawiało się wiele błędów, co spowalniało działanie. Myślałem, że mowa okaże się szybciej. Nie spodziewałem się, że zakończy się to trzy razy szybciej. Pomyślałem, że może uda nam się osiągnąć 50 procent szybciej. Zamiast tego było o wiele więcej.”

Oczywiście test nie jest w 100% kompleksowy. Obecnie najszybszą na świecie klawiaturą mobilną (przynajmniej w języku angielskim) jest klawiatura Fleksy innej firmy. W Księdze Rekordów Guinnessa z 2014 r. w zakresie najszybszego wysyłania SMS-ów użytkownik był w stanie wpisać: Zdanie składające się ze 126 liter w zaledwie 18,44 sekundy. Jednak Landay zauważył, że w tym badaniu wybrano zwykłą klawiaturę iPhone'a, ponieważ dobrze wskazuje ona typową maszynistkę. „Większość ludzi nie poświęca czasu na naukę alternatywnych klawiatur” – powiedział.

Jeśli chodzi o znaczenie badania, Landay sugeruje, że stanowi ono ważny punkt odniesienia w rozpoznawaniu mowy. „Nadal jest wiele do poprawy, ale uważamy, że pewien punkt zwrotny został przekroczony” – powiedział. „Nastąpią dalsze ulepszenia w zakresie rozpoznawania nazw, lepszego działania w hałaśliwym otoczeniu itp.”.

To, powiedział, otwiera przed programistami więcej możliwości, aby bez obaw poważniej myśleć o włączeniu rozpoznawania mowy do swoich systemów. „To, co będzie miało coraz większy sens, to poleganie na mowie” – stwierdził. „Na przykład interfejsy multimodalne łączące mowę z innymi elementami, aby pomóc ludziom w nawigacji. Największym wyzwaniem będzie jednak zrozumienie oznaczający słów i zdań. Ta część ma jeszcze wiele do zrobienia.”

Zalecenia redaktorów

  • Korzystanie z Alexy jest trudne, jeśli masz niepełnosprawność mowy. Voiceitt mógłby to naprawić
  • Chińska firma pracuje nad systemem rozpoznawania twarzy, który będzie w stanie zidentyfikować Cię pod maską
  • Google Gboard wkrótce będzie znacznie lepiej rozpoznawał mowę

Ulepsz swój styl życiaDigital Trends pomaga czytelnikom śledzić szybko rozwijający się świat technologii dzięki najnowszym wiadomościom, zabawnym recenzjom produktów, wnikliwym artykułom redakcyjnym i jedynym w swoim rodzaju zajawkom.