Nowa metoda rozpoznawania mowy uczy się poprzez obrazy

Ulepszenia wiadomości na Androida Telefony wysyłające do siebie SMS-y
Olga Lebiediewa/123RF.com
Systemy rozpoznawania mowy może nie są jeszcze doskonałe, ale jak pokazuje przykład Amazon Echo, są coraz lepsze i coraz bardziej wszechobecne.

A nowy element badań przez badaczy z wydziału informatyki i sztucznej inteligencji Massachusetts Institute of Technology Laboratorium (CSAIL) sugeruje nową technikę uczenia tych systemów — poprzez skłonienie ich do uczenia się poprzez patrzenie obrazy.

Polecane filmy

„To próba sprawienia, aby maszyny wymagały mniej nadzorowanego szkolenia w zakresie nauki języka mówionego” – Jima Glassa, starszy pracownik naukowy w CSAIL, powiedział Digital Trends. „Konwencjonalny sposób szkolenia systemów rozpoznawania mowy polega na wykorzystaniu nagrań rozmów ludzi i transkrypcji każdej wypowiedzi dokładnie tego, jakie słowa zostały wypowiedziane. W idealnym przypadku masz setki lub tysiące godzin rozmów, aby system działał poprawnie. Niektóre z największych firm, które to robią – jak Baidu i Google – poświęcają dziesiątki tysięcy godzin na szkolenia. Im więcej mają danych z adnotacjami, tym lepiej działają te systemy.

Więc co w tym złego? W końcu, jak zauważono, technologia rozpoznawania mowy jest stale udoskonalana. Cokolwiek robią informatycy, najwyraźniej działa.

Może to prawda, ale to nowe podejście jest interesujące z kilku powodów. Po pierwsze, umożliwienie maszynie nauczenia się rozumienia na podstawie połączonych obrazów i dźwięku (w końcu można sobie wyobrazić, że szkolenie polega na oglądaniu YouTube) jest znacznie bliższe sposobowi, w jaki uczymy się jako ludzie istoty.

Po drugie — i prawdopodobnie ważniejsze — może pomóc w zapewnieniu rozpoznawania mowy w częściach świata, które mogłyby w dużym stopniu skorzystać z tego rodzaju technologii.

„Wytworzenie danych z adnotacjami jest kosztowne” – kontynuował Glass. „Rozpoznawanie mowy trwa od dziesięcioleci i większość z nich dotyczy języków w krajach, które mogą sobie pozwolić na inwestowanie w tego rodzaju zasoby. Jeśli chodzi o język, zazwyczaj jest to ten, który według firm pomoże im osiągnąć zysk. Zdecydowanie najwięcej uwagi poświęcono językowi angielskiemu, następnie językom zachodnioeuropejskim i innym językom, takim jak japoński i mandaryński. Problem w tym, że na świecie mówi się około 7 000 języków, z czego około 300 posługuje się ponad milionem ludzi. Wielu z nich po prostu nie poświęcono zbytniej uwagi – jeśli w ogóle w ogóle.”

W częściach świata, w których poziom umiejętności czytania i pisania jest niski, łatwo dostrzec, jak rozpoznawanie mowy może zmienić zasady gry, jeśli chodzi o zapewnienie ludziom dostępu do informacji. Mamy nadzieję, że ta technologia pomoże w osiągnięciu tego celu.

Choć badania są ekscytujące, Glass zauważa, że ​​są one wciąż na bardzo wczesnym etapie. Obecnie badacze CSAIL zasilają swój system bazą danych zawierającą 1000 obrazów, każdy z dowolnym słownym opisem, który w jakiś sposób się z nim odnosi. Następnie testują system, nagrywając go i prosząc o pobranie 10 obrazów, które najlepiej odpowiadają temu, co słyszy.

Istnieje nadzieja, że ​​z biegiem czasu skuteczność takich podejść do rozpoznawania mowy poprawi się do tego stopnia, że ​​pracochłonne etykietowanie danych dotyczących uczenia się mowy nie będzie już uważane za konieczność.

Jeśli wszystko pójdzie zgodnie z planem, powinno to być lepsze dla wszystkich – niezależnie od tego, czy mówisz po angielsku w USA, czy mówisz w języku Xhosa w Republice Południowej Afryki.

Zalecenia redaktorów

  • Inteligentna nowa sztuczna inteligencja system obiecuje wyszkolić Twojego psa, gdy będziesz poza domem
  • Nowe „podejrzane” badania przeprowadzone przez MIT wykorzystują cienie, aby zobaczyć to, czego nie potrafią kamery
  • sztuczna inteligencja badacze tworzą system rozpoznawania twarzy dla szympansów
  • MIT, nowa sztuczna inteligencja firmy Adobe może zapewnić usuwanie tła jednym kliknięciem i filtry społecznościowe

Ulepsz swój styl życiaDigital Trends pomaga czytelnikom śledzić szybko rozwijający się świat technologii dzięki najnowszym wiadomościom, zabawnym recenzjom produktów, wnikliwym artykułom redakcyjnym i jedynym w swoim rodzaju zajawkom.