A nowy element badań przez badaczy z wydziału informatyki i sztucznej inteligencji Massachusetts Institute of Technology Laboratorium (CSAIL) sugeruje nową technikę uczenia tych systemów — poprzez skłonienie ich do uczenia się poprzez patrzenie obrazy.
Polecane filmy
„To próba sprawienia, aby maszyny wymagały mniej nadzorowanego szkolenia w zakresie nauki języka mówionego” – Jima Glassa, starszy pracownik naukowy w CSAIL, powiedział Digital Trends. „Konwencjonalny sposób szkolenia systemów rozpoznawania mowy polega na wykorzystaniu nagrań rozmów ludzi i transkrypcji każdej wypowiedzi dokładnie tego, jakie słowa zostały wypowiedziane. W idealnym przypadku masz setki lub tysiące godzin rozmów, aby system działał poprawnie. Niektóre z największych firm, które to robią – jak Baidu i Google – poświęcają dziesiątki tysięcy godzin na szkolenia. Im więcej mają danych z adnotacjami, tym lepiej działają te systemy.
Więc co w tym złego? W końcu, jak zauważono, technologia rozpoznawania mowy jest stale udoskonalana. Cokolwiek robią informatycy, najwyraźniej działa.
Może to prawda, ale to nowe podejście jest interesujące z kilku powodów. Po pierwsze, umożliwienie maszynie nauczenia się rozumienia na podstawie połączonych obrazów i dźwięku (w końcu można sobie wyobrazić, że szkolenie polega na oglądaniu YouTube) jest znacznie bliższe sposobowi, w jaki uczymy się jako ludzie istoty.
Po drugie — i prawdopodobnie ważniejsze — może pomóc w zapewnieniu rozpoznawania mowy w częściach świata, które mogłyby w dużym stopniu skorzystać z tego rodzaju technologii.
„Wytworzenie danych z adnotacjami jest kosztowne” – kontynuował Glass. „Rozpoznawanie mowy trwa od dziesięcioleci i większość z nich dotyczy języków w krajach, które mogą sobie pozwolić na inwestowanie w tego rodzaju zasoby. Jeśli chodzi o język, zazwyczaj jest to ten, który według firm pomoże im osiągnąć zysk. Zdecydowanie najwięcej uwagi poświęcono językowi angielskiemu, następnie językom zachodnioeuropejskim i innym językom, takim jak japoński i mandaryński. Problem w tym, że na świecie mówi się około 7 000 języków, z czego około 300 posługuje się ponad milionem ludzi. Wielu z nich po prostu nie poświęcono zbytniej uwagi – jeśli w ogóle w ogóle.”
W częściach świata, w których poziom umiejętności czytania i pisania jest niski, łatwo dostrzec, jak rozpoznawanie mowy może zmienić zasady gry, jeśli chodzi o zapewnienie ludziom dostępu do informacji. Mamy nadzieję, że ta technologia pomoże w osiągnięciu tego celu.
Choć badania są ekscytujące, Glass zauważa, że są one wciąż na bardzo wczesnym etapie. Obecnie badacze CSAIL zasilają swój system bazą danych zawierającą 1000 obrazów, każdy z dowolnym słownym opisem, który w jakiś sposób się z nim odnosi. Następnie testują system, nagrywając go i prosząc o pobranie 10 obrazów, które najlepiej odpowiadają temu, co słyszy.
Istnieje nadzieja, że z biegiem czasu skuteczność takich podejść do rozpoznawania mowy poprawi się do tego stopnia, że pracochłonne etykietowanie danych dotyczących uczenia się mowy nie będzie już uważane za konieczność.
Jeśli wszystko pójdzie zgodnie z planem, powinno to być lepsze dla wszystkich – niezależnie od tego, czy mówisz po angielsku w USA, czy mówisz w języku Xhosa w Republice Południowej Afryki.
Zalecenia redaktorów
- Inteligentna nowa sztuczna inteligencja system obiecuje wyszkolić Twojego psa, gdy będziesz poza domem
- Nowe „podejrzane” badania przeprowadzone przez MIT wykorzystują cienie, aby zobaczyć to, czego nie potrafią kamery
- sztuczna inteligencja badacze tworzą system rozpoznawania twarzy dla szympansów
- MIT, nowa sztuczna inteligencja firmy Adobe może zapewnić usuwanie tła jednym kliknięciem i filtry społecznościowe
Ulepsz swój styl życiaDigital Trends pomaga czytelnikom śledzić szybko rozwijający się świat technologii dzięki najnowszym wiadomościom, zabawnym recenzjom produktów, wnikliwym artykułom redakcyjnym i jedynym w swoim rodzaju zajawkom.