Az új beszédfelismerési módszer képeken keresztül tanul

android üzenetek fejlesztések telefonok SMS-t küldenek egymásnak — Olga Lebedeva/123RF.com

Lehet, hogy a beszédfelismerő rendszerek még nem tökéletesek, de amint azt az Amazon Echo is mutatják, egyre jobbak és mindenütt jelen vannak.

A új kutatás a Massachusetts Institute of Technology számítástechnikai és mesterséges intelligencia részlegének kutatói A Laboratory (CSAIL) új technikát javasol ezeknek a rendszereknek a betanításához – úgy, hogy ránézésre ráveszi őket a tanulásra képeket.

Ajánlott videók

"Ez egy kísérlet arra, hogy a gépek kevésbé felügyelt képzést igényeljenek a beszélt nyelv megtanulásához" Jim Glass, a CSAIL vezető kutatója elmondta a Digital Trendsnek. „A beszédfelismerő rendszerek képzésének hagyományos módja az, hogy felvételeket használunk az emberek beszélőjéről, és minden megszólalásnál pontosan leírjuk az elhangzott szavakat. Ideális esetben több száz vagy több ezer beszédórája van ahhoz, hogy a rendszer megfelelően működjön. Az ezzel foglalkozó legnagyobb cégek némelyike – például a Baidu és a Google – több tízezer órát használ a képzésre. Minél több annotált adatuk van, annál jobban teljesítenek ezek a rendszerek.”

Szóval mi a baj ezzel? Végül is, amint már említettük, a beszédfelismerő technológia folyamatosan javul. Bármit is csinálnak az informatikusok, nyilvánvalóan működik.

Ez igaz lehet, de ez az új megközelítés több okból is érdekes. Először is, meg kell nyitni a gép azon képességét, hogy a kép és a hang kombinált nézegetésével megtanulja magát megérteni (végül el tudod képzelni, hogy a YouTube megtekintésével edz) sokkal közelebb áll ahhoz, ahogyan emberként tanulunk. lények.

Másodszor – és vitathatatlanul még fontosabb – az a tény, hogy segíthet a beszédfelismerés elterjesztésében a világ azon részein, ahol nagy hasznot húzhat az ilyen technológia.

„A megjegyzésekkel ellátott adatok előállítása költséges” – folytatta Glass. „A beszédfelismerés évtizedek óta működik, és ennek többsége olyan országok nyelveire vonatkozik, amelyek megengedhetik maguknak, hogy ilyen jellegű forrásokba fektessenek be. Ami a nyelvet illeti, általában azok, amelyekről a vállalatok úgy gondolják, hogy segítik őket a nyereség elérésében. A legnagyobb figyelmet az angol kapta, ezt követik a nyugat-európai nyelvek, és más nyelvek, például a japán és a mandarin. A probléma az, hogy körülbelül 7000 nyelvet beszélnek a világon, és körülbelül 300-at, amelyeket több mint 1 millió ember beszél. Ezek közül sok nem kapott különösebb figyelmet – ha van ilyen.”

A világ azon részein, ahol alacsony az írástudás szintje, könnyen belátható, hogy a beszédfelismerés hogyan változtathatja meg az emberek számára az információkhoz való hozzáférést. Remélhetőleg ez a technológia segíthet elérni ezt a célt.

Bármennyire is izgalmas a kutatás, Glass megjegyzi, hogy még mindig nagyon korai szakaszában jár. Jelenleg a CSAIL kutatói egy 1000 képből álló adatbázissal látják el rendszerüket, amelyek mindegyikéhez valamilyen módon kapcsolódik egy szabad formájú szóbeli leírás. Ezután tesztelik a rendszert úgy, hogy rögzítenek neki, és megkérik, hogy szerezzen be 10 olyan képet, amely a legjobban egyezik a hallottakkal.

Idővel a remény az, hogy a beszédfelismerés ilyen megközelítései olyan mértékben javulnak majd hatékonyságukban, hogy a beszédképzési adatok fáradságos címkézését már nem tartják szükségesnek.

Ha minden a tervek szerint halad, ez mindenkinek jobb lesz – akár angolul beszél az Egyesült Államokban, akár xhosa nyelvet beszél Dél-Afrikában.

Szerkesztői ajánlások

Okos új A.I. rendszer azt ígéri, hogy kioktatja kutyáját, amíg Ön távol van otthonától
Az MIT új „árnyékos” kutatása árnyékokat használ annak megállapítására, amit a kamerák nem képesek
A.I. a kutatók arcfelismerő rendszert hoznak létre a csimpánzok számára
MIT, az Adobe új A.I. hozhat egy kattintással a háttér eltávolítását, közösségi szűrőket

Frissítse életmódjátA Digital Trends segítségével az olvasók nyomon követhetik a technológia rohanó világát a legfrissebb hírekkel, szórakoztató termékismertetőkkel, éleslátó szerkesztőségekkel és egyedülálló betekintésekkel.

Az új beszédfelismerési módszer képeken keresztül tanul

Szerkesztői ajánlások

Kategóriák

Friss

A Dog Parker az új okosotthon kutyája számára

A Facebook alelnöke szerint a közösségi hálózat hamarosan "Minden videó" lesz

Az új graféngyártási folyamat egyszerűbb és olcsóbb