A új kutatás a Massachusetts Institute of Technology számítástechnikai és mesterséges intelligencia részlegének kutatói A Laboratory (CSAIL) új technikát javasol ezeknek a rendszereknek a betanításához – úgy, hogy ránézésre ráveszi őket a tanulásra képeket.
Ajánlott videók
"Ez egy kísérlet arra, hogy a gépek kevésbé felügyelt képzést igényeljenek a beszélt nyelv megtanulásához" Jim Glass, a CSAIL vezető kutatója elmondta a Digital Trendsnek. „A beszédfelismerő rendszerek képzésének hagyományos módja az, hogy felvételeket használunk az emberek beszélőjéről, és minden megszólalásnál pontosan leírjuk az elhangzott szavakat. Ideális esetben több száz vagy több ezer beszédórája van ahhoz, hogy a rendszer megfelelően működjön. Az ezzel foglalkozó legnagyobb cégek némelyike – például a Baidu és a Google – több tízezer órát használ a képzésre. Minél több annotált adatuk van, annál jobban teljesítenek ezek a rendszerek.”
Szóval mi a baj ezzel? Végül is, amint már említettük, a beszédfelismerő technológia folyamatosan javul. Bármit is csinálnak az informatikusok, nyilvánvalóan működik.
Ez igaz lehet, de ez az új megközelítés több okból is érdekes. Először is, meg kell nyitni a gép azon képességét, hogy a kép és a hang kombinált nézegetésével megtanulja magát megérteni (végül el tudod képzelni, hogy a YouTube megtekintésével edz) sokkal közelebb áll ahhoz, ahogyan emberként tanulunk. lények.
Másodszor – és vitathatatlanul még fontosabb – az a tény, hogy segíthet a beszédfelismerés elterjesztésében a világ azon részein, ahol nagy hasznot húzhat az ilyen technológia.
„A megjegyzésekkel ellátott adatok előállítása költséges” – folytatta Glass. „A beszédfelismerés évtizedek óta működik, és ennek többsége olyan országok nyelveire vonatkozik, amelyek megengedhetik maguknak, hogy ilyen jellegű forrásokba fektessenek be. Ami a nyelvet illeti, általában azok, amelyekről a vállalatok úgy gondolják, hogy segítik őket a nyereség elérésében. A legnagyobb figyelmet az angol kapta, ezt követik a nyugat-európai nyelvek, és más nyelvek, például a japán és a mandarin. A probléma az, hogy körülbelül 7000 nyelvet beszélnek a világon, és körülbelül 300-at, amelyeket több mint 1 millió ember beszél. Ezek közül sok nem kapott különösebb figyelmet – ha van ilyen.”
A világ azon részein, ahol alacsony az írástudás szintje, könnyen belátható, hogy a beszédfelismerés hogyan változtathatja meg az emberek számára az információkhoz való hozzáférést. Remélhetőleg ez a technológia segíthet elérni ezt a célt.
Bármennyire is izgalmas a kutatás, Glass megjegyzi, hogy még mindig nagyon korai szakaszában jár. Jelenleg a CSAIL kutatói egy 1000 képből álló adatbázissal látják el rendszerüket, amelyek mindegyikéhez valamilyen módon kapcsolódik egy szabad formájú szóbeli leírás. Ezután tesztelik a rendszert úgy, hogy rögzítenek neki, és megkérik, hogy szerezzen be 10 olyan képet, amely a legjobban egyezik a hallottakkal.
Idővel a remény az, hogy a beszédfelismerés ilyen megközelítései olyan mértékben javulnak majd hatékonyságukban, hogy a beszédképzési adatok fáradságos címkézését már nem tartják szükségesnek.
Ha minden a tervek szerint halad, ez mindenkinek jobb lesz – akár angolul beszél az Egyesült Államokban, akár xhosa nyelvet beszél Dél-Afrikában.
Szerkesztői ajánlások
- Okos új A.I. rendszer azt ígéri, hogy kioktatja kutyáját, amíg Ön távol van otthonától
- Az MIT új „árnyékos” kutatása árnyékokat használ annak megállapítására, amit a kamerák nem képesek
- A.I. a kutatók arcfelismerő rendszert hoznak létre a csimpánzok számára
- MIT, az Adobe új A.I. hozhat egy kattintással a háttér eltávolítását, közösségi szűrőket
Frissítse életmódjátA Digital Trends segítségével az olvasók nyomon követhetik a technológia rohanó világát a legfrissebb hírekkel, szórakoztató termékismertetőkkel, éleslátó szerkesztőségekkel és egyedülálló betekintésekkel.