AI за четене на устни смазва хората при тълкуване на мълчаливи изречения

LipNet: Колко лесно мислите, че е четенето на устни?

Една от най-запомнящите се части от научнофантастичния шедьовър на Стенли Кубрик 2001: Космическа одисея е сюжетна линия, в която двама членове на Откритие едно Екипажът на космическия кораб става все по-подозрителен относно поведението на асистента с ИИ на кораба, HAL 9000.

Знаейки, че HAL непрекъснато слуша какво им казват, те се оттеглят някъде, където знаят, че HAL не може да ги слуша, и се съгласяват да го изключат. HAL обявява плана си, след като двамата астронавти не успяват да вземат предвид Превъзходните възможности на AI за четене по устните.

Футуристични неща, а? Не и според изследване, проведено от изследователи от Оксфордския университет. Те са разработили програма за изкуствен интелект, наречена LipNet, която е в състояние да интерпретира точно това, което хората казват, въз основа единствено на начина, по който те движат устата си, когато говорят.

Свързани

  • Photoshop AI смята, че „щастието“ е усмивка с развалени зъби
  • Представих нелепата си идея за стартиране на робот VC
  • Как ще разберем кога изкуственият интелект наистина ще стане разумен?

„LipNet извършва четене по устните на ниво изречение, използвайки машинно обучение,“ Брендън Шилингфорд, един от изследователите на хартия, каза Digital Trends. „Невронна мрежа, подобна на най-съвременните модели за разпознаване на реч, обработва поредица от видео кадри, картографирайки ги в изречение. Предишните подходи работеха с предвидени отделни думи, а не с изречения.

Препоръчани видеоклипове

Производителността на LipNet се сравнява невероятно благоприятно с експертите по четене на устни от хора в корпуса GRID, най-големият публично достъпен набор от данни за четене на устни на ниво изречение. Всъщност, когато човешките експерти получиха само 52 процента, LipNet отбеляза 93 процента. Неговият базиран на изречения подход за четене по устните също разби най-добрия предишен опит на машина, която постигна 79,6 процента точност на същия набор от данни.

Въпреки това, докато фиктивният HAL 9000 използва своите способности за четене по устните за нищо добро, екипът зад LipNet има други цели за тяхното създаване. Около 360 милиона души по света имат инвалидизираща загуба на слуха. Инструменти като LipNet могат да бъдат много важни за тези хора, като помагат за точното интерпретиране на речта по начин, който улеснява живота им.

„Други приложения, от които се интересуваме, включват безшумна диктовка на обществени места, скрити разговори, разпознаване на реч в шумна среда, биометрична идентификация и обработка на нями филми,” Шилингфорд продължи.

Въпреки че наблюдението ще бъде проблем с всяка технология като тази, Нандо де Фрейтас, които също са работили по проекта, казаха, че това не е приложение, върху което са се фокусирали. Той обаче каза, че „няма да е изненадващо“, ако други лаборатории се опитат да надградят подобна работа за тази цел в бъдеще.

„Обществеността трябва да е наясно с това и да разчита на нашите правни демократични институции, за да установят подходящи закони, които защитават нашия личен живот и достойнство“, продължи де Фрейтас. „Надяваме се, че чрез публикуването на тази работа ще помогнем за повишаване на осведомеността, като същевременно подчертаваме полезността на тази технология за подпомагане на хората в нужда.“

Препоръки на редакторите

  • Съперникът на Apple ChatGPT може автоматично да напише код вместо вас
  • Meta направи DALL-E за видео и това е едновременно страховито и невероятно
  • Оптичните илюзии могат да ни помогнат да изградим следващото поколение AI
  • Лаптопът за машинно обучение на Lambda е маскиран Razer
  • Прочетете зловещо красивото „синтетично писание“ на A.I. който мисли, че е Бог

Надградете начина си на животDigital Trends помага на читателите да следят забързания свят на технологиите с всички най-нови новини, забавни ревюта на продукти, проницателни редакционни статии и единствени по рода си кратки погледи.