Штучний інтелект, який читає по губах, вражає людей у ​​перекладі тихих речень

LipNet: Як ви думаєте, наскільки легко читати з губ?

Одна з найбільш пам’ятних частин науково-фантастичного шедевру Стенлі Кубрика 2001: Космічна одіссея це сюжетна лінія, в якій два учасники Відкриття перше Екіпаж космічного корабля стає все більш підозрілим щодо поведінки помічника ШІ корабля, HAL 9000.

Знаючи, що HAL постійно слухає, що вони говорять, вони відступають кудись, де знають, що HAL не може слухати, і погоджуються відключити його. HAL озвучує свій план після того, як двоє астронавтів не беруть до уваги Покращені можливості штучного інтелекту для читання з губ.

Футуристичні штучки, еге ж? Не згідно з дослідженням, проведеним дослідниками з Оксфордського університету. Вони розробили програму штучного інтелекту під назвою LipNet, яка здатна точно інтерпретувати те, що люди говорять, виключно на основі того, як вони рухають ротом під час розмови.

Пов'язані

  • Photoshop AI вважає, що «щастя» — це посмішка з гнилими зубами
  • Я представив свою смішну ідею стартапу роботові венчурному капіталісту
  • Як ми дізнаємося, коли ШІ дійсно стане розумним?

«LipNet виконує читання з губ на рівні речення за допомогою машинного навчання», Брендан Шиллінгфорд, один із дослідників на папір, розповіли Digital Trends. «Нейронна мережа, подібна до найсучасніших моделей розпізнавання мовлення, обробляє послідовність відеокадрів, відображаючи їх у реченнях. Попередні підходи працювали на основі передбачених окремих слів, а не речень».

Рекомендовані відео

Продуктивність LipNet неймовірно вигідна порівняно з експертами з читання з губ людьми в корпусі GRID, найбільшому загальнодоступному наборі даних для читання з губ на рівні речень. Фактично, якщо експерти-люди отримали лише 52 відсотки, LipNet набрав 93 відсотки. Його підхід до читання з губ, заснований на реченнях, також розбив найкращу попередню спробу машини, яка досягла 79,6-відсоткової точності на тому ж наборі даних.

Однак, хоча вигаданий HAL 9000 використовує свої здібності до читання по губах без користі, команда, що стоїть за LipNet, має інші цілі для їх створення. Близько 360 мільйонів людей у ​​всьому світі страждають від втрати слуху. Такі інструменти, як LipNet, можуть бути дуже важливими для цих людей, оскільки допомагають точно інтерпретувати мовлення таким чином, щоб полегшити їм життя.

«Інші програми, які нас цікавлять, включають тихий диктант у громадських місцях, приховані розмови, розпізнавання мови в шумному середовищі, біометрична ідентифікація та обробка німого кіно», Шиллінгфорд продовження.

Хоча стеження буде проблемою з будь-якою подібною технологією, Нандо де Фрейташ, який також працював над проектом, сказав, що це не додаток, на якому вони зосередилися. Однак він сказав, що «не було б дивним», якби інші лабораторії спробували продовжити таку роботу для цієї мети в майбутньому.

«Громадськість повинна знати про це та покладатися на наші правові демократичні інститути для встановлення відповідних законів, які захищатимуть нашу конфіденційність і гідність», — продовжив де Фрейтас. «Ми сподіваємося, що, публікуючи цю роботу, ми допоможемо підвищити обізнаність, водночас наголошуючи на корисності цієї технології для допомоги людям, які цього потребують».

Рекомендації редакції

  • Конкурент Apple ChatGPT може автоматично написати код для вас
  • Meta створила DALL-E для відео, і це водночас моторошно та дивовижно
  • Оптичні ілюзії можуть допомогти нам створити наступне покоління ШІ
  • Ноутбук Lambda з машинним навчанням — це замаскований Razer
  • Прочитайте моторошно красиве «синтетичне писання» штучного інтелекту. що думає, що це Бог

Оновіть свій спосіб життяDigital Trends допомагає читачам стежити за динамічним світом технологій завдяки всім останнім новинам, цікавим оглядам продуктів, проникливим редакційним статтям і унікальним у своєму роді коротким оглядам.