読唇AIが無言文の解釈で人間を圧倒

LipNet: 読唇術はどれくらい簡単だと思いますか?

スタンリー・キューブリックの SF 傑作の最も記憶に残る部分の 1 つ 2001年宇宙の旅 の2人のメンバーが登場するプロットラインです。 ディスカバリーワン 宇宙船の乗組員は、宇宙船の AI アシスタントである HAL 9000 の動作についてますます不信感を強めています。

HALが常に彼らの話を聞いていることを知っている彼らは、HALが聞くことができないとわかっている場所に撤退し、彼の接続を切ることに同意します。 2人の宇宙飛行士が考慮に入れていなかったため、HALは計画を台無しにした。 AIの優れた読唇能力.

未来的なものですね? オックスフォード大学の研究者が実施した研究によるとそうではありません。 彼らは、LipNet と呼ばれる人工知能プログラムを開発しました。これは、人々が話しているときの口の動かし方だけに基づいて、人々の発言を正確に解釈することができます。

関連している

  • Photoshop AI は「幸せ」とは歯が腐った笑顔だと考えている
  • ばかばかしいスタートアップのアイデアをロボットベンチャーキャピタルに売り込んだ
  • AI が実際に知覚力を持つようになる時期をどうやって知ることができるのでしょうか?

「LipNet は機械学習を使用して文レベルで読唇術を実行します。」 ブレンダン・シリングフォードの研究者の一人です。 とデジタルトレンドに語った。 「最先端の音声認識モデルと同様のニューラル ネットワークが一連のビデオ フレームを処理し、これらを文にマッピングします。 以前のアプローチは、文章ではなく個々の単語を予測することで機能していました。」

おすすめ動画

LipNet のパフォーマンスは、公的に利用可能な最大の文レベルの読唇データセットである GRID コーパス上の人間の読唇専門家と比べて、信じられないほど優れています。 実際、人間の専門家が得たスコアはわずか 52 パーセントでしたが、LipNet は 93 パーセントを獲得しました。 読唇術に対する文ベースのアプローチも、同じデータセットで 79.6% の精度を管理した機械によるこれまでの最高の試みを破りました。

しかし、架空の HAL 9000 が読唇能力を何の役にも立たない一方で、LipNet の背後にあるチームはその作成に関して別の目的を持っています。 世界中で約 3 億 6,000 万人が難聴を患っています。 LipNet のようなツールは、生活を楽にする方法で音声を正確に解釈するのに役立つため、これらの人々にとって非常に重要になる可能性があります。

「私たちが興味を持っている他のアプリケーションには、公共の場での無言の口述筆記、秘密の会話、 騒がしい環境での音声認識、生体認証識別、サイレント映画の処理などです」とシリングフォード氏は述べています。 続けた。

このようなテクノロジーでは監視が問題になりますが、 ナンド・デ・フレイタスもこのプロジェクトに取り組んでいたが、これは彼らが注力してきたアプリケーションではないと述べた。 しかし、将来的に他の研究室がそのような目的でそのような研究を進めようとしても「驚くべきことではない」と同氏は述べた。

「国民はこのことを認識し、私たちのプライバシーと尊厳を保護する適切な法律を制定するために私たちの法的民主主義機関に頼らなければなりません」とデ・フレイタス氏は続けた。 「この研究を出版することで、困っている人々を助けるこの技術の有用性を強調しながら、意識を高めるのに役立つことが私たちの願いです。」

編集者のおすすめ

  • Apple の ChatGPT ライバルが自動的にコードを作成する可能性がある
  • Meta がビデオ用に DALL-E を作成しました。不気味でありながら素晴らしいものです
  • 目の錯覚は次世代の AI の構築に役立つ可能性がある
  • Lambda の機械学習ラップトップは Razer の姿をしたもの
  • 不気味に美しい AI の「合成聖典」を読んでください。 それは神だと思っている

ライフスタイルをアップグレードするDigital Trends は、読者が最新ニュース、楽しい製品レビュー、洞察力に富んだ社説、ユニークなスニーク ピークをすべて提供して、ペースの速いテクノロジーの世界を監視するのに役立ちます。