입술 읽기 AI가 무음 문장 해석에 인간을 박살내다

LipNet: 독순술이 얼마나 쉽다고 생각하시나요?

스탠리 큐브릭의 SF 걸작 중 가장 기억에 남는 부분 중 하나 2001: 스페이스 오디세이 의 두 멤버가 이야기를 나누는 줄거리입니다. 디스커버리 원 우주선 승무원은 우주선의 AI 보조원인 HAL 9000의 행동에 대해 점점 더 의심을 품게 됩니다.

HAL이 자신의 말을 끊임없이 듣고 있다는 사실을 알고 그들은 HAL이 들을 수 없는 곳으로 후퇴하고 HAL의 연결을 끊는 데 동의합니다. HAL은 두 우주비행사가 상황을 고려하지 못하자 계획을 뒤흔들었습니다. AI의 뛰어난 입술 읽기 능력.

미래지향적인 것 맞죠? 옥스포드 대학의 연구자들이 수행한 연구에 따르면 그렇지 않습니다. 그들은 사람들이 말할 때 입을 움직이는 방식만을 기반으로 사람들이 말하는 내용을 정확하게 해석할 수 있는 LipNet이라는 인공 지능 프로그램을 개발했습니다.

관련된

  • 포토샵 AI는 '행복'을 썩은 치아의 미소라고 생각한다
  • 내 우스꽝스러운 스타트업 아이디어를 로봇 VC에게 피칭했다
  • AI가 실제로 지각을 갖게 되는 시점을 어떻게 알 수 있나요?

“LipNet은 기계 학습을 사용하여 문장 수준에서 입술 읽기를 수행합니다.” 브렌든 실링포드, 연구원 중 한 명 종이, Digital Trends에 말했습니다. “최첨단 음성 인식 모델과 유사한 신경망은 일련의 비디오 프레임을 처리하여 이를 문장으로 매핑합니다. 이전 접근 방식은 문장이 아닌 개별 단어를 예측하여 작동했습니다.”

추천 동영상

LipNet의 성능은 공개적으로 이용 가능한 가장 큰 문장 수준의 독순 데이터 세트인 GRID 코퍼스의 인간 독순 전문가와 비교할 수 없을 정도로 유리합니다. 실제로 인간 전문가가 52%를 얻은 반면 LipNet은 93%를 얻었습니다. 입술 읽기에 대한 문장 기반 접근 방식은 동일한 데이터 세트에서 79.6%의 정확도를 관리하는 기계의 이전 최고 시도를 깨뜨렸습니다.

그러나 가상의 HAL 9000이 입술 읽기 능력을 아무 소용 없이 사용하는 반면 LipNet 팀은 제작에 대한 다른 목표를 가지고 있습니다. 전 세계적으로 약 3억 6천만 명의 사람들이 청력 상실을 겪고 있습니다. LipNet과 같은 도구는 이러한 개인의 삶을 더 쉽게 만드는 방식으로 음성을 정확하게 해석하는 데 도움이 되므로 매우 중요할 수 있습니다.

“우리가 관심을 갖고 있는 다른 응용 프로그램에는 공공 장소에서의 자동 받아쓰기, 은밀한 대화, 시끄러운 환경에서의 음성 인식, 생체 인식 및 무성 영화 처리,” Shillingford 계속되는.

이와 같은 기술에는 감시가 문제가 되겠지만, 난도 데 프레이타스프로젝트에도 참여했던 는 자신들이 중점을 둔 애플리케이션이 아니라고 말했습니다. 그러나 그는 미래에 다른 연구소가 그러한 목적을 위해 그러한 연구를 구축하려고 시도한다면 "놀랍지 않을 것"이라고 말했습니다.

“대중은 이를 인지해야 하며, 우리의 사생활과 존엄성을 보호하는 적절한 법률을 제정하기 위해 법적 민주주의 제도에 의존해야 합니다.”라고 de Freitas는 계속 말했습니다. "이 작품을 출판함으로써 도움이 필요한 사람들을 돕는 이 기술의 유용성을 강조하는 동시에 인식을 높이는 데 도움이 되기를 바랍니다."

편집자의 추천

  • Apple의 ChatGPT 라이벌이 자동으로 코드를 작성할 수 있습니다
  • Meta가 비디오용으로 DALL-E를 만들었는데, 오싹하면서도 놀랍습니다.
  • 착시 현상은 차세대 AI를 구축하는 데 도움이 될 수 있습니다
  • Lambda의 기계 학습 노트북은 변장한 Razer입니다.
  • AI의 섬뜩할 정도로 아름다운 '종합 성서'를 읽어보세요. 그게 신이라고 생각하는 거야

당신의 라이프스타일을 업그레이드하세요Digital Trends는 독자들이 모든 최신 뉴스, 재미있는 제품 리뷰, 통찰력 있는 사설 및 독특한 미리보기를 통해 빠르게 변화하는 기술 세계를 계속해서 살펴볼 수 있도록 도와줍니다.