이미지를 통해 학습하는 새로운 음성 인식 방법

안드로이드 메시지 개선 전화 서로 문자 메시지 보내기 — 올가 레베데바/123RF.com

음성 인식 시스템은 아직 완벽하지 않을 수 있지만 Amazon Echo와 같이 점점 더 좋아지고 보편화되고 있습니다.

ㅏ 새로운 연구 매사추세츠 공과대학(Massachusetts Institute of Technology)의 컴퓨터 과학 및 인공 지능 연구원 CSAIL(Laboratory)은 이러한 시스템을 교육하기 위한 새로운 기술을 제안합니다. 이미지.

추천 동영상

"이것은 기계가 음성 언어를 배우기 위해 감독 교육을 덜 필요로 하도록 하려는 시도입니다." 짐 글래스, CSAIL의 선임 연구 과학자는 Digital Trends에 말했습니다. “음성 인식 시스템을 훈련시키는 기존의 방법은 사람들이 말하는 녹음을 사용하고 각 발화에 대해 어떤 단어가 말했는지 정확하게 기록하는 것입니다. 이상적으로는 시스템이 제대로 작동하려면 수백 또는 수천 시간의 음성이 필요합니다. Baidu나 Google과 같이 이를 수행하는 일부 대형 기업은 교육에 수만 시간을 사용하고 있습니다. 주석이 달린 데이터가 많을수록 시스템 성능이 향상됩니다.”

그래서 그게 뭐가 문제야? 앞서 언급했듯이 음성 인식 기술은 지속적으로 발전하고 있습니다. 컴퓨터 과학자들이 하는 일은 무엇이든 분명히 효과가 있습니다.

그것이 사실일 수도 있지만 이 새로운 접근 방식은 몇 가지 이유로 흥미롭습니다. 첫째, 결합된 이미지와 오디오를 보고 이해하도록 스스로 훈련하는 기계의 능력을 열어줍니다. (결국 YouTube를 보면서 훈련하는 것을 상상할 수 있습니다.) 인간으로서 학습하는 방식에 훨씬 더 가깝습니다. 존재.

둘째, 그리고 아마도 더 중요한 것은 이러한 종류의 기술로 큰 이익을 얻을 수 있는 세계 여러 지역에 음성 인식을 제공하는 데 도움이 될 수 있다는 사실입니다.

Glass는 “주석이 달린 데이터를 생산하는 데 비용이 많이 듭니다.”라고 말했습니다. “음성 인식은 수십 년 동안 진행되어 왔으며 대부분은 이러한 종류의 자원에 투자할 여력이 있는 국가의 언어에 대한 것이었습니다. 언어에 관해서는 회사가 수익을 창출하는 데 도움이 될 것이라고 생각하는 경향이 있습니다. 영어가 가장 많은 관심을 받았고, 그 뒤를 서유럽 언어, 일본어 및 중국어와 같은 다른 언어가 뒤따랐습니다. 문제는 전 세계적으로 사용되는 언어가 약 7,000개, 100만 명이 넘는 사람들이 사용하는 언어가 약 300개라는 점이다. 이들 중 상당수는 별로 주목을 받지 못했습니다.

읽고 쓰는 능력 수준이 낮은 지역에서는 음성 인식이 사람들에게 정보에 대한 접근을 제공한다는 측면에서 어떻게 획기적인 변화를 가져올 수 있는지 쉽게 알 수 있습니다. 이 기술이 그 목표를 달성하는 데 도움이 되기를 바랍니다.

그러나 연구가 흥미로운 만큼 Glass는 아직 초기 단계에 있다고 지적합니다. 현재 CSAIL 연구자들은 시스템에 1,000개의 이미지 데이터베이스를 제공하고 있으며 각 이미지에는 어떤 방식으로든 관련이 있는 자유로운 형식의 구두 설명이 포함되어 있습니다. 그런 다음 시스템에 녹음을 제공하고 듣고 있는 내용과 가장 일치하는 10개의 이미지를 검색하도록 요청하여 시스템을 테스트합니다.

시간이 지남에 따라 음성 인식에 대한 이러한 접근 방식은 음성 훈련 데이터에 대한 힘든 라벨링이 더 이상 필요하지 않은 지점까지 효율성이 향상될 것이라는 희망이 있습니다.

모든 것이 계획대로 진행된다면 모든 사람에게 더 좋을 것입니다. 미국의 영어 사용자이든 남아프리카의 코사어 사용자이든 상관없습니다.

편집자의 추천

영리하고 새로운 A.I. 시스템은 당신이 집에 없는 동안 개를 훈련시키겠다고 약속합니다.
MIT의 새로운 '그늘진' 연구는 그림자를 사용하여 카메라가 볼 수 없는 것을 확인합니다.
일체 포함. 연구자들이 침팬지의 얼굴 인식 시스템을 개발하다
MIT, Adobe의 새로운 AI 원클릭 배경 제거, 소셜 필터 제공 가능

당신의 라이프스타일을 업그레이드하세요Digital Trends는 독자들이 모든 최신 뉴스, 재미있는 제품 리뷰, 통찰력 있는 사설 및 독특한 미리보기를 통해 빠르게 변화하는 기술 세계를 계속해서 살펴볼 수 있도록 도와줍니다.

이미지를 통해 학습하는 새로운 음성 인식 방법

편집자의 추천

카테고리

충적세

마블, 어벤져스: 에이지 오브 울트론에 두 번째 악당 캐스팅

'핀업 사진작가의 여왕' 버니 예거가 85세로 세상을 떠났다.

아얀 쿠레시(Ayan Qureshi) 최연소 마이크로소프트 IT 시험 합격