음성 인식 텍스트는 입력할 수 있는 것보다 3배 더 빠릅니다.

click fraud protection

스탠포드 실험에서는 음성 인식이 엄지손가락보다 더 빨리 텍스트를 쓰는 것으로 나타났습니다.

컴퓨터 받아쓰기는 10년 전보다 훨씬 나아졌습니다. 하지만 정확히 얼마나 나아졌을까요? 이는 스탠포드 대학교, 워싱턴 대학교, 중국 거대 기술 기업 바이두의 컴퓨터 과학자들이 도전한 과제였습니다. 최근에는 속도와 속도 모두에서 최신 최첨단 음성 인식 소프트웨어와 인간을 대결하는 실험이 시작되었습니다. 정확성.

스탠포드 컴퓨터 과학 교수 제임스 랜데이 이 연구가 자신과 스탠포드 겸임 교수 사이의 "커피숍 대화"에서 시작되었다고 말했습니다. 앤드류 응, 현재 Baidu의 수석 과학자입니다. "Andrew는 Baidu의 음성 인식 도구가 정말 훌륭해지고 있지만 이를 정량화하기 위한 올바른 실험을 알지 못했다고 말했습니다."라고 Landay는 Digital Trends에 말했습니다.

추천 동영상

Baidu의 Deep Speech 2 클라우드 기반 음성 인식 소프트웨어는 딥 러닝 신경망을 기반으로 합니다. 실제 데이터의 막대한 데이터 세트를 분석하여 스스로 훈련할 수 있는 인상적인 기계 학습 도구입니다. 연설.

관련된

  • 일체 포함. 뇌를 스캔하는 것만으로도 당신이 훌륭한 외과의사인지 알 수 있습니다
  • 일체 포함. 연구자들이 침팬지의 얼굴 인식 시스템을 개발하다

"이전에는 컴퓨터가 다양한 억양과 음성 패턴을 이해할 수 있도록 이러한 모델을 구축할 수 있는 데이터 및 계산 능력이 없었습니다."라고 Landay는 계속 말했습니다.

결국 Landay와 Ng의 일상적인 대화는 32명의 참가자가 중국어 또는 영어로 말하는 본격적인 실험으로 바뀌었습니다. 모든 참가자는 문자 메시지를 보내는 데 능숙했으며 둘 다 iPhone과 함께 제공되는 표준 키보드를 사용하고 있었습니다.

영어 사용자의 경우 이는 일반 iOS QWERTY 키보드를 의미하는 반면, 중국어 사용자는 Apple의 Pinyin 키보드를 사용했습니다. 두 경우 모두 음성 인식은 사용자가 입력할 수 있는 것보다 약 3배 더 빨랐습니다. 영어 음성 인식 비율은 20.4% 낮았고, 중국어 음성 인식 비율은 63.4% 낮았습니다. 동등한.

랜데이는 “나는 음성이 문자보다 더 빠를 것이라고 기대했다”고 말했다. “우리는 타이핑하는 것보다 더 빨리 말할 수 있기 때문에 이것을 알고 있습니다. 예전에는 음성인식 오류가 많아 속도가 느려지는 것이 문제였습니다. 나는 연설이 더 빨라질 것이라고 생각했습니다. 내가 기대하지 않았던 것은 그것이 3배 더 빨라질 것이라는 것이었다. 나는 아마도 우리가 50% 더 빨리 얻을 수 있을 것이라고 생각했습니다. 오히려 그 이상이었습니다.”

물론 이 테스트가 100% 포괄적인 것은 아닙니다. 현재 세계에서 가장 빠른 모바일 키보드(적어도 영어)는 타사 Fleksy 키보드입니다. 2014년 가장 빠른 문자 메시지 기네스 세계 기록에서 사용자는 다음과 같은 문자 메시지를 입력할 수 있었습니다. 단 18.44초 만에 126자 문장 완성. 그러나 Landay는 이 연구가 전형적인 타이피스트에 대한 좋은 지표를 제공하기 때문에 일반 iPhone 키보드를 선택했다고 지적했습니다. “대부분의 사람들은 대체 키보드를 배우는 데 시간을 들이지 않습니다.”라고 그는 말했습니다.

이 연구가 의미하는 바에 대해 Landay는 이것이 음성 인식에 대한 중요한 벤치마크를 나타낸다고 제안합니다. 그는 “아직 개선할 여지가 있지만 어느 정도 변곡점을 넘은 것 같다”고 말했다. "이름 인식, 시끄러운 환경에서의 성능 향상 등이 더욱 향상될 것입니다."

이는 개발자가 걱정 없이 음성 인식을 시스템에 통합하는 것에 대해 더 진지하게 생각할 수 있는 더 많은 가능성을 열어준다고 그는 말했습니다. “점점 더 이해가 되는 것은 말에 의존하는 것입니다.”라고 그는 말했습니다. “예를 들어 음성을 다른 요소와 결합하여 사람들이 탐색하는 데 도움이 되는 다중 모드 인터페이스가 있습니다. 하지만 가장 큰 과제는 다음을 이해하는 것입니다. 의미 단어와 문장의. 그 부분은 아직 갈 길이 멀다”고 말했다.

편집자의 추천

  • 언어 장애가 있는 경우 Alexa를 사용하는 것은 까다롭습니다. Voiceitt가 문제를 해결할 수 있습니다
  • 마스크를 쓴 사람을 식별할 수 있는 안면 인식 기술을 개발 중인 중국 회사
  • Google Gboard의 음성 인식 기능이 훨씬 향상될 예정입니다.

당신의 라이프스타일을 업그레이드하세요Digital Trends는 독자들이 모든 최신 뉴스, 재미있는 제품 리뷰, 통찰력 있는 사설 및 독특한 미리보기를 통해 빠르게 변화하는 기술 세계를 계속해서 살펴볼 수 있도록 도와줍니다.