딥 보이스 2올해 초 Deep Voice의 공개 데뷔에 뒤이어 등장한 는 사람의 목소리와 거의 구별할 수 없는 실시간 음성을 생성할 수 있습니다. 더욱 인상적인 것은 작업 모델을 구축하는 데 단 30분의 오디오가 필요하며 수백 명의 다른 스피커의 지역 억양을 모방할 수 있다는 것입니다.
추천 동영상
하나의 목소리를 배우는 데 여러 시간이 걸렸던 Deep Voice의 초기 버전보다 훨씬 뛰어납니다.
핵심은 인간 목소리의 작업 모델을 구축하기 위해 수백 명의 서로 다른 스피커 간의 유사성을 식별하는 Deep Voice 2의 기능입니다. 그런 다음 Apple의 Siri와 같은 음성 비서와 달리 해당 모델에서 고유한 음성을 자율적으로 파생합니다. 인간은 엔지니어가 손으로 조정하는 수천 시간의 음성을 녹음합니다. Deep Voice 2는 지침이나 매뉴얼이 필요하지 않습니다. 간섭.
Baidu의 Silicon Valley AI Lab의 연구 과학자 Andrew Gibiansky는 The Verge에 "올바른 데이터를 제공하면 어떤 종류의 기능이 중요한지 스스로 학습할 수 있습니다."라고 말했습니다.
Baidu만이 고품질 텍스트 음성 변환 기술에 투자하는 유일한 회사는 아닙니다. Google의 DeepMind 사업부의 제품인 Google의 WaveNet은 실제 사람의 음성을 샘플링하고 다양한 음성으로 자체 사운드를 독립적으로 생성하여 음성을 생성합니다. Adobe의 Project VoCo는 사람의 음성을 실시간으로 편집 가능한 텍스트로 변환합니다. 그리고 캐나다 AI 스타트업인 Lyrebird는 단 1분의 샘플 오디오로 모든 음성을 흉내낼 수 있는 알고리즘을 라이선스합니다. 0.5초도 안 되는 시간에 1,000개의 문장을 만들고 분노, 동정, 스트레스.
그러나 Deep Voice 2 또는 WaveNet이 Siri를 대체할 것이라고 기대하지 마십시오. 구글 어시스턴트또는 아마존의 알렉사 언제든지 — AI 기반 번역 앱에는 오늘날의 휴대폰이 합리적으로 공급할 수 있는 것보다 더 많은 리소스가 필요합니다. 그러나 Baidu는 텍스트 음성 변환 앱 및 음성 기반 비서와 같은 애플리케이션에서 잠재력을 보고 있습니다. “여러 사람의 목소리를 빠르게 합성하는 능력은 미래의 개인 비서 및 eBook 리더와 같은 제품에 큰 영향을 미칠 것입니다. 예를 들어 eBook을 들을 때 eBook의 각 캐릭터는 고유한 목소리를 가질 수 있습니다.”
당신의 라이프스타일을 업그레이드하세요Digital Trends는 모든 최신 뉴스, 재미있는 제품 리뷰, 통찰력 있는 사설 및 독특한 미리보기를 통해 독자가 빠르게 변화하는 기술 세계를 파악할 수 있도록 도와줍니다.