Baidu の Deep Voice 2 は人間の声を模倣できます

百度
中国のインターネット検索市場の 80% を支配する北京に本拠を置く巨大企業、Baidu は、人工知能に多額の投資を行っています。 2013 年には、機械学習に焦点を当てた研究開発センターであるディープラーニング研究所を開設しました。 そして 5 月には、最新バージョンのパッケージが公開されました。 声が低い、AI を活用したテキスト読み上げエンジン。

ディープボイス2今年初めの Deep Voice の公開デビューに続くもので、人間の声とほとんど区別できないリアルタイムの音声を生成できます。 さらに素晴らしいのは、実用的なモデルを構築するのにわずか 30 分の音声が必要で、何百もの異なる話者の地域のアクセントを模倣できることです。

おすすめ動画

これは、1 つの音声を学習するのに数時間かかった初期バージョンの Deep Voice よりもはるかに優れています。

鍵となるのは、人間の声の実用的なモデルを構築するために、何百もの異なる話者間の類似点を識別する Deep Voice 2 の機能です。 その後、そのモデルから独自の音声を自律的に導き出します。Apple の Siri のような音声アシスタントとは異なり、 人間が何千時間もの音声を録音し、エンジニアが手動で調整するため、Deep Voice 2 にはガイダンスやマニュアルは必要ありません。 介入。

百度(百度)

「適切なデータを与えれば、どのような機能が重要であるかを自ら学習することができます」と、Baidu のシリコンバレー AI ラボの研究科学者である Andrew Gibiansky 氏は The Verge に語った。

高品質のテキスト読み上げ技術に投資しているのはバイドゥだけではありません。 Google の DeepMind 部門の製品である WaveNet は、実際の人間の音声をサンプリングし、さまざまな音声で独自のサウンドを独自に作成することによって音声を生成します。 Adobe の Project VoCo は、人間の音声をリアルタイムで編集可能なテキストに書き起こします。 そして、カナダの AI スタートアップである Lyrebird は、わずか 1 分間のサンプル音声であらゆる音声を模倣できるアルゴリズムにライセンスを供与しています。 1,000 文を 0.5 秒以内に読み上げ、そのスピーチに怒り、同情、感情などの感情を吹き込むことができます。 ストレス。

ただし、Deep Voice 2 や WaveNet が Siri に取って代わることを期待しないでください。 Googleアシスタント、またはアマゾンの アレクサ AI を活用した翻訳アプリは、今日の携帯電話が合理的に供給できる以上のリソースを必要とします。 しかし、Baidu はテキスト読み上げアプリや音声ベースのアシスタントなどのアプリケーションに可能性を見出しています。 「複数の人間の声を素早く合成できる機能は、将来、パーソナル アシスタントや電子書籍リーダーなどの製品に大きな影響を与えるでしょう。 たとえば、電子書籍を聞くときに、その電子書籍の各キャラクターに固有の声がかかる可能性があります。」

ライフスタイルをアップグレードするDigital Trends は、読者が最新ニュース、楽しい製品レビュー、洞察力に富んだ社説、ユニークなスニーク ピークをすべて提供して、ペースの速いテクノロジーの世界を監視するのに役立ちます。