新しいIBM音声技術は超人的なものを目指す

IBM もっている Embedded ViaVoice 4.4を発表、自由形式のコマンド認識、オンザフライ翻訳、字幕サービスを提供し、話されている英語のニュアンスを理解できると主張できます。 このテクノロジーは、ユーザーが車両、携帯端末、その他の非コンピューターに組み込まれたシステムを制御できるように設計されています。 アプリケーションは、事前に定義された音声を記憶して慎重に発音する必要がなく、柔軟かつ自然にデバイスに向かって話すことができます。 コマンド。

「フリーフォーム コマンド認識」の例として、IBM は、車内のラジオ局を 104.3 FM に変更するコマンドを提供しています。 「104.3 に変更して」、「104.3 FM に合わせて」、「ラジオ局を 104.3 に設定して」など、さまざまなコマンドを発話します。 システムを有効にすることで、 より広範囲の直感的なコマンドを理解することで、音声認識テクノロジーをより広範囲でより効果的に使用できるようになります。 アプリケーション。 ViaVoice は、コマンドの統計的および意味論的な分析を使用して、事前定義され記憶されたセット以外のコマンドを解釈するようになりました。 強化された音響モデリングにより、騒がしい状況やトランジェントによって音声が中断される場合でも精度が向上します。 ノイズ。

おすすめ動画

IBM の他の 2 つの音声認識プロジェクト、MASTOR および Tales は、音声研究に 2 つの興味深い新しい方向性を提供します。 マスター IBM の研究プロジェクトである (多言語自動音声変換装置) は、英語の音声を北京語に動的に翻訳できます。 ユーザーがマイクに向かって英語で話すと、MASTOR がその文をその場で北京語に翻訳します。 MASTOR は、音声入力の統計分析を使用し、まず文を構造的なセットに逆コンパイルします。 および概念パターンを作成し、それらを使用してターゲット言語の翻訳文を編集します。 パターン。 このようなシステムでは、ある程度の遅延は避けられません

編集者のおすすめ

  • 2022 年の最高の音声テキスト変換ソフトウェア
  • クマのための顔認識技術は人間の安全を守ることを目的としている
  • IBMは今後、顔認識技術の開発や研究を行わない

ライフスタイルをアップグレードするDigital Trends は、読者が最新ニュース、楽しい製品レビュー、洞察力に富んだ社説、ユニークなスニーク ピークをすべて提供して、ペースの速いテクノロジーの世界を監視するのに役立ちます。