画像を通じて学習する新しい音声認識方法

Android メッセージの改善 電話でお互いにテキストメッセージを送信する
オルガ・レベデワ/123RF.com
音声認識システムはまだ完璧ではないかもしれませんが、Amazon Echo のようなものから分かるように、音声認識システムは常に改良され、より普及し続けています。

新しい研究 マサチューセッツ工科大学のコンピューターサイエンスと人工知能の研究者による Laboratory (CSAIL) は、これらのシステムをトレーニングするための新しい手法を提案しています。これは、システムを見て学習させることです。 画像。

おすすめ動画

「これは、機械が音声言語を学習するために、あまり教師なしのトレーニングを必要としないようにする試みです。」 ジム・グラスCSAILの上級研究員はDigital Trendsに語った。 「音声認識システムをトレーニングする従来の方法は、人々の会話の録音を使用し、発話ごとに、話された言葉を正確に書き写すことです。 理想的には、システムが適切に動作するためには、数百時間または数千時間の音声が必要です。 Baidu や Google など、これを行っている大手企業の一部は、トレーニングに数万時間を費やしています。 注釈付きデータが多ければ多いほど、これらのシステムのパフォーマンスは向上します。」

それで、それの何が問題なのでしょうか? 結局のところ、前述したように、音声認識技術は継続的に改良されています。 コンピューター科学者が行っていることはすべて、明らかに機能しています。

それは真実かもしれませんが、この新しいアプローチはいくつかの理由から興味深いものです。 まず、組み合わせた画像と音声を見て理解するよう機械自身を訓練する能力を解放します。 (最終的には、YouTube を見てトレーニングすることを想像できるでしょう) これは、私たちが人間として学習する方法にはるかに近いものです。 存在。

第 2 に、そしておそらくより重要なのは、この種のテクノロジーから大きな恩恵を受ける可能性のある世界の地域に音声認識をもたらすのに役立つ可能性があるという事実です。

「注釈付きデータの作成には費用がかかります」と Glass 氏は続けました。 「音声認識は何十年にもわたって行われてきましたが、その大部分は、この種のリソースに投資する余裕のある国の言語を対象にしてきました。 言語に関しては、企業が利益を上げるのに役立つと考えている言語になる傾向があります。 英語が群を抜いて最も注目を集めており、次に西ヨーロッパ言語、そして日本語や北京語などの他の言語が続きます。 問題は、世界中で約 7,000 の言語が話されており、そのうち約 300 の言語が 100 万人以上によって話されていることです。 これらの多くは、たとえあったとしてもあまり注目されていません。」

世界の識字レベルが低い地域では、人々に情報へのアクセスを提供するという点で、音声認識がいかに大きな変革をもたらす可能性があるかは簡単にわかります。 このテクノロジーがその目標に向けて役立つことを願っています。

しかし、この研究は非常に興味深いものですが、グラス氏はまだ非常に初期段階にあると述べています。 現在、CSAIL 研究者は、1,000 枚の画像のデータベースをシステムに供給しています。それぞれの画像には、何らかの形で画像に関連する自由形式の口頭説明が含まれています。 次に、システムに録音を与え、聞こえている内容に最も一致する 10 枚の画像を取得するようシステムをテストします。

時間の経過とともに、音声認識へのこのようなアプローチの有効性が向上し、音声トレーニング データの面倒なラベル付けがもはや必要ないと考えられるようになることが期待されています。

すべてが計画通りに進めば、米国で英語を話す人であろうと、南アフリカでコーサ語を話す人であろうと、誰にとってもその方が良いはずです。

編集者のおすすめ

  • 賢い新しいA.I. このシステムは、あなたが家を離れている間に犬を訓練することを約束します
  • MIT による新しい「怪しい」研究では、影を使用してカメラでは確認できないものを確認します
  • A.I. 研究者らがチンパンジー用の顔認識システムを開発
  • MIT、Adobe の新しい A.I. ワンクリックで背景削除やソーシャルフィルターを実現できる可能性がある

ライフスタイルをアップグレードするDigital Trends は、読者が最新ニュース、楽しい製品レビュー、洞察力に富んだ社説、ユニークなスニーク ピークをすべて提供して、ペースの速いテクノロジーの世界を監視するのに役立ちます。