入力よりも 3 倍速い音声認識テキスト

スタンフォードの実験で、音声認識は親指よりも速くテキストを書くことが判明

コンピューターによるディクテーションは 10 年前に比べてはるかに良くなりましたが、正確にはどれくらい良くなったのでしょうか? これは、スタンフォード大学、ワシントン大学、中国の巨大テクノロジー企業百度のコンピューター科学者にとっての挑戦でした ある研究者は最近、速度と速度の両面で人間と最先端の音声認識ソフトウェアを対戦させる実験に挑戦しました。 正確さ。

スタンフォードコンピュータサイエンス教授 ジェームズ・ランデー 研究は彼とスタンフォード大学非常勤教授との「コーヒーショップでの会話」として始まったと述べた アンドリュー・ン、現在はBaiduの主任研究員です。 「アンドリュー氏は、百度の音声認識ツールは非常に優れているが、それを定量化するための適切な実験が分からないと言いました」とランデー氏はデジタルトレンドに語った。

おすすめ動画

Baidu の Deep Speech 2 クラウドベースの音声認識ソフトウェアは、深層学習ニューラル ネットワークに基づいています。 現実の膨大なデータセットを分析することで自らをトレーニングできる優れた機械学習ツール スピーチ。

関連している

  • A.I. 脳をスキャンするだけで、あなたが優れた外科医であるかどうかがわかります
  • A.I. 研究者らがチンパンジー用の顔認識システムを開発

「以前は、コンピューターが音声のさまざまなアクセントやパターンを理解できるように、これらのモデルを構築するためのデータと計算能力がありませんでした」とランデー氏は続けました。

最終的に、ランデー氏とン氏の何気ない会話は、中国語か英語を話す 32 人の参加者が参加する本格的な実験に変わりました。 参加者全員がテキスト メッセージングに慣れており、2 人とも iPhone に付属の標準キーボードを使用していました。

英語話者にとってこれは通常の iOS QWERTY キーボードを意味し、中国語話者は Apple のピンイン キーボードを使用しました。 どちらの場合も、音声認識はユーザーが入力できる速度よりも約 3 倍高速でしたが、エラーは発生しました。 英語の音声認識率は 20.4 パーセント低く、中国語の音声認識率は 63.4 パーセント低くなりました。 同等。

「私の期待は、音声の方がテキストよりも速いということでした」とランデー氏は語った。 「人間はタイプするよりも早く話すことができるので、私たちはこれを知っています。 以前の問題は、音声認識で多くのエラーが発生し、それによって速度が低下することでした。 スピーチのほうが早いと思っていました。 予想外だったのは、結果的に 3 倍速くなるということです。 おそらく 50% 早くなるだろうと思いました。 むしろ、それをはるかに超えたものでした。」

もちろん、このテストは 100% 包括的なものではありません。 現在、世界最速のモバイル キーボード (少なくとも英語では) は、サードパーティの Fleksy キーボードです。 2014 年の最速テキストメッセージのギネス世界記録では、ユーザーは わずか 18.44 秒で 126 文字の文章を完成. しかし、ランデー氏は、この研究では典型的なタイピストをよく示すため、通常のiPhoneキーボードを選択したと指摘した。 「ほとんどの人は、代替キーボードを学ぶのに時間を費やしません」と彼は言いました。

この研究が何を意味するかについて、Landay 氏は、これが音声認識の重要なベンチマークであると示唆しています。 「まだ改善の余地はあるが、ある種の転換点は越えたと考えている」と同氏は語った。 「名前の認識、騒がしい環境でのパフォーマンスの向上など、さらなる改善がもたらされるでしょう。」

これにより、開発者が心配することなく音声認識をシステムに組み込むことについてより真剣に検討できる可能性が広がる、と同氏は述べた。 「言論に頼ることがますます意味をなすようになるだろう」と彼は言う。 「たとえば、音声と他の要素を組み合わせて人々のナビゲーションを支援するマルチモーダル インターフェイスです。 ただし、最大の課題は、 意味 言葉と文章のこと。 その部分はまだ道半ばだ。」

編集者のおすすめ

  • 言語障害がある場合、Alexa を使用するのは困難です。 Voiceittならそれを修正できるかもしれない
  • マスクの下でも個人を識別できる顔認識技術に取り組む中国企業
  • GoogleのGboardは音声認識能力を大幅に向上させようとしている

ライフスタイルをアップグレードするDigital Trends は、読者が最新ニュース、楽しい製品レビュー、洞察力に富んだ社説、ユニークなスニーク ピークをすべて提供して、ペースの速いテクノロジーの世界を監視するのに役立ちます。