DeepMind - 教師なし補助タスクによる強化学習
AI の学習を高速化するために追加された最初のタスクは、画面上のピクセルを制御する方法を理解する能力です。 DeepMind によると、この方法は、赤ちゃんが手を動かし、その動きを観察することで自分の手を制御することを学ぶ方法に似ています。 AI の場合、ボットはピクセルを制御することで視覚入力を理解するため、スコアの向上につながります。
おすすめ動画
「観察した赤の累積量を最大化することを学習する赤ちゃんを考えてみましょう。 最適な値を正しく予測するには、赤ちゃんは操作 (赤い物体を目に近づける) などのさまざまな手段で「赤み」を増やす方法を理解する必要があります。 移動(赤い物体の前を移動する)。 そしてコミュニケーション(親が赤い物体を持ってくるまで泣き続ける)」とディープマインドの論文は述べている。 「これらの行動は、赤ちゃんがその後遭遇する可能性のある他の多くの目標のために繰り返される可能性があります。」
関連している
- このボットは、Pictionary であなたを破壊します。 これは、A.I. にとって大きなマイルストーンでもあります。
- GoogleのDeepMindは、StarCraft IIボットのようなWaymoの自動運転車をトレーニングしている
- Google は AI を使用する方法を発見しました。 風力エネルギーの有用性を高めるために
2 番目に追加されたタスクは、以前のアクションの簡単な履歴に基づいて、当面の報酬が何になるかを予測するように AI をトレーニングするために使用されます。 これを可能にするために、チームは、過去に報酬を与えた履歴と報酬を与えなかった履歴を同量提供しました。 その結果、AI は報酬につながる可能性が高い視覚的特徴を以前よりも早く発見できるようになります。
「より効率的に学習するために、当社のエージェントはエクスペリエンス再生メカニズムを使用して、批評家に追加の最新情報を提供します。 動物がプラスまたはマイナスの報酬を与える出来事をより頻繁に夢見るのと同じように、私たちのエージェントは報酬を与えるイベントを含むシーケンスを優先的に再生します」と論文は付け加えています。
これら 2 つの補助タスクを以前の A3C エージェントに追加すると、結果として得られる新しいエージェント/ボットは、チームが Unreal (教師なし REinforcement および補助学習) と呼ぶものに基づいています。 チームは、このボットを 57 の Atari ゲームと別のゲームの前に仮想的に設置しました。 ウルフェンシュタイン13 レベルからなる迷宮ゲーム。 すべてのシナリオで、ボットには生の RGB 出力画像が与えられ、100% の精度でピクセルに直接アクセスできるようになりました。 Unreal ボットは、エイリアンを撃墜するなどのタスクに対して全面的に報酬を獲得しました。 スペースインベーダーズ 3D 迷路でリンゴをつかみます。
Unreal ボットはピクセルを制御し、アクションが報酬を生み出すかどうかを予測できるため、DeepMind の以前の最高のエージェント (A3C) よりも 10 倍速く学習できます。 さらに、前チャンピオンよりも優れたパフォーマンスを生み出します。
「検討したラビリンス レベル全体で平均すると、熟練した人間のパフォーマンスの 87% を達成でき、多くのレベルでは超人的なパフォーマンスを発揮できるようになりました」と同社は述べています。 「Atari では、エージェントは現在人間の平均 9 倍のパフォーマンスを達成しています。」
ディープマインドには期待がある Unreal ボットに投入された作業により、チームは近い将来、すべてのエージェント/ボットをスケールアップしてさらに複雑な環境を処理できるようになります。 それまでは、AI が人間の介入なしに独自に迷路を移動し、リンゴをつかむ様子を示す、上に埋め込まれたビデオをチェックしてください。
編集者のおすすめ
- チェス。 危険です。 行く。 AI のベンチマークとしてゲームを使用するのはなぜですか?
- AI の台頭の再考: 2010 年以来、人工知能はどこまで進歩しましたか?
- Google の DeepMind AI 「Quake III Capture the Flag」で人間の敵を倒す
ライフスタイルをアップグレードするDigital Trends は、読者が最新ニュース、楽しい製品レビュー、洞察力に富んだ社説、ユニークなスニーク ピークをすべて提供して、ペースの速いテクノロジーの世界を監視するのに役立ちます。