「DQN」についてちゃんと理解してる?? 全脳アーキテクチャ勉強会の最強スライドを要約!!


どーも! まじすけです!!

先日、全脳アーキテクチャ若手の会で勉強会が行われました。そこで発表された「深層強化学習の動向」がすごかった!!!

慶應義塾大学4年生の妹尾卓磨さんが3ヶ月かけてスライドを作成しました。映画「STAR WARS」に出てくる”R2-D2″を例に、深層強化学習(以下DQN)の基礎から応用までまとめ上げられています。内容がとても濃く、参加者の皆さんが絶賛するコンテンツでした!

さて、このスライドのテーマにもなっているDQN。みなさんはしっかり理解していますか?
ここで本勉強会のまとめを、まじすけが理解した範囲でざっくり要約したいと思います!

この記事を見てDQNに興味が出た方は妹尾さんのスライドを見てくださいね👀

DQNってなに?

まずは強化学習について

強化学習とは最適解を自力で求める学習手法です。
以下の5つのステップにより、プログラムが自分で学習していきます。

強化学習に必要な大事な5つの用語

  • 状況(status): エージェントが環境をチェック
  • 行動(action): エージェントの動き
  • 報酬(reward): エージェントが環境からもらえる評価
  • 方策(policy): エージェントの行動パターン
  • 収益(return): 割引率を差し引いた報酬の和

上の用語をスーパーマリオでの学習に例えると、

ステージを把握するために動き回り、コインをたくさん取れるようにジャンプをしたり敵を倒し、より高いスコアを狙うマリオ

という形になります。
実際にプログラムでマリオを操作し、プログラムが適切な行動パターンを学習しています。

次はQ学習について

「Q値」とは行動によって見えてくる長期的な価値の値です。
現在の状態と目標とする状態の差を出し、常に優先順位を更新していく学習法がQ学習です。

そして、各行動のQ値をDeepLearningすることで、プログラムが適切な行動を取るようになる学習法がDQNです。

しかしDQNは、Q学習をただディープにニューラルネットワークしたものではなく、下記の4つの手法を取り入れています。

DQNに必要な大事な4つの手法

  • Experience Replay: 過去の経験を保存して学習
  • Target Network: 過去のDNNを固定して使用
  • Clipping Rewards: スコアのスケールを統一
  • Skipping Frames: 4フレーム毎に行動選択

これをざっくりとまとめると、

同じゲームの進行パターンで何度か学習し、様々なゲームでも使えるように配点の仕組みを変えて、学習するプログラム

という感じになると思います。

何がすごいの?

DQNは画像から価値を直接推定します。

なので、従来の線形モデルでは人間が特徴的な動きを決めて動くAIが主流ですが、DQNではプレイ画面を見ながら学習していきます。
とても人間に近い仕組みで学習していることがわかりますね。

さらにClipping Rewardsによって、同系統のゲームであれば汎用的にプログラムを使用することができるのも大きなポイントです。

応用DQN ~人間の学習を真似た学習~

Episodic Control


“エピソード記憶”という人間の記憶の仕組みを知っていますか? 人間は学習する際にエピソードとして一連の流れを記憶しています。
強化学習において、学習序盤では目的の値を推定値で出しているので学習効率が悪いです。

しかし、Episodic Controlでは外部メモリに上手くいった事例を別枠で保存します

それによって、成功事例を収集しやすくなり、ゲーム学習序盤のスコアを従来のDQNより高く取ることができます。もちろん、たくさん学習したモデルには勝てないことが多いです。しかし、上手くいった事例をエピソードとして記憶/利用するという人間の仕組みを真似ることで、効率よく良い学習結果を出すことができます。

Intrinsic Curiousity Module


普段ゲームをするときに、ラスボスまで進むのがゴールだとわかっていても寄り道をして宝箱とか探しに行ってしまいますよね。そこでそういった好奇心を取り入れた学習法をICM(内部好奇心モデルとでも言うのでしょうか)と言います。いったことがなかったり、見たことのない場所にいくと本来とは別の内部報酬をエージェントに与える仕組みになっています。

例えば、マリオでは別の場所にいくために邪魔なクリボーを倒したりしますよね。そこでICMを使ってみると、得点が増えるという報酬なしでもクリボーを殺すマリオができたそうです。

まとめ

DQNの歴史

  • 2015: 学習の安定化/高速化を追求
  • 2016: 特徴抽出の効率化に着目
  • 2017: 人間の学習から着想を得た手法の導入

今後は実世界におけるタスクを担っていくと見られています。
強化学習で動くアームロボットやヒューリスティクスに動くロボット、または人型ロボットの制御への応用の可能性もありそうですね。

人間の学習を参考にした手法

  • UNREAL: 人間は目標に直接関係ないものも学習している
  • Episodic Control: 人間のエピソード記憶による行動選択
  • Curiosity Exploration: 人間は好奇心によって知識を得ている

もう一つ大きな動きとして、人間の学習モデルを取り入れた事例が増えてきています。
深層強化学習は今後も人間の学習を参考にした手法により新しい技術が広がっていくそうです。

おわりに


勉強会で紹介されたDQNについてサクっと紹介してみました! スライドではもっと深い単純な強化学習の説明や、人間の仕組みを取り入れた他の応用例まで幅広く紹介されています。

様々なAIの分野で活躍されている人が集まる若手の会。
興味がある人は次回のイベントに参加してみてはいかがでしょうか?
全脳アーキテクチャ若手の会

写真は毎回勉強会の後に行われる、参加者と発表者全体の懇親会の時のものです🎉

まじすけ

明治大学FMSでTDAやAIの研究を行なっている学部4年生。大学院の受験勉強の合間に研究内容やインタビュー記事をサッと紹介! 最近はまっているのは糖質ダイエットで、週3回いきなりステーキのワイルドステーキでお腹を満たす。

AINOW
人工知能専門メディアAINOW(エーアイナウ)です。人工知能を知り・学び・役立てることができる国内最大級の人工知能専門メディアです。2016年7月に創設されました。取材のご依頼もどうぞ。https://form.run/@ainow-interview

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する