「これからの強化学習」勉強会#1

読んでいる本（出典）：これからの強化学習 | 牧野貴樹, 澁谷長史, 白川真一 |本 | 通販 | Amazon

前回：ノート1 ／次回：勉強会#2
目次：これからの強化学習／ Sutton & Barto 強化学習（邦訳）の目次：強化学習

「これからの強化学習」の1人勉強会を開催しました。今日は初回なのでノート1で読んだ範囲の復習でした。

以下、スライドの補足でもない感想。

スライドの話は全然テキストに沿っていないです。スライド10頁の例がテキストに載っているわけないです。
他のスライドも多々 Sutton 本ノートからのリサイクルです。
「これからの強化学習」とSutton 強化学習とで Bellman（最適）方程式、Sarsa の位置付けが違います。
- 価値関数導入以降の話の流れが両者で以下のような感じです。
  - Sutton： Bellman方程式 → Bellman最適方程式 → 解析解 → DP → モンテカルロ → Sarsa → Q学習
  - "これから"：モンテカルロ → Bellman方程式 → Sarsa → Bellman最適方程式 → DP → Q学習
- つまり、Sutton では「強化学習問題をまずは理想的な状況で解析的に解こう」という流れで Bellman（最適）方程式が登場しますが、"これから" では「強化学習問題を解くだけならモンテカルロ法でごり押せるんだけど、もっと効率的に価値を推定したい」という流れで初めて Bellman 方程式が出てきます。"これから" では解析的に解こうという話自体がないようです。
- その後の実用的な解法の紹介の順序も両者特徴的で、Sutton では「理想的な状況下で適用できるDP → 理想的でなくても適用できるモンテカルロ法／TD学習」というのに対して、"これから" では「モンテカルロ法より効率的な Sarsa → さらに効率的に、方策を陽に使用しないDP／Q学習」という感じです。
- なので、Sutton では Sarsa は DP とモンテカルロの融合として出てきますが、"これから" では、Bellman方程式の数値解法のような感じで出てきます。これは結構違うと思います。
- まとめると、物事には色々なストーリーのつくり方があって面白いですね。
- そして上のスライドは Sutton 寄りです。こちらの本から読んだのでどうしても。
Sutton でよくわからなかった適格度トレースは、「Sutton を参照」だそうです…orz

今度こそ1.4節以降へつづく。