強化学習：ノート14 - クッキーの日記

読んでいる本（出典）：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp

前回：ノート13 ／次回：まだ
目次：強化学習

読んだページ： 173～178ページ
以下、自分の理解と雑談。

前回までのあらすじ：強化学習問題の基本的な解法には動的計画法、モンテカルロ法、TD学習がある。

7章からはこの本の第III部になっている。前章まででみてきた基本的な解法の統一的な理解を与えるらしい。
それで7章の章題は「適格度トレース」。173ページには「TD学習とモンテカルロ法を統合したメカニズム」とあるが、「1ステップ行動してみた結果で価値関数を更新する」TD学習と、「1エピソード終了した結果で価値関数を更新する」モンテカルロ法の中間のようなもので、「数ステップ行動してみた結果で価値関数を更新する」ような学習のことをいっているらしい。このような解法のことを適格度トレースというのではなく、この解法の中でつかうある変数のことが適格度トレースのようだが、よくわからないので順を追ってみていく。
（適格度トレースが何かはよくわからないが）適格度トレースの見方が2通りあるらしい。これは7章イントロから読み取る限り以下の2つなんだろう。
- TD法を（1ステップ学習から複数ステップ学習へ）拡張するもの。
- 観測した状態、実施した行動（合わせて、事象）の一時的な記録。
  新しい行動の結果を観測してTD誤差（状態／行動価値関数をどれだけ修正すべきか）が発生したら、状態／行動価値関数を修正することになるけど、どれくらい昔の事象までをどれくらい反映すべきか、みたいなことをいっているのだろうか。
前者を前方観測的、後者を後方観測的というのはわかるような気はして、つまり、「（ツリー上で）何ステップ先まで織り込んで方針を変更しようか」というのは未来向きで、「方針を変更するときに何ステップ過去まで考慮しようか」というのは過去向きだと思う。前者は手続きの理解に、後者は結局いつのデータを元に学習しているのかの感覚をもつのに役立つと。

nステップTD学習なるものをまず考える。これはやはりTD学習の範疇らしい。1エピソード終了後に完全に観測データでもって各状態を評価するモンテカルロ法と違って、現時点での推定値をつかって推定値を更新する（ブートストラップ）ことになるから。
nステップTD学習にもオンライン学習（エピソード中に随時学習）と、オフライン学習（エピソード終了後にエピソード中に溜めておいた修正を一気に適用）があるらしい。オフライン学習ってモンテカルロ法とどう違うのか考えると、nステップTDオフライン学習ではそれぞれの修正はその時点での推定値をブートストラップしたものになっているから、修正がモンテカルロ法よりはマイルドな、最初の推定値を尊重したものになるのかな。

例7.1の実装はやれたらやる。