強化学習: ノート14

読んでいる本(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp

前回:ノート13 / 次回: まだ
目次:強化学習

読んだページ: 173~178ページ
以下、自分の理解と雑談。

  • 7章からはこの本の第III部になっている。前章まででみてきた基本的な解法の統一的な理解を与えるらしい。
  • それで7章の章題は「適格度トレース」。173ページには「TD学習とモンテカルロ法を統合したメカニズム」とあるが、「1ステップ行動してみた結果で価値関数を更新する」TD学習と、「1エピソード終了した結果で価値関数を更新する」モンテカルロ法の中間のようなもので、「数ステップ行動してみた結果で価値関数を更新する」ような学習のことをいっているらしい。このような解法のことを適格度トレースというのではなく、この解法の中でつかうある変数のことが適格度トレースのようだが、よくわからないので順を追ってみていく。
  • (適格度トレースが何かはよくわからないが)適格度トレースの見方が2通りあるらしい。これは7章イントロから読み取る限り以下の2つなんだろう。
    • TD法を(1ステップ学習から複数ステップ学習へ)拡張するもの。
    • 観測した状態、実施した行動(合わせて、事象)の一時的な記録。
      新しい行動の結果を観測してTD誤差(状態/行動価値関数をどれだけ修正すべきか)が発生したら、状態/行動価値関数を修正することになるけど、どれくらい昔の事象までをどれくらい反映すべきか、みたいなことをいっているのだろうか。
  • 前者を前方観測的、後者を後方観測的というのはわかるような気はして、つまり、「(ツリー上で)何ステップ先まで織り込んで方針を変更しようか」というのは未来向きで、「方針を変更するときに何ステップ過去まで考慮しようか」というのは過去向きだと思う。前者は手続きの理解に、後者は結局いつのデータを元に学習しているのかの感覚をもつのに役立つと。
  • nステップTD学習なるものをまず考える。これはやはりTD学習の範疇らしい。1エピソード終了後に完全に観測データでもって各状態を評価するモンテカルロ法と違って、現時点での推定値をつかって推定値を更新する(ブートストラップ)ことになるから。
  • nステップTD学習にもオンライン学習(エピソード中に随時学習)と、オフライン学習(エピソード終了後にエピソード中に溜めておいた修正を一気に適用)があるらしい。オフライン学習ってモンテカルロ法とどう違うのか考えると、nステップTDオフライン学習ではそれぞれの修正はその時点での推定値をブートストラップしたものになっているから、修正がモンテカルロ法よりはマイルドな、最初の推定値を尊重したものになるのかな。

例7.1の実装はやれたらやる。