「これからの強化学習」勉強会#3（準備中）→ ノート3

読んでいる本（出典）：これからの強化学習 | 牧野貴樹, 澁谷長史, 白川真一 |本 | 通販 | Amazon

前回：勉強会#2 ／次回：まだ
目次：これからの強化学習／ Sutton & Barto 強化学習（邦訳）の目次：強化学習

「これからの強化学習」のエア勉強会3回目の準備中。
（スライドはできて）ないです。第2章の2.1節はページ数が多いし、後半は学習アルゴリズムのオムニバスなので、自分なりの講義にする余地がなくてスライドをつくれなさそう。

以下、2.1節（72～111ページ）の読書メモ。

2.1節： 「パラメタライズされたモデルでおいた価値関数はちゃんと収束するのか」が中心的話題。
まず、パラメタライズされたモデルといっても色んなモデルが仮定できるけど、状態と行動が離散的で、実質的に固定した動的プログラミング（方策反復）と変わらないモデルを考える（各状態のがそのままパラメータになっている）。これは当然収束する（だって方策反復DPだから）。
テキストでは、収束するかちゃんと確かめなければならない理由を、教師あり学習と違って固定された教師信号との誤差の最小化になっていない、と。強化学習には正解がないので最初からパラメータの到達すべき場所はわからない。前ステップの推定モデルで測った価値より今ステップの推定モデルで測った価値が現実をよく表すように動かすしかない（その測った価値すらモデル依存）。と考えると、本当にちゃんとどこかにたどり着くのかは確かに不安だと思う。
そして、もっと違うモデルにした場合でも同じパラメータ更新式を使用することに決め打つと（なんで同じパラメータ更新式をつかい回しすことに決め打ったのかちょっとよくわからない）、「方策オンかつ線型モデル」でない限り収束が保証されない。線型かつ方策オフのとき収束が保証されない理由はもうちょっとかいてあるけど、非線形のときはよくわかりません。
TD(λ) 法の場合は λ=1（要はモンテカルロ法）の場合はモデルにかかわらず収束する。
Sarsa や Q学習は、固定のときと同じ感じで、方策オンかつ線型の限られた場合でのみ収束する。
最初に決め打ったパラメータ更新式ではなくて、実際に何らかの目的関数を最適化する学習アルゴリズムも色々ある。色々あるけど、ひっくるめてセミパラメトリック推定として理解できると。
- 教師あり学習で2乗誤差の勾配方向に適切な距離だけパラメータ更新していけばモデルはちゃんと改善する（74ページ）って進研ゼミじゃなくて青い本のオンライン機械学習でやった。でも強化学習では近づくべき正解もわからなければ、得られるデータも自分の行動に依存するので同じ議論ができないと。
- マルコフ連鎖が規約ならば唯一の定常分布をもつ（75ページ）って伊庭先生のMCMCの本でやった。
  - マルコフ連鎖モンテカルロ法とその周辺読書会(5)：参加メモ - クッキーの日記
- 「状態価値関数（中略）に収束する。これは、ベルマンオペレータが一様ノルムに対して縮小写像となることから示すことができる（76ページ）」：このくだりは、Sutton でいうと「系列 $\{V_k\}$ が極限 $k \to \infty$ で $V^\pi$ に収束することが一般的に示される（96ページ）」に相当する。
- 78ページ (2.1.24) 式で言いたいのは、「最良な行動をとったときの報酬の最大値の期待値（最左辺 & 中辺）」と「最良な行動をとったときの期待値の最大値（最右辺）」は等しくないと。
  - 転職に悩めるエージェント（勉強会#1のスライド10ページ）が「不満」な状態にあるとき、「転職」することが最良な行動だとして、前者は $A-c$ だけど、後者は $\beta (A-c) + (1-\beta)(B-c)$ だから等しくない（転職に悩めるエージェント問題は状態遷移のみが確率的で、報酬は与えられた状態-行動-状態組について決定的としていたが、一般にはさらに報酬も確率的）。
- 78ページ (2.1.27) は Sarsa の更新式そのもの、(2.1.28) はQ学習の更新式そのもの。
  - ただし、86ページの書き方だと、毎ステップ $\pi$ を改善しないなら Sarsa ではない？この本での Sarsa の初出箇所（33ページ～）では、 $\pi$ を更新しようとしなかろうとこの更新式で $\pi$ の下での価値関数を改善するのが Sarsa のようには読めた。
- 「一般に、ある行動方策に従って得られる状態行動系列は、状態遷移確率のもつマルコフ性を有するため、集合 $\mathcal{S}$ から一様ランダムに選択して得られる状態とは大きく異なる（79ページ）」：だからこそ、Sutton の 135ページ～の方策オフ型モンテカルロのような、目的の行動方策の下での確率測度への変換を行う手法があると思うんだけど、こちらの本ではそのような手法の紹介はこれより後。
- 81ページ (2.1.29) の線形モデルのイメージ：これって、をそのままに書き換えただけ。「この更新則が、式 (2.1.29) の関数近似器を用いるとき、テーブル表現した価値関数のTD学習に一致することを確かめてみよう（82ページ）」というのも、書き換えただけなので当然。
  - $\theta=($ 盤面1の価値. 盤面2の価値, 盤面3の価値, $\cdots)$
    $\phi ($ 盤面1 $)=(1, 0, 0, \cdots)$
    $\phi ($ 盤面2 $)=(0, 1, 0, \cdots)$
- TD(λ) 法の前方観測と後方観測って何だったっけ。
  - 強化学習：ノート14 - クッキーの日記