強化学習：ノート13 - クッキーの日記

前回：ノート12 ／次回：まだ
目次：強化学習

読んだページ： 156～172ページ
以下、雑談。

「グラフの傾きが上向きであることから、時間と共にゴールへ到達する時間が短くなって行くことがわかる．（157ページ）」
- 図 6.11 自体がわかりにくかったけど、「最初の1エピソードは脱出に2000ステップくらいかかったけど、その後の2000ステップでは20エピソード以上（※ 目分量）こなしているよ」という意味。つまり、このグラフが単調増加なのは当たり前で、傾きが急になっていくことが学習しているを示している。「傾きが上向き」だとそれがわかりにくいかも。
この「風が吹く格子世界」はあらゆる方策に対して終端状態への到達が保証されていないので（無限ループもありうる）モンテカルロ法はそのまま適用できないけど、Sarsa ならループに陥っても方策のまずさに気付いて脱出してくれる（157ページ）。
- もし4マスをぐるぐるしていたら、その4対の Q(s, a) はどんどん低くなるので、いずれその状態行動対はグリーディには選ばれなくなるようなことと理解。

「Sarsa では行動選択が考慮に入っているため，（160ページ）」
- 過去のエピソード内で崖から落ちたことがあれば、「崖ぎわにいる状態 → 崖に落ちる向きに移動」の状態行動対の価値はちゃんと低くなっているはず。それは Sarsa だろうと Q 学習だろうとそう。
- Sarsa は実際に出た結果で行動価値を更新するから、崖から落ちる行動を選択してしまったら上の状態行動対に引っ張られて「崖ぎわの隣にいる → 崖ぎわへ進む」の価値まで低くなってしまう。Q学習では、argmax で行動価値を更新するから、「崖ぎわの隣にいる → 崖ぎわへ進む」ことの価値を更新するときに、崖から落ちることは考慮しない（そんな行動は argmax でないから）。だから「崖ぎわの隣にいる → 崖ぎわへ進む」状態行動対の価値は低くならない。とゆるく理解。ただ、上記下線部はそれを要約しすぎのような。

アクター・クリティックは方策を陽に扱う方策オン型TD学習。
- 「よく使われる因子として，例えば行動 a_t を選択した確率に逆比例する値が使われ（163ページ）」：これは ε-greedy で ε 漸減するような効果があるということなんだろうか。もう 99% 選択されるくらいにまで優先度が引き上げられてきた行動は安定させておく＝優先度をあまり変更しないというような。というよりは他とのバランスを取るために優先度上げすぎを防ぐのかな。

練習問題 6.9
SarsaとQ学習の違い - クッキーの日記

練習問題 6.10
Q の修正 → 改めて行動選択、という流れは Q 学習と変わらないので、方策オフ型と考えられる。
これは Sarsa よりよい性能になると考えられる。オンラインでの性能は Q 学習よりもよさそうにもみえる。

ある状態Sから行動Aを選ぶとすごくよいが、行動Bを選ぶとすごく悪い、という場合を考える（160ページの崖ぎわを歩く例：崖ぎわを歩く方がゴールまで近道だが、誤った方向を選択すれば崖から落ちてしまう）。そのことが最初からわかっていればグリーディ方策では行動Bは選択されないが、初期値の設定や ε-greedy によって探索中に行動Bが選択されることはある。
- このとき、Sarsa は状態Sへ遷移する状態行動対の価値までも低めてしまう（崖ぎわに行くこと自体が悪いのではなく、崖ぎわで右に曲がって崖から落ちることが悪いのに）。
- 練習問題 6.10 が提案する期待値アルゴリズムでも、行動Bを選択したことが状態Sへの遷移の価値に影響を及ぼすが、確率の重みが付くので、行動A選択時の価値の高さもちゃんと織り込まれ、Sarsa ほど価値は低められないと考えられる。

練習問題 6.12
定式化は省略するけど、収束性が改善されるのは、事後状態による定式化をすれば、以下のような状態行動対が束ねられて、これは事前状態で束ねるより見通しがよさそう。