強化学習：ノート7 - クッキーの日記

読んでいる本（出典）：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp

今日読んだページ： 68～71ページ
以下、自分の解釈・感想・雑談。

（前回）強化学習を定義する「行動／状態／報酬」のうち、「報酬」を掘り下げた。

改めて、「状態」の掘り下げ。
「状態」は「環境」から受信する信号であって、エージェントの知覚ともいうべきものであるが、単純な知覚だけでなくそれを高度に処理したものでありうる（前回ノート）。
「状態」は意思決定に役立つことということになるけど、知りえないことまで受信しては駄目（67ページ）。
- 11行も語ってもらわなくてもわかる…エスパーじゃないんだから…。
状態信号はマルコフ性をもつ、つまり、過去の履歴も含むことが望ましい（68～70ページ）。すなわち、

はステップに受け取る状態と報酬で、は（を受けて）ステップに取る行動。
- 「望ましい。（68ページ11行目）」といわれても腹落ちしづらいけど、「意思決定と価値が現在の状態のみに依存した関数であると仮定されている（69ページ後ろから9行目）」までみればわかる。わかるというか、そっちでマルコフ性を仮定したモデルにしておいてマルコフ性が望ましい、っていわれても…。
  - 素直に読んでいくと「状態信号に無茶ぶりしなくてもエージェントが過去の履歴を覚えていればいいのでは」と思う。定式化のうえでは不便だろうけど。
- 68～69ページを要約すると、このマルコフ性は厳密でなくてもいい。つまり、いまの状態で行動をとったら報酬はどうなるか、の算出において、履歴が実質無視できればいい。
  - 例えば将棋のようなボードゲームで、いまの盤面が与えられた下でどんな行動をとったらどんな報酬になるか、の確率分布は過去の棋譜と独立と考えておそらく差し支えない。その盤面での最善手は、過去にどんな経緯をたどってその盤面になったかに依らないだろうから。
例として、ポーカーなど（70～71ページ）。ポーカーでも完全なマルコフ性をもつ状態信号を構成することはできないが、それでも有用な学習はできると。
- ポーカーの最後の段落で2箇所で意「志」決定となっているのは誤植と思われる。限りなくどうでもいいけど。

そういえば今日「今度はポーカー」って記事が。
「今度はポーカー」人間を下した囲碁AIの開発者｜WIRED.jp
囲碁はわからないし将棋は複雑そうだけど、ポーカーならおもちゃを実装できそうな気がする。気がするだけ。
でも、学習やテストのために、ハッタリをかますプレーヤーや、賭けに勝っているとき／負けているときに態度を変えるプレーヤーをつくってやらないといけないのか。