強化学習：ノート5 - クッキーの日記

読んでいる本（出典）： Amazon.co.jp：強化学習: Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章: 本

前回：ノート4 ／次回：ノート6
目次：強化学習

今日読んだページ： 55～60ページ
以下、自分の解釈・感想。

3章では強化学習問題とは何かを定義するらしい。ちゃんと読まなきゃ（使命感）。
エージェントは「状態」をみて「行動」する。「状態」→「行動」の写像が「方策」である。方策は経験を積むにつれて変えていくべきだし、どう変えるかを決める方法が強化学習である（55～58ページ）。
- 「エージェントと環境間の境界はロボットや動物の体の物理的な境界とは異なることがよくある（57ページ）」：関係ないけど（全くなくはないのかもしれないけど）、メルロ・ポンティの「世界の肉」を連想する。
  - Google検索 - 世界の肉メルロ・ポンティ
- 「高レベルの意思決定（58ページ）」のような表現で、何が高いレベルなのかよくわからなくなるんだけど、ここでは社長の意思決定が部長にとっての状態で、部長の意思決定が課長にとっての状態で…というイメージでよいと思われる。
- ピックアンドプレースって何。

練習問題 3.1
- 強化学習のタスクを3つ考えてみよう、という問題。
  - 難しいので、2章で散々扱った例を改めて書くと：コインが出てくる期待値と分散が未知で時不変の10台のスロットマシンを1000回引いて、なるべく多くの枚数のコインを取り出したい。「行動」はどのスロットマシンを引くかの選択、「状態」はこれまでに各スロットマシンを引いた結果、「報酬」はコインが出てきたら+1。この例だと、エージェントはスロットマシンの内部構造を変えることはできないので、環境と相互作用はできないけど。
  - 人狼で共有者になって指定進行をとるとして、かつ霊能者が真のとき。「行動」は誰を吊り指定するか、「状態」は霊結果や噛みやCO状況、「報酬」は霊結果から人狼が吊れたら+1のような。この報酬設定が最終的に村陣営として勝利する上で適切なのかは知らないけど、強化学習の枠組みにおいて報酬が最適化されていることまでは要請されていないように見えるので、例示としてはいいだろう。霊能者が真でないといけないのは、そこが偽だと毎ターン人狼が吊れたかどうかもわからないので。だいぶ無理がある例ではある。環境との相互作用はある。
  - 機械学習の中で強化学習には分類されないけど、ミニバッチで学習させる手書き数字の分類器もこの枠組みに当てはめれば、「行動」はミニバッチ中の手書き数字が何の数字を表すかの判断（確率的な）、「状態」はその判断の正誤（確率的な）、「報酬」は交差エントロピー。環境との相互作用はない。状態と報酬が限りなく近い（というか同じはず）。

練習問題 3.2
- 強化学習の枠組みで扱えない例を思い付くか、という問題だけど、問題 3.1 でも無理やり当てはめただけで、扱えるとはあまり思っていないんだけど…。
- 教師なし学習の、写真に写っている人を1人消す（背景を補完する）ようなケースだったら、「状態」をみて「行動」する、とは言いにくいようには思う。