読んでいる本(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp
今日読んだページ: 68~71ページ
以下、自分の解釈・感想・雑談。
- (前回)強化学習を定義する「行動/状態/報酬」のうち、「報酬」を掘り下げた。
- 改めて、「状態」の掘り下げ。
- 「状態」は「環境」から受信する信号であって、エージェントの知覚ともいうべきものであるが、単純な知覚だけでなくそれを高度に処理したものでありうる(前回ノート)。
- 「状態」は意思決定に役立つことということになるけど、知りえないことまで受信しては駄目(67ページ)。
- 11行も語ってもらわなくてもわかる…エスパーじゃないんだから…。
- 状態信号はマルコフ性をもつ、つまり、過去の履歴も含むことが望ましい(68~70ページ)。すなわち、
はステップ
に受け取る状態と報酬で、
は(
を受けて)ステップ
に取る行動。
- 例として、ポーカーなど(70~71ページ)。ポーカーでも完全なマルコフ性をもつ状態信号を構成することはできないが、それでも有用な学習はできると。
- ポーカーの最後の段落で2箇所で意「志」決定となっているのは誤植と思われる。限りなくどうでもいいけど。
そういえば今日「今度はポーカー」って記事が。
「今度はポーカー」人間を下した囲碁AIの開発者|WIRED.jp
囲碁はわからないし将棋は複雑そうだけど、ポーカーならおもちゃを実装できそうな気がする。気がするだけ。
でも、学習やテストのために、ハッタリをかますプレーヤーや、賭けに勝っているとき/負けているときに態度を変えるプレーヤーをつくってやらないといけないのか。