クッキーの日記

DLM

状態空間モデル

位相的データ解析

R

数理論理学

本読みまとめ

勉強会参加ログ

このブログについて

github.com/CookieBox26/ML

Zenn

数式が崩れていたらその記事単体を表示すると解消するかもしれないです。

強化学習：ノート1

本読み強化学習

日曜日なのでこの本を読みます。

強化学習

強化学習
Richard S.Sutton Andrew G.Barto 三上貞芳皆川雅章

森北出版 2000-12-01
売り上げランキング : 200234

Amazonで詳しく見る by G-Tools

次回：ノート2
目次：強化学習

今日読んだページ： i～ixページ、2～25ページ
以下、自分の解釈・感想。初回なのでどうでもいい雑感だらけ。

強化学習のテーマ：パターン分類や教師あり学習などではなく、環境との相互作用を通じてどのように学ぶか（i～iiページ）。環境から自分の求める報酬を最大に引き出そうとする「『快楽主義的』学習システム（iページ）」という考え方。
- 本筋からそれるけど、高校や大学の生物の授業を真面目に聞いてこなかったので、「神経細胞の学習に学ぼう」といわれて逆にそっちがわからない。「神経学習」で検索すると、軟体動物に刺激を与え続けると慣れていき（重要でなさそうな刺激に鈍感になる）／しかし同時に電気ショックを与えると応答が大きくなる（重要そうな刺激に敏感になる）、という例（下記PDF）が出てきてひとまずはそういうことかと腑に落ちる。しかし、刺激に慣れていく、というのは卑近には慣れてきた頃合いの事故を想起させてちょっとネガティブなイメージ。
  - http://neuro.med.tohoku.ac.jp/japanese/education/class/sci_lec2005/3.3.pdf（※ PDF）

エージェントって何：学習して決定する主体のことだと思っておく。
相互作用があると、あらゆる状況でどうするべきかを知りにいくのは現実的に難しい（3ページ下の方）。だから、教師から学ぶ能力じゃ足りない。
- これはボードゲームでゲーム木を探索しきれないようなイメージ。
「exploration-exploitation dilemma（4ページ）」：新しい喫茶店に入ることも、転職することも、そう。
不確実性があっても判断しなければならない（4ページ）：人生もそう。

ガゼル：見た目はシカっぽくて、ウシ科で、走るのが速い。

報酬関数と価値関数（8ページ7行目～）のイメージを人狼に例えると（正確な喩えではない）、報酬関数が測るのは「今日人外を吊れる確率」、価値関数が測るのは「どういうゲームメイクを心がければ最終日までに人外を吊り切れるかという確率」。当然、現時点の人外濃厚を吊るより、最終的に村陣営が勝てる吊りをする、という方針であるべき。しかし一般に、後者は前者より判断が難しい。この "価値" の評価こそが強化学習の中心話題である。
- GA などは "価値" をすっとばして直接報酬が最大な方策を探しに行く（9ページ）。
  - 強化学習がじゅうぶん有効なら、過学習の問題を起こしにくいのだろうか。
試行錯誤とプランニング（9ページ後ろから5行目）の違いは、ここでは、前者はとりあえずやってみる、後者はどうなるか考えてからやってみる、という違いか。

ミニマックス法って何だったっけ（ミニマックス法 - Wikipedia）。
10ページ最後の行～11ページ最初の行、ミニマックス法は勝つための戦略になっていないと言いたい？

1章の練習問題を軽く考えておく（誤りを多分に含むと思われる）。
- 1.1： $\alpha$ が減衰していくなら、引き分けに収束していきそう。減衰しなくても、勝率0.5で均衡しそう。
- 1.2： 3目並べは90°ずつ回転に対称なので、ゲーム木は節約できる。ただ、相手がそれを考慮しないプレイヤーであれば、価値は異なるので節約すべきではないのではないか。
- 1.3：貪欲なプレイヤーは、最も序盤では貪欲でないプレイヤーより良い手を指すだろう。しかし、探索をしないために実はもっと報酬を引き出せる手を学ぶことができず、どんどん劣勢になっていくだろう。
- 1.4：探査的な手から学習すれば相手の弱点を学習できるのでは。問題の意図がわからなかった。
- 1.5：提起された3目並べ解法のスコープがわからないので何とも。相手がどのようなプレイヤーかに応じて $\alpha$ も都度調整できるといいのでは、とか。相手が時々ミスをするプレイヤーであったら、誤り手を識別できた方がいいよね、とか。どうやるのか知らないけど。

歴史パート長い。
- 「学習」は「試行錯誤」「最適制御／動的計画法」に比して後発の概念（17ページ最初の方）。
- 「試行錯誤」は効果の法則（ Law of effect - Wikipedia, the free encyclopedia）に特徴づけられる。
- 「試行錯誤」と「教師あり学習」は異なる。後者は適応行動ではない。
- 「学習」と関連深いのが2次性強化因子（東京学芸大学特別支援科学講座小笠原研究室 » いろいろなタイプの強化子）。経験によって行動に強い影響を及ぼすようになる、という性質が強化学習そのものということ？
- そして様々な研究の合流：Q学習（Q-learning - Wikipedia, the free encyclopedia）。