読者です 読者をやめる 読者になる 読者になる

強化学習: ノート1

本読み 強化学習

日曜日なのでこの本を読みます。

強化学習強化学習
Richard S.Sutton Andrew G.Barto 三上 貞芳 皆川 雅章

森北出版 2000-12-01
売り上げランキング : 200234

Amazonで詳しく見る
by G-Tools

次回:ノート2
目次:強化学習

今日読んだページ: i~ixページ、2~25ページ
以下、自分の解釈・感想。初回なのでどうでもいい雑感だらけ。

  • 強化学習のテーマ: パターン分類や教師あり学習などではなく、環境との相互作用を通じてどのように学ぶかi~iiページ)。環境から自分の求める報酬を最大に引き出そうとする「『快楽主義的』学習システム(iページ)」という考え方。
    • 本筋からそれるけど、高校や大学の生物の授業を真面目に聞いてこなかったので、「神経細胞の学習に学ぼう」といわれて逆にそっちがわからない。「神経 学習」で検索すると、軟体動物に刺激を与え続けると慣れていき(重要でなさそうな刺激に鈍感になる)/しかし同時に電気ショックを与えると応答が大きくなる(重要そうな刺激に敏感になる)、という例(下記PDF)が出てきてひとまずはそういうことかと腑に落ちる。しかし、刺激に慣れていく、というのは卑近には慣れてきた頃合いの事故を想起させてちょっとネガティブなイメージ。
  • エージェントって何: 学習して決定する主体のことだと思っておく。
  • 相互作用があると、あらゆる状況でどうするべきかを知りにいくのは現実的に難しい(3ページ下の方)。だから、教師から学ぶ能力じゃ足りない。
    • これはボードゲームでゲーム木を探索しきれないようなイメージ。
  • 「exploration-exploitation dilemma(4ページ)」 : 新しい喫茶店に入ることも、転職することも、そう。
  • 不確実性があっても判断しなければならない(4ページ): 人生もそう。
  • ガゼル: 見た目はシカっぽくて、ウシ科で、走るのが速い。
  • 報酬関数と価値関数(8ページ7行目~)のイメージを人狼に例えると(正確な喩えではない)、報酬関数が測るのは「今日人外を吊れる確率」、価値関数が測るのは「どういうゲームメイクを心がければ最終日までに人外を吊り切れるかという確率」。当然、現時点の人外濃厚を吊るより、最終的に村陣営が勝てる吊りをする、という方針であるべき。しかし一般に、後者は前者より判断が難しい。この "価値" の評価こそが強化学習の中心話題である。
    • GA などは "価値" をすっとばして直接報酬が最大な方策を探しに行く(9ページ)。
      • 強化学習がじゅうぶん有効なら、過学習の問題を起こしにくいのだろうか。
  • 試行錯誤とプランニング(9ページ後ろから5行目)の違いは、ここでは、前者はとりあえずやってみる、後者はどうなるか考えてからやってみる、という違いか。
  • 1章の練習問題を軽く考えておく(誤りを多分に含むと思われる)。
    • 1.1:  \alpha が減衰していくなら、引き分けに収束していきそう。減衰しなくても、勝率0.5で均衡しそう。
    • 1.2: 3目並べは90°ずつ回転に対称なので、ゲーム木は節約できる。ただ、相手がそれを考慮しないプレイヤーであれば、価値は異なるので節約すべきではないのではないか。
    • 1.3: 貪欲なプレイヤーは、最も序盤では貪欲でないプレイヤーより良い手を指すだろう。しかし、探索をしないために実はもっと報酬を引き出せる手を学ぶことができず、どんどん劣勢になっていくだろう。
    • 1.4: 探査的な手から学習すれば相手の弱点を学習できるのでは。問題の意図がわからなかった。
    • 1.5: 提起された3目並べ解法のスコープがわからないので何とも。相手がどのようなプレイヤーかに応じて  \alpha も都度調整できるといいのでは、とか。相手が時々ミスをするプレイヤーであったら、誤り手を識別できた方がいいよね、とか。どうやるのか知らないけど。