これからの強化学習: ノート1

強化学習の新しい本が出たらしいので読みます。

これからの強化学習これからの強化学習
牧野 貴樹 澁谷 長史 白川 真一 浅田 稔 麻生 英樹 荒井 幸代 飯間 等 伊藤 真 大倉 和博 黒江 康明 杉本 徳和 坪井 祐太 銅谷 賢治 前田 新一 松井 藤五郎 南 泰浩 宮崎 和光 目黒 豊美 森村 哲郎 森本 淳 保田 俊行 吉本 潤一郎

森北出版 2016-10-27
売り上げランキング : 807

Amazonで詳しく見る
by G-Tools

次回: 勉強会#1
目次(予定): これからの強化学習
ちなみに、Sutton & Barto 強化学習(邦訳)読書メモの目次はこちら: 強化学習

読んだページ: i~iv、1~41ページ
以下、自分の理解と雑談。まだ「これからの強化学習」の「これから」パートに到達していない…。

  • 強化学習って何だったっけ → こんなの(以前勉強会用に描いた絵)。
    f:id:cookie-box:20161106122234p:plain:w660
    • この本のまえがきには、強化学習とそれ以外の機械学習の決定的な違いとして、観測されるデータ、つまり、上の  s_t, \, r_t が自分の行動によって変化することが挙げられている(iページ)。
    • 強化学習の特徴を「探索と利用のトレードオフ」「集めるのにコストがかかるデータをどのように収集するか」とも(iページ)。
  • 最初の具体的な例示は多腕バンディット問題(6~13ページ)。
    • 10本腕バンディットタスクはSutton本でも最初に登場した(以下の記事)。このときは、目の前に10個のスロットマシンがあって、各アームを単純に「そこまでそのアームを引いて得た報酬の和 ÷ そこまでそのアームを選択した回数」で評価していた。各アームの報酬はアーム固有の平均値をもつ正規分布にしたがうようにしていた。
      cookie-box.hatenablog.com
    • こちらの本では7ページの絵を見るに、報酬は正規分布にしたがう乱数ではなくてコインが1枚出るか出ないかとしてずっと話を進めているらしい。報酬が確率的なら何でもいいけど。
    • 7ページの図では上下どちらのパターンも最初3回ずつは腕Aと腕Bを引いて、優劣を誤っている。ただ、誤り方が違って、上図は「本当は劣っている腕Bを過大評価」、下図は「本当は優れている腕Aを過小評価」となっている。どちらも評価の結果腕Bを選択することになるが、前者ではその後腕Bの評価が修正されるのに対し、後者では腕Aの評価が修正されないので後者の方が事態はまずいと。誤り率を下げるには"探索"を多くしないといけないがその分"利用"が削られるのでどの辺でバランスを取るべきなのかが強化学習問題そのものだと。それにしてもこの例から、現実社会でも一度低評価を受けてしまうと挽回が難しいのがよく理解できますね (^^) 。
    • 強化学習では、どうデータを集めていくかも含めて決めないといけないから難しくなる。教師あり学習においては、どのデータをつかうべきかは決まっているのでこの種の問題は起こらない。
    •  \varepsilon -greedy アルゴリズム9ページ)は確率  \varepsilon で探索するアルゴリズム。Sutton本でもやった通り。 \varepsilon は徐々に減らしていくといいだろうというのも、Sutton本でも31ページに書かれていた通り。具体的にどういう減らし方があるかは後述。
    • 「不確かなときは楽観的に」(9ページ): 有能な人材を採り逃すことを防ぎたかったら、不確かな人材は採用しておけばいい…というわけにはいかないが、スロットマシンだったら不確かさに応じて楽観的に評価してもいい。過小評価側に誤る方がより深刻なのだから。オプティミスティック初期値はSutton本では42ページ。とりあえず初期評価を楽観的にしておくことで、結果的に最初のうちはいろんな腕をよく探索することになり、徐々に探索が減っていくことになると。
    • UCBアルゴリズム10ページ)はオプティミスティック初期値よりもう少しちゃんと「不確かな時は楽観的に」を実装したもので、Sutton本では51ページに区間推定法として簡単に言及されているが、こちらの本には数式も出てくる。要は95%最悪なケースの評価額をとるバリュー・アット・リスクの逆のようなもので、その腕の報酬がしたがうであろう確率分布の95%点でその腕を評価すると。95%じゃなくてもいいけど。観測を続けると分散は小さくなっていくが、信頼区間のパーセントは徐々に広くとっていくと理論的によいらしい。
  • 次に強化学習問題の定式化と基本的な解法(14~41ページくらい)。
    • この1.2節と1.3節合わせて、Sutton本の3、6章に相当するイメージ。32~33ページのベルマン方程式を解いてみる例が動的計画法のようなもので、その後もう Sarsa の話になる。Sutton本の4章と5章のような、動的計画法モンテカルロ法の掘り下げはないようにみえる。スピーディーでいいのかもしれないけど。
    • 以前の Sarsa とQ学習を絵に描いたのは以下の記事。
      cookie-box.hatenablog.com
    • 1.4節以降がSutton本の7章以降及び新しい内容になると思われる。なのでそこからを読むのが肝心なんだけど次回にする。41ページまでももうちょっとちゃんと目を通しておこう。


  • grandfathering effect(8ページ) : データが収集される条件が変化するのに、変化しない前提の手法を適用してしまうことで発生する問題と読み取れる。grandfather は動詞で「新法令の適用を除外する」という意味で、新しく制定する法令が既に獲得されている権利を侵害しないようにそうすることがあるんだろうけど、grandfathering effect というとそのせいで生じる歪みのことを指す経済用語らしい(?)。農作物の生産や温室効果ガスの排出に関する新しい規制が途上国と先進国にもたらす影響というような。何にせよ強化学習かどうかにかかわらず、データは手に入れた経緯を踏まえて利用しないといけない。インターネット上でインターネット利用率を調査したら100%のようなことになるので。