「これからの強化学習」勉強会#2

読んでいる本（出典）：これからの強化学習 | 牧野貴樹, 澁谷長史, 白川真一 |本 | 通販 | Amazon

前回：勉強会#1 ／次回：まだ
目次：これからの強化学習／ Sutton & Barto 強化学習（邦訳）の目次：強化学習

「これからの強化学習」の1人勉強会#2。

以下、スライドの補足でもない感想。

例によって例示（というレベルのものはないですが）は自分で考えたものなので適当です。
5～6頁の例はしゃべらないとわからないような気はします。
8頁、REINFORCE にしたかっただけ感がすごいですが、最良線形不偏推定量 BLUE とかはまだしも略語が他の単語になるととても紛らわしいと思うんですが。といって他の単語でもないアルファベットの羅列になったところですぐ忘れますが。
Sutton だとアクター・クリティックの登場の仕方が唐突だったが、"これから" ではわかりやすかった。
自然勾配の例示を途中まで書いていたらフィッシャー情報行列が逆行列をもたなくなってしまったので削ったんですが今度リファクタリングします。
POMDP は Sutton ではほぼ名前だけだったので勉強になりました。スライド上は力尽きています。

あと強化学習関連の雑談：以下の記事は CoastRunners というボートレースのゲームをエージェントに学習させようとして、コース周辺のターゲットを撃ち落とすことに報酬を与えたらボートがコースを周回してくれなくなったという話。記事中ほどには、AIがコースを周回せずにひたすらターゲットを撃ち落とし続けるようすの動画がある。
openai.com
記事にはこのような報酬の設計ミスの回避方法が3つ提言されていて、「人間のプレイの真似をさせる」「行動評価／行動選択に人間のフィードバックを入れる」「他の多くの似たようなゲームで訓練させて、『常識』的な報酬関数を推論させる（コースがあったら周回するのが筋だろうと／実際、人間の学習はこれに近いはず）」と。先の2つはそれはそうだろうって感じだけど、最後の3つ目は最近の以下のニュースを想起させる。

もう東大はあきらめたということだけど東ロボプロジェクトの、国語の「文章読解」で「人間社会において通常合理的と考えられている文章のつながりや流れ」とされている概念はまさに、「レースゲームでは、コースは周回するもの」みたいなのがなす集合だろう。
- 国語 - ロボットは東大に入れるか。Todai Robot Project
それで、DeepMind が10月に発表した Differentiable neural computers で RNN にくっついている "RAM" が、そういう "常識" のような知見をつかさどるようになるんだろうというイメージ。
- Hybrid computing using a neural network with dynamic external memory : Nature

何にせよ報酬の設計はよく考えないといけなくて、それは何も相手がAIだからというのでなく人間相手だってそう。
例えばあなたが「社員の残業を減らしたい」を達成したいとして、何に対して（プラスあるいはマイナスの）報酬を与える制度を設計すればよいだろうか。まあ自分は面倒なので考えないんですけど。例えば全社員の合計残業時間が減っても、一部の人が過重労働になる方策はいい方策だろうか。となるようなら制度設計以前に達成したいことが明確化されていない。「要求が明確化できない（できるのにしていない／できない）」「明確化されているが上手く報酬が設計できない」は区別する必要があると思います。ただ、他のレースゲームからセオリーを学んでこいというのは「最適方策を学んで！達成したいこと？自分で察して！」という話ですけど。AIは大変だなあ。