2017-01-02

「これからの強化学習」勉強会#2

読んでいる本（出典）：これからの強化学習 | 牧野貴樹, 澁谷長史, 白川真一 |本 | 通販 | Amazon

前回：勉強会#1 ／次回：まだ
目次：これからの強化学習／ Sutton & Barto 強化学習（邦訳）の目次：強化学習

「これからの強化学習」の1人勉強会#2。

以下、スライドの補足でもない感想。

例によって例示（というレベルのものはないですが）は自分で考えたものなので適当です。
5～6頁の例はしゃべらないとわからないような気はします。
8頁、REINFORCE にしたかっただけ感がすごいですが、最良線形不偏推定量 BLUE とかはまだしも略語が他の単語になるととても紛らわしいと思うんですが。といって他の単語でもないアルファベットの羅列になったところですぐ忘れますが。
Sutton だとアクター・クリティックの登場の仕方が唐突だったが、"これから" ではわかりやすかった。
自然勾配の例示を途中まで書いていたらフィッシャー情報行列が逆行列をもたなくなってしまったので削ったんですが今度リファクタリングします。
POMDP は Sutton ではほぼ名前だけだったので勉強になりました。スライド上は力尽きています。

あと強化学習関連の雑談：以下の記事は CoastRunners というボートレースのゲームをエージェントに学習させようとして、コース周辺のターゲットを撃ち落とすことに報酬を与えたらボートがコースを周回してくれなくなったという話。記事中ほどには、AIがコースを周回せずにひたすらターゲットを撃ち落とし続けるようすの動画がある。
openai.com
記事にはこのような報酬の設計ミスの回避方法が3つ提言されていて、「人間のプレイの真似をさせる」「行動評価／行動選択に人間のフィードバックを入れる」「他の多くの似たようなゲームで訓練させて、『常識』的な報酬関数を推論させる（コースがあったら周回するのが筋だろうと／実際、人間の学習はこれに近いはず）」と。先の2つはそれはそうだろうって感じだけど、最後の3つ目は最近の以下のニュースを想起させる。

もう東大はあきらめたということだけど東ロボプロジェクトの、国語の「文章読解」で「人間社会において通常合理的と考えられている文章のつながりや流れ」とされている概念はまさに、「レースゲームでは、コースは周回するもの」みたいなのがなす集合だろう。
- 国語 - ロボットは東大に入れるか。Todai Robot Project
それで、DeepMind が10月に発表した Differentiable neural computers で RNN にくっついている "RAM" が、そういう "常識" のような知見をつかさどるようになるんだろうというイメージ。
- Hybrid computing using a neural network with dynamic external memory : Nature

何にせよ報酬の設計はよく考えないといけなくて、それは何も相手がAIだからというのでなく人間相手だってそう。
例えばあなたが「社員の残業を減らしたい」を達成したいとして、何に対して（プラスあるいはマイナスの）報酬を与える制度を設計すればよいだろうか。まあ自分は面倒なので考えないんですけど。例えば全社員の合計残業時間が減っても、一部の人が過重労働になる方策はいい方策だろうか。となるようなら制度設計以前に達成したいことが明確化されていない。「要求が明確化できない（できるのにしていない／できない）」「明確化されているが上手く報酬が設計できない」は区別する必要があると思います。ただ、他のレースゲームからセオリーを学んでこいというのは「最適方策を学んで！達成したいこと？自分で察して！」という話ですけど。AIは大変だなあ。

2017-01-01

ライブラリまとめ

最終更新日： 2017-01-16
統計処理の各種ライブラリについてまとめておくためのページ

Python ライブラリ篇

名前	説明
Keras https://keras.io/ja/	深層学習の便利ライブラリ。本体として TensorFlow か Theano が必要。 Keras でロジスティック回帰するだけ keras-rl の example コードを実行するだけ
keras-rl https://github.com/matthiasplappert/keras-rl	Keras をつかった深層強化学習のライブラリ。
OpenAI Gym https://gym.openai.com/	色々な強化学習タスクの "環境" ライブラリ。囲碁もあるらしい。 https://gym.openai.com/envs#board_game

R パッケージ篇

名前	説明
tseries https://cran.r-project.org/web/packages/tseries/index.html	時系列解析用のパッケージで garch() が入っている。 R garch をつかってみるだけ
dlm https://cran.r-project.org/web/packages/dlm/index.html	名前の通り動的線型モデルのパッケージ。 Rによるベイジアン動的線型モデル：ノート4 R dlm をつかってみるだけ
class https://cran.r-project.org/web/packages/class/index.html	クラス分類用のパッケージでk近傍法が入っている。雑記
h2o https://cran.r-project.org/web/packages/h2o/index.html	機械学習ライブラリ H2O の R 用 I/F で、R で深層学習ができる。 R h2o をつかってみるだけ

2017-01-01

論文読みまとめ

最終更新日： 2017-02-19
参考になりそうな論文をとりあえずメモしておくページ

確率的勾配降下法
深層学習（基礎）
強化学習（基礎）
強化学習（応用）
位相的データ解析（基礎）

確率的勾配降下法

表題	Shun-ichi Amari. Natural Gradient Works Efficiently in Learning, Neural Computation, Vol. 10, No. 2, pp. 251-276 (1998).
リンク	http://www.maths.tcd.ie/~mnl/store/Amari1998a.pdf
備考	自然勾配の原論文。

表題	Diederik Kingma and Jimmy Ba: Adam: A Method for Stochastic Optimization, arXiv:1412.6980 (2014).
リンク	https://arxiv.org/pdf/1412.6980v8.pdf
備考	Adam の原論文。

深層学習（基礎）

表題	George Cybenko: Approximation by Superpositions of a Sigmoidal Function (1989).
リンク	http://www.dartmouth.edu/~gvc/Cybenko_MCSS.pdf
備考	ニューラルネットワークの普遍性定理（Universal Approximation Theorem）の原論文。

強化学習（基礎）

表題	R. J. Williams: Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning, Machine Learning, Vol. 8, Issue 3, pp. 229-256 (1992).
リンク	http://www-anw.cs.umass.edu/~barto/courses/cs687/williams92simple.pdf
備考	方策勾配のREINFORCEアルゴリズム。

表題	R. S. Sutton, D. A. McAllester, S. P. Singh, and Y. Mansour. Policy Gradient Methods for Reinforcement Learning with Function Approximation, Advances in Neural Information Processing Systems 12, pp. 1057-1063 (2000).
リンク	https://webdocs.cs.ualberta.ca/~sutton/papers/SMSM-NIPS99.pdf
備考	方策のパラメータ勾配の表式、アクター・クリティックのパラメータ更新式など。

表題	Peter Auer, Nicolo Cesa-Bianchi, and Paul Fischer. Finite-time Analysis of the Multiarmed Bandit Problem. Machine Leraning, 47(2/3):235-256 (2002).
リンク	https://homes.di.unimi.it/~cesabian/Pubblicazioni/ml-02.pdf
備考	UCBアルゴリズムの原論文。 $\varepsilon$ -greedy 方策において $\varepsilon$ を減衰させたときのリグレットも。

表題	Sebastien Bubeck and Nicolo Cesa-Bianchi. Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems. (2012)
リンク	https://arxiv.org/pdf/1204.5721.pdf
備考	様々な問題設定の多腕バンディットタスクについてリグレットを解析したサーベイ。

強化学習（応用）

表題	David Silver et al., Mastering the Game of Go with Deep Neural Networks and Tree Search (2016)
リンク	http://airesearch.com/wp-content/uploads/2016/01/deepmind-mastering-go.pdf
備考	AlphaGo。
メモ	雑記： AlphaGoって何 - クッキーの日記

表題	Barret Zoph, Quoc Le, Neural Architecture Search with Reinforcement Learning (2016)
リンク	https://openreview.net/forum?id=r1Ue8Hcxg
備考	RNN をどんな風に設計するか自体を強化学習にやらせていると思う。

位相的データ解析（基礎）

表題	Herbert Edelsbrunner, David Letscher, and Afra Zomorodian. Topological persistence and simplification（2002）
リンク	https://www.cs.duke.edu/~edels/Papers/2002-J-04-TopologicalPersistence.pdf
備考	パーシステントホモロジーの原論文。

表題	Robert Ghrist, Barcodes: The Persistent Topology of Data（2008）
リンク	https://www.math.upenn.edu/~ghrist/preprints/barcodes.pdf]
備考	バーコード（＝データ点群から位相情報を抽出したフォーマットの1つ）。

2016-12-31

「これからの強化学習」勉強会#1

本読み強化学習

読んでいる本（出典）：これからの強化学習 | 牧野貴樹, 澁谷長史, 白川真一 |本 | 通販 | Amazon

前回：ノート1 ／次回：勉強会#2
目次：これからの強化学習／ Sutton & Barto 強化学習（邦訳）の目次：強化学習

「これからの強化学習」の1人勉強会を開催しました。今日は初回なのでノート1で読んだ範囲の復習でした。

以下、スライドの補足でもない感想。

スライドの話は全然テキストに沿っていないです。スライド10頁の例がテキストに載っているわけないです。
他のスライドも多々 Sutton 本ノートからのリサイクルです。
「これからの強化学習」とSutton 強化学習とで Bellman（最適）方程式、Sarsa の位置付けが違います。
- 価値関数導入以降の話の流れが両者で以下のような感じです。
  - Sutton： Bellman方程式 → Bellman最適方程式 → 解析解 → DP → モンテカルロ → Sarsa → Q学習
  - "これから"：モンテカルロ → Bellman方程式 → Sarsa → Bellman最適方程式 → DP → Q学習
- つまり、Sutton では「強化学習問題をまずは理想的な状況で解析的に解こう」という流れで Bellman（最適）方程式が登場しますが、"これから" では「強化学習問題を解くだけならモンテカルロ法でごり押せるんだけど、もっと効率的に価値を推定したい」という流れで初めて Bellman 方程式が出てきます。"これから" では解析的に解こうという話自体がないようです。
- その後の実用的な解法の紹介の順序も両者特徴的で、Sutton では「理想的な状況下で適用できるDP → 理想的でなくても適用できるモンテカルロ法／TD学習」というのに対して、"これから" では「モンテカルロ法より効率的な Sarsa → さらに効率的に、方策を陽に使用しないDP／Q学習」という感じです。
- なので、Sutton では Sarsa は DP とモンテカルロの融合として出てきますが、"これから" では、Bellman方程式の数値解法のような感じで出てきます。これは結構違うと思います。
- まとめると、物事には色々なストーリーのつくり方があって面白いですね。
- そして上のスライドは Sutton 寄りです。こちらの本から読んだのでどうしても。
Sutton でよくわからなかった適格度トレースは、「Sutton を参照」だそうです…orz

今度こそ1.4節以降へつづく。

2016-12-29

確率論セミナー(51)：不参加メモ

確率論勉強会

Skype数学勉強会確率論セミナーに参加できなかったメモ
読んでいる本（現在はサブテキスト）：はじめての確率論測度から確率へ : 佐藤坦 : 本 : Amazon

参加できなかった12月22日分で発表予定だった内容のノートです。
テキスト上「明らか」の部分を補って書きました。
はてなブログへの埋め込みを SlideShare でごり押したんだけど下のページ送りボタン意味ないなと思いました。