「これからの強化学習」勉強会#2

読んでいる本(出典): これからの強化学習 | 牧野 貴樹, 澁谷 長史, 白川 真一 |本 | 通販 | Amazon

前回: 勉強会#1 / 次回: まだ
目次: これからの強化学習 / Sutton & Barto 強化学習(邦訳)の目次: 強化学習

「これからの強化学習」の1人勉強会#2。


以下、スライドの補足でもない感想。

  • 例によって例示(というレベルのものはないですが)は自分で考えたものなので適当です。
    5~6頁の例はしゃべらないとわからないような気はします。
  • 8頁、REINFORCE にしたかっただけ感がすごいですが、最良線形不偏推定量 BLUE とかはまだしも略語が他の単語になるととても紛らわしいと思うんですが。といって他の単語でもないアルファベットの羅列になったところですぐ忘れますが。
  • Sutton だとアクター・クリティックの登場の仕方が唐突だったが、"これから" ではわかりやすかった。
  • 自然勾配の例示を途中まで書いていたらフィッシャー情報行列が逆行列をもたなくなってしまったので削ったんですが今度リファクタリングします。
  • POMDP は Sutton ではほぼ名前だけだったので勉強になりました。スライド上は力尽きています。



あと強化学習関連の雑談: 以下の記事は CoastRunners というボートレースのゲームをエージェントに学習させようとして、コース周辺のターゲットを撃ち落とすことに報酬を与えたらボートがコースを周回してくれなくなったという話。記事中ほどには、AIがコースを周回せずにひたすらターゲットを撃ち落とし続けるようすの動画がある。
openai.com
記事にはこのような報酬の設計ミスの回避方法が3つ提言されていて、「人間のプレイの真似をさせる」「行動評価/行動選択に人間のフィードバックを入れる」「他の多くの似たようなゲームで訓練させて、『常識』的な報酬関数を推論させる(コースがあったら周回するのが筋だろうと/実際、人間の学習はこれに近いはず)」と。先の2つはそれはそうだろうって感じだけど、最後の3つ目は最近の以下のニュースを想起させる。

  • もう東大はあきらめたということだけど東ロボプロジェクトの、国語の「文章読解」で「人間社会において通常合理的と考えられている文章のつながりや流れ」とされている概念はまさに、「レースゲームでは、コースは周回するもの」みたいなのがなす集合だろう。
  • それで、DeepMind が10月に発表した Differentiable neural computers で RNN にくっついている "RAM" が、そういう "常識" のような知見をつかさどるようになるんだろうというイメージ。

何にせよ報酬の設計はよく考えないといけなくて、それは何も相手がAIだからというのでなく人間相手だってそう。
例えばあなたが「社員の残業を減らしたい」を達成したいとして、何に対して(プラスあるいはマイナスの)報酬を与える制度を設計すればよいだろうか。まあ自分は面倒なので考えないんですけど。例えば全社員の合計残業時間が減っても、一部の人が過重労働になる方策はいい方策だろうか。となるようなら制度設計以前に達成したいことが明確化されていない。「要求が明確化できない(できるのにしていない/できない)」「明確化されているが上手く報酬が設計できない」は区別する必要があると思います。ただ、他のレースゲームからセオリーを学んでこいというのは「最適方策を学んで!達成したいこと?自分で察して!」という話ですけど。AIは大変だなあ。

ライブラリまとめ


最終更新日: 2017-01-16
統計処理の各種ライブラリについてまとめておくためのページ

Python ライブラリ篇
名前説明
Keras
深層学習の便利ライブラリ。本体として TensorFlow か Theano が必要。
keras-rl
Keras をつかった深層強化学習のライブラリ。
OpenAI Gym
色々な強化学習タスクの "環境" ライブラリ。囲碁もあるらしい。

R パッケージ篇
名前説明
tseries
時系列解析用のパッケージで garch() が入っている。
dlm
名前の通り動的線型モデルのパッケージ。
class
クラス分類用のパッケージでk近傍法が入っている。
h2o
機械学習ライブラリ H2O の R 用 I/F で、R で深層学習ができる。

論文読みまとめ


最終更新日: 2017-02-19
参考になりそうな論文をとりあえずメモしておくページ

確率的勾配降下法

表題Shun-ichi Amari. Natural Gradient Works Efficiently in Learning, Neural Computation, Vol. 10, No. 2, pp. 251-276 (1998).
リンクhttp://www.maths.tcd.ie/~mnl/store/Amari1998a.pdf
備考自然勾配の原論文。
表題Diederik Kingma and Jimmy Ba: Adam: A Method for Stochastic Optimization, arXiv:1412.6980 (2014).
リンクhttps://arxiv.org/pdf/1412.6980v8.pdf
備考Adam の原論文。

深層学習(基礎)

表題George Cybenko: Approximation by Superpositions of a Sigmoidal Function (1989).
リンクhttp://www.dartmouth.edu/~gvc/Cybenko_MCSS.pdf
備考ニューラルネットワークの普遍性定理(Universal Approximation Theorem)の原論文。

強化学習(基礎)

表題R. J. Williams: Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning, Machine Learning, Vol. 8, Issue 3, pp. 229-256 (1992).
リンクhttp://www-anw.cs.umass.edu/~barto/courses/cs687/williams92simple.pdf
備考方策勾配のREINFORCEアルゴリズム
表題R. S. Sutton, D. A. McAllester, S. P. Singh, and Y. Mansour. Policy Gradient Methods for Reinforcement Learning with Function Approximation, Advances in Neural Information Processing Systems 12, pp. 1057-1063 (2000).
リンクhttps://webdocs.cs.ualberta.ca/~sutton/papers/SMSM-NIPS99.pdf
備考方策のパラメータ勾配の表式、アクター・クリティックのパラメータ更新式など。
表題Peter Auer, Nicolo Cesa-Bianchi, and Paul Fischer. Finite-time Analysis of the
Multiarmed Bandit Problem. Machine Leraning, 47(2/3):235-256 (2002).
リンクhttps://homes.di.unimi.it/~cesabian/Pubblicazioni/ml-02.pdf
備考UCBアルゴリズムの原論文。
\varepsilon-greedy 方策において \varepsilon を減衰させたときのリグレットも。
表題Sebastien Bubeck and Nicolo Cesa-Bianchi. Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems. (2012)
リンクhttps://arxiv.org/pdf/1204.5721.pdf
備考様々な問題設定の多腕バンディットタスクについてリグレットを解析したサーベイ

強化学習(応用)

表題David Silver et al., Mastering the Game of Go with Deep Neural Networks and Tree Search (2016)
リンクhttp://airesearch.com/wp-content/uploads/2016/01/deepmind-mastering-go.pdf
備考AlphaGo。
メモ雑記: AlphaGoって何 - クッキーの日記
表題Barret Zoph, Quoc Le, Neural Architecture Search with Reinforcement Learning (2016)
リンクhttps://openreview.net/forum?id=r1Ue8Hcxg
備考RNN をどんな風に設計するか自体を強化学習にやらせていると思う。

位相的データ解析(基礎)

表題Herbert Edelsbrunner, David Letscher, and Afra Zomorodian. Topological persistence and simplification(2002)
リンクhttps://www.cs.duke.edu/~edels/Papers/2002-J-04-TopologicalPersistence.pdf
備考パーシステントホモロジーの原論文。
表題Robert Ghrist, Barcodes: The Persistent Topology of Data(2008)
リンクhttps://www.math.upenn.edu/~ghrist/preprints/barcodes.pdf]
備考バーコード(=データ点群から位相情報を抽出したフォーマットの1つ)。

「これからの強化学習」勉強会#1

読んでいる本(出典): これからの強化学習 | 牧野 貴樹, 澁谷 長史, 白川 真一 |本 | 通販 | Amazon

前回:ノート1 / 次回: 勉強会#2
目次: これからの強化学習 / Sutton & Barto 強化学習(邦訳)の目次: 強化学習

「これからの強化学習」の1人勉強会を開催しました。今日は初回なのでノート1で読んだ範囲の復習でした。


以下、スライドの補足でもない感想。

  • スライドの話は全然テキストに沿っていないです。スライド10頁の例がテキストに載っているわけないです。
    他のスライドも多々 Sutton 本ノートからのリサイクルです。
  • 「これからの強化学習」とSutton 強化学習とで Bellman(最適)方程式、Sarsa の位置付けが違います。
    • 価値関数導入以降の話の流れが両者で以下のような感じです。
      • Sutton: Bellman方程式 → Bellman最適方程式 → 解析解 → DP → モンテカルロ → Sarsa → Q学習
      • "これから": モンテカルロ → Bellman方程式 → Sarsa → Bellman最適方程式 → DP → Q学習
    • つまり、Sutton では「強化学習問題をまずは理想的な状況で解析的に解こう」という流れで Bellman(最適)方程式が登場しますが、"これから" では「強化学習問題を解くだけならモンテカルロ法でごり押せるんだけど、もっと効率的に価値を推定したい」という流れで初めて Bellman 方程式が出てきます。"これから" では解析的に解こうという話自体がないようです。
    • その後の実用的な解法の紹介の順序も両者特徴的で、Sutton では「理想的な状況下で適用できるDP → 理想的でなくても適用できるモンテカルロ法/TD学習」というのに対して、"これから" では「モンテカルロ法より効率的な Sarsa → さらに効率的に、方策を陽に使用しないDP/Q学習」という感じです。
    • なので、Sutton では Sarsa は DP とモンテカルロの融合として出てきますが、"これから" では、Bellman方程式の数値解法のような感じで出てきます。これは結構違うと思います。
    • まとめると、物事には色々なストーリーのつくり方があって面白いですね。
    • そして上のスライドは Sutton 寄りです。こちらの本から読んだのでどうしても。
  • Sutton でよくわからなかった適格度トレースは、「Sutton を参照」だそうです…orz

今度こそ1.4節以降へつづく。

確率論セミナー(51): 不参加メモ

Skype数学勉強会 確率論セミナー に参加できなかったメモ
読んでいる本(現在はサブテキスト): はじめての確率論 測度から確率へ : 佐藤 坦 : 本 : Amazon

参加できなかった12月22日分で発表予定だった内容のノートです。
テキスト上「明らか」の部分を補って書きました。
はてなブログへの埋め込みを SlideShare でごり押したんだけど下のページ送りボタン意味ないなと思いました。