Reinforcement Learning: An Introduction〔Second Edition〕（その4）（途中）

本読み強化学習

以下の本を読みます。何かお気付きの点がありましたらご指摘いただけますと幸いです。 Sutton & Barto Book: Reinforcement Learning: An Introduction〈参考〉過去に強化学習についてかいたものへのリンク「これからの強化学習」勉強会#1 「これからの強化…

2019-01-08

Reinforcement Learning: An Introduction〔Second Edition〕（その3）

本読み強化学習

以下の本を読みます。何かお気付きの点がありましたらご指摘いただけますと幸いです。 Sutton & Barto Book: Reinforcement Learning: An Introduction〈参考〉過去に強化学習についてかいたものへのリンク「これからの強化学習」勉強会#1 「これからの強化…

2019-01-07

Reinforcement Learning: An Introduction〔Second Edition〕（その2）

本読み強化学習

以下の本を読みます。何かお気付きの点がありましたらご指摘いただけますと幸いです。 Sutton & Barto Book: Reinforcement Learning: An Introduction〈参考〉過去に強化学習についてかいたものへのリンク「これからの強化学習」勉強会#1 「これからの強化…

2019-01-04

Reinforcement Learning: An Introduction〔Second Edition〕（その1）

本読み強化学習

以下の本を読みます。何かお気付きの点がありましたらご指摘いただけますと幸いです。 Sutton & Barto Book: Reinforcement Learning: An Introduction〈参考〉過去に強化学習についてかいたものへのリンク「これからの強化学習」勉強会#1 「これからの強化…

2018-01-07

NIPS2017論文読みメモ： Inverse Reward Design（その5）

論文読み強化学習

NIPS2017論文読み会に参加するので論文を読みたいと思います。今回読むのは以下です。最終回です。Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart Russell and Anca Dragan. Inverse Reward Design. arXiv: 1711:02827, 2017. https://arxiv.o…

2018-01-06

NIPS2017論文読みメモ： Inverse Reward Design（その4）

論文読み強化学習

NIPS2017論文読み会に参加するので論文を読みたいと思います。今回読むのは以下です。Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart Russell and Anca Dragan. Inverse Reward Design. arXiv: 1711:02827, 2017. https://arxiv.org/abs/1711.…

2018-01-03

NIPS2017論文読みメモ： Inverse Reward Design（その3）

論文読み強化学習

NIPS2017論文読み会に参加するので論文を読みたいと思います。今回読むのは以下です。Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart Russell and Anca Dragan. Inverse Reward Design. arXiv: 1711:02827, 2017. https://arxiv.org/abs/1711.…

2018-01-02

NIPS2017論文読みメモ： Inverse Reward Design（その2）

論文読み強化学習

NIPS2017論文読み会に参加するので論文を読みたいと思います。今回読むのは以下です。Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart Russell and Anca Dragan. Inverse Reward Design. arXiv: 1711:02827, 2017. https://arxiv.org/abs/1711.…

2018-01-01

NIPS2017論文読みメモ： Inverse Reward Design（その1）

論文読み強化学習

お正月ですがNIPS2017論文読み会に参加するので論文を読みたいと思います。今回読むのは以下です。Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart Russell and Anca Dragan. Inverse Reward Design. arXiv: 1711:02827, 2017. https://arxiv.o…

2017-02-19

これからの強化学習：ノート4

本読み強化学習

読んでいる本（出典）：これからの強化学習 | 牧野貴樹, 澁谷長史, 白川真一 |本 | 通販 | Amazonこの本読みですが、スライドにまとめようとしたら2回で挫折したのでとりあえず感想ノートの方を続けることにします。というかどこまで読んだかもよくわか…

2017-01-09

「これからの強化学習」勉強会#3（準備中）→ ノート3

本読み強化学習

読んでいる本（出典）：これからの強化学習 | 牧野貴樹, 澁谷長史, 白川真一 |本 | 通販 | Amazon前回：勉強会#2 ／次回：まだ目次：これからの強化学習／ Sutton & Barto 強化学習（邦訳）の目次：強化学習「これからの強化学習」のエア勉強会3…

2017-01-02

「これからの強化学習」勉強会#2

本読み強化学習

読んでいる本（出典）：これからの強化学習 | 牧野貴樹, 澁谷長史, 白川真一 |本 | 通販 | Amazon前回：勉強会#1 ／次回：まだ目次：これからの強化学習／ Sutton & Barto 強化学習（邦訳）の目次：強化学習「これからの強化学習」の1人勉強会#2…

2016-12-31

「これからの強化学習」勉強会#1

本読み強化学習

読んでいる本（出典）：これからの強化学習 | 牧野貴樹, 澁谷長史, 白川真一 |本 | 通販 | Amazon前回：ノート1 ／次回：勉強会#2 目次：これからの強化学習／ Sutton & Barto 強化学習（邦訳）の目次：強化学習「これからの強化学習」の1人勉強会…

2016-11-13

これからの強化学習：ノート1

本読み強化学習

強化学習の新しい本が出たらしいので読みます。これからの強化学習牧野貴樹澁谷長史白川真一浅田稔麻生英樹荒井幸代飯間等伊藤真大倉和博黒江康明杉本徳和坪井祐太銅谷賢治前田新一松井藤五郎南泰浩宮崎和光目黒豊美森…

2016-08-27

強化学習：ノート14

本読み強化学習

読んでいる本（出典）：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp前回：ノート13 ／次回：まだ目次：強化学習読んだページ： 173～178ページ以下、自分の理解と雑談。前回までのあらすじ：強化学習問…

2016-04-18

強化学習：ノート13

本読み強化学習

読んでいる本（出典）：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp前回：ノート12 ／次回：まだ目次：強化学習読んだページ： 156～172ページ以下、雑談。「グラフの傾きが上向きであることから、時間と…

2016-04-17

SarsaとQ学習の違い

強化学習

参考文献：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp 関連記事：強化学習強化学習のTD解法である、Sarsa（方策オン型）とQ学習（方策オフ型）の違い。ちゃんとした話は参考文献の6章を参照。以前考えた転…

2016-04-16

強化学習：ノート12

本読み強化学習

読んでいる本（出典）：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp前回：ノート11 ／次回：まだ目次：強化学習読んだページ： 147～156ページ以下、自分の理解。これまでのあらすじ：強化学習の解法で…

2016-04-16

強化学習：ノート11

本読み強化学習

読んでいる本（出典）：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp前回：ノート10 ／次回：まだ目次：強化学習読んだページ： 119～147ページ以下、自分の理解。この本の2部で紹介される手法の特徴（111…

2016-04-11

強化学習：ノート10　大反省会

雑記本読み強化学習

読んでいる本（出典）：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp この記事はただのデバッグ記録です。経緯前回の記事の、「レンタカー2営業所問題」のスクリプトがバグっていた（現在は修正済）。調査 …

2016-04-10

強化学習：ノート10

本読み強化学習

読んでいる本（出典）：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp前回：ノート9 ／次回：ノート11 目次：強化学習今日読んだページ： 98～118ページ以下、自分の解釈。有限 MDP であるような強化学習問題…

2016-04-04

強化学習：ノート9

本読み強化学習

読んでいる本（出典）：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp前回：ノート8 ／次回：ノート10 目次：強化学習今日読んだページ： 93～98ページ以下、自分の解釈・感想・雑談。今日から4章。4章は強化…

2016-04-03

強化学習：ノート8

本読み強化学習

読んでいる本（出典）：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp前回：ノート7 ／次回：ノート9 目次：強化学習今日読んだページ： 72～92ページ以下、自分の解釈・感想・雑談。（前回）「状態」は（ほ…

2016-04-02

強化学習：ノート7

本読み強化学習

読んでいる本（出典）：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp前回：ノート6 ／次回：ノート8 目次：強化学習今日読んだページ： 68～71ページ以下、自分の解釈・感想・雑談。（前回）強化学習を定義…

2016-03-12

強化学習：ノート6

本読み強化学習

読んでいる本（出典）：強化学習 : Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章 : 本 : Amazon.co.jp前回：ノート5 ／次回：ノート7 目次：強化学習今日読んだページ： 60～68ページ以下、自分の解釈・感想・雑談。（前回）強化学習問題は…

2016-03-06

強化学習：ノート5

本読み強化学習

読んでいる本（出典）： Amazon.co.jp：強化学習: Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章: 本前回：ノート4 ／次回：ノート6 目次：強化学習今日読んだページ： 55～60ページ以下、自分の解釈・感想。 3章では強化学習問題とは何かを定…

2016-02-11

強化学習：ノート4

本読み強化学習

読んでいる本（出典）： Amazon.co.jp：強化学習: Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章: 本前回：ノート3 ／次回：ノート5 目次：強化学習今日読んだページ： 36～54ページ以下、自分の解釈・感想。 35～38ページの2値バンディットタ…

2016-02-11

2値バンディットタスクにおける教師あり学習と強化学習

強化学習 R

参考文献： Amazon.co.jp：強化学習: Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章: 本この記事は上の本の37ページのグラフの再現です。こちらの記事のグラフに L_R-I と L_R-P を足したもの。ゲーム設定 2つのスロットマシンAとBがあって、…

2016-02-06

強化学習：ノート3

本読み強化学習 R

読んでいる本（出典）： Amazon.co.jp：強化学習: Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章: 本前回：ノート2 ／次回：ノート4 目次：強化学習今日読んだページ： 32～36ページ以下、自分の解釈・感想。前回のあらすじ：やってみなけれ…

2016-02-04

強化学習：ノート2

本読み強化学習 R

読んでいる本（出典）： Amazon.co.jp：強化学習: Richard S.Sutton, Andrew G.Barto, 三上貞芳, 皆川雅章: 本前回：ノート1 ／次回：ノート3 目次：強化学習今日読んだページ： 26～32ページ以下、自分の解釈・感想。前回のあらすじ：強化学習では、…