強化学習

Reinforcement Learning: An Introduction〔Second Edition〕(その4)(途中)

以下の本を読みます。何かお気付きの点がありましたらご指摘いただけますと幸いです。 Sutton & Barto Book: Reinforcement Learning: An Introduction〈参考〉過去に強化学習についてかいたものへのリンク 「これからの強化学習」勉強会#1 「これからの強化…

Reinforcement Learning: An Introduction〔Second Edition〕(その3)

以下の本を読みます。何かお気付きの点がありましたらご指摘いただけますと幸いです。 Sutton & Barto Book: Reinforcement Learning: An Introduction〈参考〉過去に強化学習についてかいたものへのリンク 「これからの強化学習」勉強会#1 「これからの強化…

Reinforcement Learning: An Introduction〔Second Edition〕(その2)

以下の本を読みます。何かお気付きの点がありましたらご指摘いただけますと幸いです。 Sutton & Barto Book: Reinforcement Learning: An Introduction〈参考〉過去に強化学習についてかいたものへのリンク 「これからの強化学習」勉強会#1 「これからの強化…

Reinforcement Learning: An Introduction〔Second Edition〕(その1)

以下の本を読みます。何かお気付きの点がありましたらご指摘いただけますと幸いです。 Sutton & Barto Book: Reinforcement Learning: An Introduction〈参考〉過去に強化学習についてかいたものへのリンク 「これからの強化学習」勉強会#1 「これからの強化…

NIPS2017論文読みメモ: Inverse Reward Design(その5)

NIPS2017論文読み会に参加するので論文を読みたいと思います。今回読むのは以下です。最終回です。Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart Russell and Anca Dragan. Inverse Reward Design. arXiv: 1711:02827, 2017. https://arxiv.o…

NIPS2017論文読みメモ: Inverse Reward Design(その4)

NIPS2017論文読み会に参加するので論文を読みたいと思います。今回読むのは以下です。Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart Russell and Anca Dragan. Inverse Reward Design. arXiv: 1711:02827, 2017. https://arxiv.org/abs/1711.…

NIPS2017論文読みメモ: Inverse Reward Design(その3)

NIPS2017論文読み会に参加するので論文を読みたいと思います。今回読むのは以下です。Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart Russell and Anca Dragan. Inverse Reward Design. arXiv: 1711:02827, 2017. https://arxiv.org/abs/1711.…

NIPS2017論文読みメモ: Inverse Reward Design(その2)

NIPS2017論文読み会に参加するので論文を読みたいと思います。今回読むのは以下です。Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart Russell and Anca Dragan. Inverse Reward Design. arXiv: 1711:02827, 2017. https://arxiv.org/abs/1711.…

NIPS2017論文読みメモ: Inverse Reward Design(その1)

お正月ですがNIPS2017論文読み会に参加するので論文を読みたいと思います。今回読むのは以下です。Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart Russell and Anca Dragan. Inverse Reward Design. arXiv: 1711:02827, 2017. https://arxiv.o…

これからの強化学習: ノート4

読んでいる本(出典): これからの強化学習 | 牧野 貴樹, 澁谷 長史, 白川 真一 |本 | 通販 | Amazonこの本読みですが、スライドにまとめようとしたら2回で挫折したのでとりあえず感想ノートの方を続けることにします。というかどこまで読んだかもよくわか…

「これからの強化学習」勉強会#3(準備中)→ ノート3

読んでいる本(出典): これからの強化学習 | 牧野 貴樹, 澁谷 長史, 白川 真一 |本 | 通販 | Amazon前回: 勉強会#2 / 次回: まだ 目次: これからの強化学習 / Sutton & Barto 強化学習(邦訳)の目次: 強化学習「これからの強化学習」のエア勉強会3…

「これからの強化学習」勉強会#2

読んでいる本(出典): これからの強化学習 | 牧野 貴樹, 澁谷 長史, 白川 真一 |本 | 通販 | Amazon前回: 勉強会#1 / 次回: まだ 目次: これからの強化学習 / Sutton & Barto 強化学習(邦訳)の目次: 強化学習「これからの強化学習」の1人勉強会#2…

「これからの強化学習」勉強会#1

読んでいる本(出典): これからの強化学習 | 牧野 貴樹, 澁谷 長史, 白川 真一 |本 | 通販 | Amazon前回:ノート1 / 次回: 勉強会#2 目次: これからの強化学習 / Sutton & Barto 強化学習(邦訳)の目次: 強化学習「これからの強化学習」の1人勉強会…

これからの強化学習: ノート1

強化学習の新しい本が出たらしいので読みます。これからの強化学習牧野 貴樹 澁谷 長史 白川 真一 浅田 稔 麻生 英樹 荒井 幸代 飯間 等 伊藤 真 大倉 和博 黒江 康明 杉本 徳和 坪井 祐太 銅谷 賢治 前田 新一 松井 藤五郎 南 泰浩 宮崎 和光 目黒 豊美 森…

強化学習: ノート14

読んでいる本(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp前回:ノート13 / 次回: まだ 目次:強化学習読んだページ: 173~178ページ 以下、自分の理解と雑談。 前回までのあらすじ: 強化学習問…

強化学習: ノート13

読んでいる本(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp前回:ノート12 / 次回: まだ 目次:強化学習読んだページ: 156~172ページ 以下、雑談。 「グラフの傾きが上向きであることから、時間と…

SarsaとQ学習の違い

参考文献: 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp 関連記事: 強化学習強化学習のTD解法である、Sarsa(方策オン型)とQ学習(方策オフ型)の違い。 ちゃんとした話は参考文献の6章を参照。以前考えた転…

強化学習: ノート12

読んでいる本(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp前回:ノート11 / 次回: まだ 目次:強化学習読んだページ: 147~156ページ 以下、自分の理解。 これまでのあらすじ: 強化学習の解法で…

強化学習: ノート11

読んでいる本(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp前回:ノート10 / 次回: まだ 目次:強化学習読んだページ: 119~147ページ 以下、自分の理解。 この本の2部で紹介される手法の特徴(111…

強化学習: ノート10 大反省会

読んでいる本(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp この記事はただのデバッグ記録です。 経緯 前回の記事の、「レンタカー2営業所問題」のスクリプトがバグっていた(現在は修正済)。 調査 …

強化学習: ノート10

読んでいる本(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp前回:ノート9 / 次回:ノート11 目次:強化学習今日読んだページ: 98~118ページ 以下、自分の解釈。 有限 MDP であるような強化学習問題…

強化学習: ノート9

読んでいる本(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp前回:ノート8 / 次回:ノート10 目次:強化学習今日読んだページ: 93~98ページ 以下、自分の解釈・感想・雑談。 今日から4章。4章は強化…

強化学習: ノート8

読んでいる本(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp前回:ノート7 / 次回:ノート9 目次:強化学習今日読んだページ: 72~92ページ 以下、自分の解釈・感想・雑談。 (前回)「状態」は(ほ…

強化学習: ノート7

読んでいる本(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp前回:ノート6 / 次回:ノート8 目次:強化学習今日読んだページ: 68~71ページ 以下、自分の解釈・感想・雑談。 (前回)強化学習を定義…

強化学習: ノート6

読んでいる本(出典): 強化学習 : Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章 : 本 : Amazon.co.jp前回:ノート5 / 次回:ノート7 目次:強化学習今日読んだページ: 60~68ページ 以下、自分の解釈・感想・雑談。 (前回)強化学習問題は…

強化学習: ノート5

読んでいる本(出典): Amazon.co.jp: 強化学習: Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章: 本前回:ノート4 / 次回:ノート6 目次:強化学習今日読んだページ: 55~60ページ 以下、自分の解釈・感想。 3章では強化学習問題とは何かを定…

強化学習: ノート4

読んでいる本(出典): Amazon.co.jp: 強化学習: Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章: 本前回:ノート3 / 次回:ノート5 目次:強化学習今日読んだページ: 36~54ページ 以下、自分の解釈・感想。 35~38ページの2値バンディットタ…

2値バンディットタスクにおける教師あり学習と強化学習

参考文献: Amazon.co.jp: 強化学習: Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章: 本 この記事は上の本の37ページのグラフの再現です。 こちらの記事のグラフに L_R-I と L_R-P を足したもの。 ゲーム設定 2つのスロットマシンAとBがあって、…

強化学習: ノート3

読んでいる本(出典): Amazon.co.jp: 強化学習: Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章: 本前回:ノート2 / 次回:ノート4 目次:強化学習今日読んだページ: 32~36ページ 以下、自分の解釈・感想。 前回のあらすじ: やってみなけれ…

強化学習: ノート2

読んでいる本(出典): Amazon.co.jp: 強化学習: Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章: 本前回:ノート1 / 次回:ノート3 目次:強化学習今日読んだページ: 26~32ページ 以下、自分の解釈・感想。 前回のあらすじ: 強化学習では、…