Reinforcement Learning: An Introduction〔Second Edition〕（その4）（途中）

以下の本を読みます。何かお気付きの点がありましたらご指摘いただけますと幸いです。
Sutton & Barto Book: Reinforcement Learning: An Introduction

〈参考〉過去に強化学習についてかいたものへのリンク

前回：その3 ／次回：まだ

f:id:cookie-box:20190101155733p:plain:w60

1.1 節の3ページの1段落目までの内容はこうでした。

強化学習とは、未知の MDP の上で得られる報酬の和を最大化する方策を学ぶ枠組みである。
強化学習には、正解の行動の教師データはないので、自分で見つけ出すしかない（トライ＆エラー）。
強化学習では、目先に最大の報酬が得られる行動を選択すればよいということではない（遅延報酬）。
強化学習では、探索と知識利用の一方を選択するともう一方をあきらめざるをえないので（ジレンマ）、どのようにバランスをとるか英断する必要がある。

3ページ2段落目は…強化学習のまた別の特徴として、問題の全体を明示的に考慮する…？要領を得ません。

f:id:cookie-box:20190101160814p:plain:w60

…例えば、教師あり学習は、「未知のメールがスパムかそうでないかを判定するために学習データから学習する方法」を教えてくれるよね。なら強化学習が教えてくれるのは、「スパム判定器の精度を向上させていくためにエージェントはどう行動べきか計画する」方法だ。強化学習が達成してくれることの方がより私たちの現実のゴールに近くて、強化学習以外の機械学習分野が扱うのは subproblem にすぎない。教師あり学習のノウハウをつかえば「スパム判定器」を用意できる。どれくらいよい判定器か訊かれたら「テストデータの判定精度99.9%」とか答えることもできるね。でもそれって判定器が実際どれくらい役に立つのかの答えになってない。判定器がどれくらい役に立つかって、これから実際に届くメールの生成モデルの上で計測すべきだからね。テストデータとは分布にずれがあるかもしれないし、実際のメールの生成モデルは時間変化していくかもしれない。実際スパムメールの特徴って年々変化していくかもしれないしね。それに、スパム判定器が優秀であまりにスパムメールをブロックしてしまうせいでスパムメールの手口が巧妙化していく、のように、スパム判定器とメール生成モデルは相互作用しうる。…まあ時間変化とか相互作用しないまでも、もしテストデータを生成したのと同じ生成モデルが期待されるとして、「判定精度99.9%」がどれくらい信頼できるスコアなのかわからないしね。テストデータがたまたま判定しやすいメールばかりに偏っていた可能性もある。だから強化学習のように生成モデル（環境）を用意してその上でどう意思決定していくかを計画した上で効果を計測するのが本来的、という話だと思う。

つづきは後で