以下の本を読みます。何かお気付きの点がありましたらご指摘いただけますと幸いです。
Sutton & Barto Book: Reinforcement Learning: An Introduction


…例えば、教師あり学習は、「未知のメールがスパムかそうでないかを判定するために学習データから学習する方法」を教えてくれるよね。なら強化学習が教えてくれるのは、「スパム判定器の精度を向上させていくためにエージェントはどう行動べきか計画する」方法だ。強化学習が達成してくれることの方がより私たちの現実のゴールに近くて、強化学習以外の機械学習分野が扱うのは subproblem にすぎない。教師あり学習のノウハウをつかえば「スパム判定器」を用意できる。どれくらいよい判定器か訊かれたら「テストデータの判定精度99.9%」とか答えることもできるね。でもそれって判定器が実際どれくらい役に立つのかの答えになってない。判定器がどれくらい役に立つかって、これから実際に届くメールの生成モデルの上で計測すべきだからね。テストデータとは分布にずれがあるかもしれないし、実際のメールの生成モデルは時間変化していくかもしれない。実際スパムメールの特徴って年々変化していくかもしれないしね。それに、スパム判定器が優秀であまりにスパムメールをブロックしてしまうせいでスパムメールの手口が巧妙化していく、のように、スパム判定器とメール生成モデルは相互作用しうる。…まあ時間変化とか相互作用しないまでも、もしテストデータを生成したのと同じ生成モデルが期待されるとして、「判定精度99.9%」がどれくらい信頼できるスコアなのかわからないしね。テストデータがたまたま判定しやすいメールばかりに偏っていた可能性もある。だから強化学習のように生成モデル(環境)を用意してその上でどう意思決定していくかを計画した上で効果を計測するのが本来的、という話だと思う。