雑記 - クッキーの日記

お気付きの点がありましたらご指摘いただけますと幸いです。

Mehryar Mohri -- Foundations of Machine Learning - Book

f:id:cookie-box:20210304153450p:plain:w60

参考文献1. は序文を読むと、機械学習のトピックを理論的基盤から紹介する本なのですね。但しグラフィカルモデルやニューラルネットについては現状で理論が強固でないので扱わないということですが。本の構成としては最初の3、4章は理論の準備で、その後の各章は一部を除き自己完結していると。以下のような感じですね。

1. イントロダクション／ 2. PAC学習／ 3. VC次元／ 4. モデル選択
5. サポートベクターマシン
6. カーネル法
7. ブースティング
8. オンライン学習
9. 多クラス分類
10. ランキング
11. 回帰
12. 最大エントロピーモデル／ 13. 条件付き最大エントロピーモデル
14. アルゴリズムの安定性
15. 次元削減
16. 学習オートマトンと言語
17. 強化学習

それで各章の章末には演習問題があり、全ての問題に解答を付け…解答！？た、確かに、別冊になっていますが MIT Press というリンク先の Reader Resources から解答をダウンロードできますね！！なんとやさしい世界なのでしょう…私は既にこの本に感動しました…。

f:id:cookie-box:20210304153503p:plain:w60

序文だけで！？

まあそれで、この本は機械学習の色々なトピックや領域に統一的な表現を与えることを目指していて、よくある個別の見方に特化している本とは一線を画しているとありますね。

1章のイントロダクションをみると…この章は本当に導入ですね。あまり初めて聞くようなことはないですが、1.4節の hypothesis set とは候補として考えている関数族、という意味でしょうか。各 hypothesis は関数ですよね。データを示す example とこの hypothesis は例や仮説と和訳すると日常的な意味の例や仮説に聞こえてしまうので英語のままつかいましょうか。そうすると 1.4 節のスパムメール分類の例での学習のステージとは以下の流れですね。

ラベル付きの examples を訓練データ、評価データ、テストデータに分ける。
examples に使用する特徴を関連付ける（学習に有用な特徴を選ぶ必要がある）。
関連付けた特徴でアルゴリズム $\mathcal{A}$ を実行しハイパーパラメータ $\Theta$ をチューニングする。選択された hypothesis が評価データで最もよいパフォーマンスとなった $\Theta_0$ を採用する。
その hypothesis を用いてテストデータのラベルを予測し、アルゴリズム $\mathcal{A}$ の性能を評価する。

1.5 節は学習のシナリオにはどんなものがあるかという話ですね。以下の箇条書きの主語は learner です。まあ機械学習エンジニアとでも想像すればいいと思います。

教師あり学習：ラベル付きの examples を受け取り、任意の未知の点に対する予測を行う。
教師なし学習：ラベルのない examples を受け取り、任意の未知の点に対する予測を行う。クラスタリングや次元削減はこれに該当するんですね。であれば、空間内の任意の点に対して、どのクラスタに所属するかとか、低次元空間のどの点にマッピングされるかとかが決まっていないといけませんよね。しかしクラスタリングや次元削減というと、手元に既にあるデータに対して行う印象がありますが…。
半教師あり学習：ラベル付きの examples とラベルのない examples を受け取り、任意の未知の点に対する予測を行う。例．ラベルなしのデータは容易に手に入るがラベル付きのデータを得るにはコストがかかる場面など。ラベルのないデータの分布が教師あり学習の助けになることが期待されるが、実際にどのような条件下で有効なのかは近年盛んに研究されているとのことです。
トランスダクティブ学習：ラベル付きの examples とラベルのない examples を受け取り、特定のテスト対象の点に対する予測を行う。半教師あり学習より簡単そうにみえるが、半教師あり学習のように、どのような条件で上手くいくかはじゅうぶんには明らかにされていないと。
オンライン学習：学習とテストのフェーズが何ラウンドも繰り返される。各ラウンドでラベルのない訓練データを受け取り、それに対して予測し、真のラベルを受け取り、損失を受ける。全ラウンド通算の損失を最小限に抑えることが目標となる。言い換えると、regret（最も理想的な予測ができた場合との損失の差）を最小限に抑えることを目指すとのことです。
強化学習：これも学習とテストのフェーズが何ラウンドも繰り返される。オンライン学習との違いは行動の結果が環境に影響を与えるということなのでしょうか。なので、まだ結果がわからない行動をとってみるか、既にいい結果だとわかっている行動をとってみるか、探索と利用のジレンマが発生すると。
能動学習：もはや learner が能動的に訓練データを集めると。より少ない examples で教師あり学習と同等のパフォーマンスを達成することを目指すんでしょうか。これもラベル付きのデータが expensive なときにありうるシナリオであるということです。確かに、映画のレビューがポジティブかネガティブかをお金を払ってラベル付けしてもらうなら、どう考えてもポジティブ／ネガティブだろうなというレビューよりも、微妙なレビューにラベル付けしてもらう方がいいですよね。

つづいたらつづく