Machine Learning: A Probabilistic Perspective: ノート2

読んでいる本(出典):Amazon.co.jp: Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning series): Kevin P. Murphy: 洋書

前回:ノート1 / 次回:ノート3
目次:Machine Learning: A Probabilistic Perspective

今日読んだページ: 9~25ページ
以下、自分の解釈・感想。雑談多い。

  • 9ページから教師なし学習。
  • 教師なし学習といわれて連想する:「ああ、ほんとうに学校で教えてくれることは少ない。自分で学ばなくちゃだめだ。」
    数学ガール/乱択アルゴリズム (数学ガールシリーズ 4) | 結城 浩 | 本 | Amazon.co.jp 54ページ )
    ただし、上の台詞は「学校で教えてくれないことを自分で本などで学ぼう」という向きだと思われるのに対して、教師なし学習は「学校でも教えてくれないし、どんな本にものっていないことをデータから学ぼう」なので、もっとつよい(?)。
  • 「出力しか与えられていなくて、入力は何も与えられていない(9ページ)」を例示すると、
    • 教師あり学習では、日ごとのA社の株価(出力)に加えて、日ごとの景気指数や金利など(入力)が与えられて、入力で出力を説明できるよう回帰などを頑張る。
    • 教師なし学習では、日ごとのA社の株価(出力)のみが与えられて、それ単品で構造を見出す。
  • トロント大学の教授の話(10ページ): 何か物を見るときそこに教師あり学習のような正解ラベルはない。時に母親が「あれは犬よ」というかもしれないが、そんなわずかな情報では脳の視覚野(でいいのかわからない:brain's visual system)を一生かかっても使い切れない(神経結合を1ビット換算していいのか知らないんだけど)。入力そのものからもっと学ぶしかないのだ、と。
    • 既に貼られた正解ラベルから学ぼうと思うな、そんなものにほとんど情報はない、と雑に理解した。ただ、正解ラベルというのは目的と密接に関わるはず(Ex. スパムメール)。目的に必要十分な学習をしないといけない(すごく当たり前)。
  • クラスタリングで教科書以外の例を考えると、コーヒー豆の味によるグループ分けを試みたら「苦い系」「酸っぱい系」「苦くも酸っぱくもない系」に分かれた、というイメージ(※ 適切なクラス数は最初からはわからないし、クラスへの意味付けも分類結果を見てから考えるしかない)。
  • 主成分分析で、低次元の変数(3ファクター)でよく説明できるというのは金利の期間構造でよくある。
  • latent factor の具体例はいくぶん考えにくい。一時期(今も?)、「トイレがきれいな会社はよい会社だ」っていう人が一部にいたけど、そういう人たちにとって、トイレは会社をよく表現する latent factor なんだろう。
  • 生物がわからないので図1.11(13ページ)が意味不明なんだけど、とりあえず生物はタンパク質のリン酸化/脱リン酸化によって酵素や受容体の活性化/非活性化ができると。図1.11 の黄色い丸はそれぞれタンパク質で、グラフの無向エッジの意味は、細胞内で jnk がリン酸化していたら p38 もリン酸化している確率が高い。ぼっちになっている erk や pip3 は他のタンパク質のリン酸化状態と関係ない(違ったらすみません)。
  • 図1.12(14ページ)から、写真に写っていた人をさもいなかったかのように消す技術を重い浮かべる。人がいた部分の背景の復元は、確かに正解がない(だってないんだから)学習のように思える。でも、ここの解説のように、何色と何色がつながっている確率が高い、というのを、写真の欠損以外の部分とか、あるいはほかの写真から推測するのだろうから、そういう意味では正解から学ぶ学習に思える。「これとこれは同時に起こる確率が高い」を探すというのは、データから構造を見出すという教師なし学習的な姿勢なんだろうけど。
  • この辺の話に関連して、ビールとおむつが一緒に買われるって結局都市伝説だったの?
  • 16ページからは、1章の締めくくりに、機械学習にまつわる基本概念の紹介。次元の呪いとか、過学習とか。
  • KNN = K nearest neighbor は、この手法にこういう名前が付いているのを知らなかった…。
  • MAP = maximum a posteriori(最大事後確率)。4ページで出てきたのを忘れたので。
  • 有効な距離の定義とじゅうぶんな量の正解ラベル付きデータがあれば KNN で極めて有効でありうると(18ページ)。ここはわかる。その「あれば」は容易ではない。多次元データに距離を入れるのは全く自明な作業じゃない。元データの数はもちろん(目的の範囲で)偏りなく収集されていることも必要になる。
  • 次元の呪いは、MCMCの本では「乱数で円の面積を求めるやつをN次元球に応用したら、次元を増やすにつれてサンプリングした点が球内に入らなくなってくる」という例で出てきた(マルコフ連鎖モンテカルロ法とその周辺 読書会(3): 参加メモ - クッキーの日記)。
    • つまり、2次元だったらかなりの確率で円内に入るように思うけど、次元を増やして「どの2軸が張る平面に射影しても円内にある」となると確率が掛け合わさってどんどん厳しくなってくる。
    • この本の例では逆に、1辺の長さ1の超立方体の中で「あるデータ点を中心とする超立方体であって、全体の 10% の領域を取りたい」と体積の方を固定している。そうすると、2次元ではこの超立方体(正方形)の一辺は √0.1 = 0.3 だけど(もはや大きい)、10次元だったらなんと 0.8 にもなって、「0.8も誤差が許容されてるの!?」となると。1% の領域、と厳しめにしても 0.63 にもなると。近所じゃないじゃんと。
  • Cross Validation は日本語だと交差検証という。こういうことはやったことがなかった。

練習問題 1.2 は気が向いたらやりたい。