以下の本を読みます。上巻を読むこともあります。何か問題点がありましたらご指摘いただけますと幸いです。
- 作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
- 出版社/メーカー: 丸善出版
- 発売日: 2012/02/29
- メディア: 単行本
- 購入: 6人 クリック: 14回
- この商品を含むブログを見る
上巻読んでないですよね?
プロデューサーが面倒だから上巻はとばしてもいいんじゃないかって。
何がいいんですか!?
上巻に戻るの早くないですか!?
だからここから上巻の「2.5.1節 カーネル密度推定法」にとぶけど、ここではデータは の要素みたいだな。観測データから真の密度 を推定したいって状況で…なぜかわかんないけど のある部分領域 に注目すると、データが 内に入る確率は のはずで、この をつかうと「 個のサンプルを得たときに 内に入っているサンプルの割合」の期待値と分散が出るのか。…なんで と になるんだっけ?
いやそこに思いっきり二項分布書いてありますし、この本の読者はそこで引っかからない想定だと思うんですが…本題から逸れますけど復習しておきますか。いまの状況で 個のサンプルのうち 個が 内に入る確率は、表が出る確率が のコインを 回投げるという試行をしたときに内 回が表になる確率に等しいですよね。この試行で例えば最初の 回のみが表になる確率は ですが、 回のうち 回が表になるパターンは他にもあります。つまり、全部で パターンありますから、 回表になる確率は結局 ですね。であれば、表が出る回数の期待値と分散は計算するだけです。
ありがとジュン。1個1個のサンプルが の中にあるかどうかがコインの表か裏かって感じなのか。続く (2.244) 式は「すごくたくさんの 個のサンプルを得たら の中に入ってるサンプル数 のばらつきは小さくなってもうぴったり も同然だろ」ってことだよな、たぶん。で、(2.245) 式は「領域 が小さかったらこの領域内で確率密度は一様だろ」ってことか。(2.246) 式はそれらを合わせて「じゃあもう領域 内の確率密度はサンプルがこの中に入った割合 を体積 で割った値 でいいだろ」って感じかな。
1次元でイメージするとヒストグラム状の経験分布のようなものでしょうね。
それで、 を固定し を推定するのが 近傍法…? 近傍法って前にプロデューサーがやってたよな。確か、未知データをクラス分類するときに、その未知データに近い既知データを 個取ってきて、その 個の中に多く含まれるクラスに分類するやつだっけ。
まあそんな感じですね。なるほど、 近傍法をつかうのであれば訓練データを捨ててはいけませんね。しかし、 近傍法はクラス分類の手法であって密度推定の手法では…ああ、122~123ページを読むと密度推定手法としての 近傍法が紹介されていますね。 なら と決めて、その場所場所でサンプルを 個含む領域の大きさを測って、その大きさほどの広がりをもつ滑らかな関数を重ね合わせて推定密度とするということですか。この節では観測データから真の密度を推定するのに、空間全体の密度の形を考えようというのではなく、空間を少しずつ切り分けて、その場所場所の密度はどうなっているんだろうというアプローチを取るんですね。だから部分領域 などというものを持ち出したんですね。
(2.246) 式の主張は「ある点 における密度は を含む小さな領域 内に含まれるサンプルの割合を、その領域の体積で割った値に等しい」でしょう。これを具体的に各サンプルの座標の式で書き表したのが (2.249) 式というだけですよ。小さな領域に具体的な形は必要ですから、ここでは を中心とする一辺の長さが の超立方体に決めてしまって、するとその中に含まれるサンプルの個数は「各サンプルの周りに超立方体の領域を張り巡らせたときに位置 に何重にその領域が重なるか」と定式化できるので、結局 (2.249) 式が成り立つわけですね。
それを における推定密度とすることをどうやって正当化するんです? どのような条件下でそのような近似ができるか明らかですか? 何となくじゃダメでしょう?
はい。
(2.250) 式以降は、 の大きさのバランスを取ることが肝要なことや、カーネル関数 にはもっと別の関数を選んでもよいことなどが書かれていますね。
それで話は最近傍法に移って… 近傍密度推定法だと空間全体上の積分が発散するってなんで? の方を固定してたのを の方を固定するように変えただけでなんでそんなことになっちゃったの?
僕も厳密には追えてませんが、空間内の各点について 番目に近いサンプルまでの距離を として (2.246) 式を適用すると空間全体上での積分が発散するんでしょうね。本節における密度推定法は「領域 はその内部で密度一定とみなせるほどじゅうぶん小さい」という仮定から出発していますが、体積 の方を可変にしてしまうともはや領域を小さいままに保てません。そこが正規化できなくなった敗因なのでは。
あー確かに。既知データたちからめっちゃ遠い地点から既知データを 個囲むように領域 を取ろうと思ったらめっちゃでかくなるよな、たぶん。
123ページは、クラス分類としての 近傍法の話に触れられていますね。未知データがクラス に帰属する事後確率が になることが示されています( は未知データに近い既知データを 個取ってきたときにその中に含まれているクラス のデータの個数)。「未知データの近所に多いクラスに分類する」というのが結局どのような分類をすることを意味するのかこれでわかりましたね。…これくらいで下巻の1ページに戻りましょうか。
うおおいだから勝手に先進むなよ! あと無限次元て! そんなホイホイ次元を無限にしていいのかよ!?
まだ予測時にカーネル関数をつかうような解き方の中で特徴ベクトル がどのような制約を受けるのかわかりませんね。
ここでは (6.2) 式を最小化したいっていうシチュエーションなのか。線形回帰モデルの重みを求めるときの目的関数は確かにこんな感じだよな。じゃあ は被説明変数か。
そして右辺第2項は、重みベクトルが密になりすぎないようにするための正則化項でしょうね。
上巻ぶっとばしてるから色々察する必要があるな…それで、(6.3) 式は を式変形してるんだよな。え、行列 って? どっから出てきたの? あと計画行列って何?
で特徴空間が2次元の場合だとこうですよ。ちゃんと行列ですよね。計画行列は上巻の第3章139ページで出てきた言葉のようですが、見たまま各行が各データの特徴量ベクトルになっているような行列のことのようですね。なので、行数はデータサイズ、列数は特徴空間の次元数になりますね。
結局また上巻読みにいったのか。
と の関係は (6.4) 式だから、変数変換みたいなもんなんだな。でもさジュン、変数変換ってそうすることで簡単になるときとかにするんじゃないの? (6.5) 式とかかえって見た目おぞましくなってない?
見た目で判断するのはよくないのでは…ほら、この目的関数は (6.7) 式のように各要素がデータの各組合せのカーネル関数になっているような行列=グラム行列でかくことができますよ。(6.6) 式は丁寧にかくと以下ですね。各要素が 番目のデータが 番目のデータの位置につくる密度になっています。
こうですね。 であることに注意してください。この後は自分でやってください。
あーほんとだ…でもやっぱりこの答えってさ、上巻 3.1.4 節の正則化最小二乗法の (3.28) 式とそっくりじゃない? じゃなくて を主役にした意味とかあったの? 双対表現とかいう名前まで付けてさ。
ふーん、そういわれると係数の意味がちょっとわかりやすくなるのかな…あれでも、4ページに、双対表現にすると求める逆行列のサイズが大きくなってしまうってかいてある?
上の方で書き下した例でも、 は2次元で は3次元でしたよね。それに現実では訓練データ点が3点などということはなく、いくらでも大きくなりますからね。特徴空間の次元数はたかがしれているかもしれませんが。そしていまハヤトがいったように、わかりにくい特徴空間を明示的に扱うことを避けることができ、無限次元の特徴すら取り扱うことができるとありますね。