2021-01-30

GPML：ノート1（1章、2.1節）

本読み

以下の本を読みます。私の誤りは私に帰属します。お気付きの点がありましたらご指摘いただけますと幸いです。

www.gaussianprocess.org

キャラクターの原作とは無関係です。

f:id:cookie-box:20180305232608p:plain:w60

「訓練データ $\mathcal{D} = \bigl\{ (x_i, y_i), \cdots, (x_n, y_n)\bigr\}$ から任意の未知の点 $x$ の値をどう予測すればよいか」という問を考えましょう。本質的に有限個の点の情報から無限個の点の情報を得ることはできません。考える関数 $f(x)$ が訓練データの外でどうあるべきかについて僕たちは何も知らない。無限にある関数候補に優劣を付けられない。なのでそこは何か決め打つしかない。それには主に2つのアプローチがあるといっています。

考慮するべき関数のクラスを制限する。
すべての関数に事前確率を割り当てる（Ex. より滑らかなものが好ましいなど）。

実際に用いられる方法は 1. の関数のクラスを制限することでしょう。テキストでは例えば線形モデルといっていますが、特定の構造のニューラルネットや決定木のことも多いかもしれません。その予め決めたクラスの関数の中で訓練データに最もフィットするものを選ぶわけですが、この方法では表現力が不十分だと予測性能が悪くなり、といって表現力をもたせると訓練データにオーバーフィットするとあります。

なので 2. が実現できないかという流れなのでしょう。こちらで関数のクラスを制限することは避けたい、ただある程度滑らかであることだけ要請しておきたい、と。しかし、こちらには即座にセルフ突っ込みが入っていますね。「有限の時間でどうやって無限の関数候補を検討するんだ」と。

―そこで、「ガウス過程が助けにきてくれる」と、ガウス過程が初登場します。

f:id:cookie-box:20180305231302p:plain:w60

ごめん、「助けにきてくれる」っていわれても、意味がわからなすぎて「熱い展開！」とか「これで勝てる！」とかならない…。

そうですね、まだイントロダクションなので続く記述はいくぶん抽象的ですが、ガウス過程があると助かるという心は以下だと思います。この箇所にかいていないことも適当に想像でかきましたが。

訓練データ外のことはわからないので、あらゆる関数の上の確率分布（＝確率過程）を考えたい。
ここでその確率過程はガウス過程であることを仮定する。そうすれば、距離が近い点どうしは共分散が大きいような分散共分散行列を選ぶことで、滑らかな関数の事前確率を大きくすることができる。そして、未知の点上の値の分布は直接求まるので、無限の関数候補を個々に検討する必要はない。

何というか、2. のアプローチは未知の点を予測するのに「あるクラスの関数の中から尤もらしいものを特定する」ことによってそうするのではなく、「点どうしに相関関係を入れる」ことによってそうするというとしっくりくる気がします。ここではそれを「すべての関数に事前確率を割り当てる（滑らかな関数の事前確率が大きいような）」といっていますが。

3ページから4ページの前半は Figure 1.1 で1次元→1次元の回帰のデモンストレーションをしていますね。(a) の事前分布が、2点を観測すると (b) の事後分布になると。そして4ページの中ほどにはまさに「ガウス過程回帰するとは共分散を見出すことである」というような記述があります。

4ページの後半からは分類問題ならどうかという話ですね。座標 $x$ に検出された天体が星であるのか銀河であるのかを分類したいというシチュエーションのようです。座標 $x$ の天体が星である確率 $\pi(x) \in [0,1]$ を予測したいと。しかし、ガウス過程のある座標での実現値は $[0,1]$ には収まりませんから、ロジスティック関数で変換するのが常套手段であるようですね。2次元平面上でのこの2値分類の事後分布が Figure 1.2 の (d) です。

後はこの本の章立てが紹介されていますね。各章の内容は概して以下でしょうか。

ガウス過程の定義や、回帰問題の予測値の計算方法（ノイズがガウシアンなら解析的）。
2値/多値分類問題（非線形な活性化関数を用いるためにもはや解析的でない）。
様々な共分散関数とその性質、組み合わせ方。
共分散関数のパラメータ推定方法。
ガウス過程回帰はカーネルマシンの1手法に位置付けられるが、SVMなど他のカーネルマシンの紹介と、ガウス過程回帰との関係。
理論的な話（漸近理論や、学習曲線や、PACベイズ推測の枠組みについて）。
$n \times n$ 行列の逆行列への対処法。
その他の問題設定。

じゃあまずはともかく Chapter 2 の「回帰」だな…序文に「ガウス過程モデルの解釈は色々ある」ってあるな。このテキストで扱うのは「関数空間」派と「重み空間」派ってことかな？とりあえず後者を先にみていくのか。えっと、訓練データが $\mathcal{D} = \bigl\{ (x_i, y_i), \cdots, (x_n, y_n)\bigr\}$ であるのは変わらなくて、入力は $D$ 次元、出力は1次元の実数で、入力ベクトルを束ねた $D \times n$ 行列 $X$ を計画行列とよぶと（これの転置を計画行列とする流儀の方が多いけど意図的に）。そしていまの状況は入力が与えられた下での出力の分布に興味がある（入力の分布自体には興味がない）のか。

それでまず、 $y=f(x)+\varepsilon, \; f(x) = x^\top w, \; \varepsilon \sim N(0, \sigma_n^2)$ というモデルを考えるのかな。これは入力の線形和に分散 $\sigma_n^2$ の独立なガウスノイズがのっているというモデルか。そうすると訓練データに対するモデルの尤度 $p(y|X,w)$ は式 (2.3) になって、 $w$ の事前分布を $w \sim N(0,\Sigma_p)$ として事後分布を求めるのかな？それがなんで式 (2.5) になるんだっけ？

式から $X$ による条件付けの部分を取った方がわかりやすいかもしれません。

$\displaystyle p(w|y)= \frac{p(y|w)p(w)}{p(y)}$

これなら $p(y|w)p(w)=p(w|y)p(y)$ を変形しただけですね。しかしいま考えているモデルは $w$ のみから $y$ を出すモデルではありませんから、 $X$ による条件付けを入れましょう。

$\displaystyle p(w|y, X)= \frac{p(y|w, X)p(w|X)}{p(y|X)}$

ここで $w$ の事前分布は計画行列 $X$ に応じて決めているのではないので $p(w|X)=p(w)$ とするだけです。それでは実際に事後分布を求めておきましょうか。

$\begin{split} \displaystyle p(w|X, y) &\propto \exp \left[-\frac{(y - X^\top w)^\top (y - X^\top w)}{2\sigma_n^2} - \frac{w^\top \Sigma_p^{-1} w}{2} \right] \\ &\propto \exp \left[-\frac{- y^\top X^\top w - w^\top X y + w^\top X X^\top w}{2\sigma_n^2} - \frac{w^\top \Sigma_p^{-1} w}{2} \right] \end{split}$

よって、これは以下の形に平方完成できますから、係数比較で $\bar{w}$ を求めましょう。

$\begin{split} \displaystyle & \exp \left[-\frac{1}{2}(w - \bar{w})^\top \left( \frac{X X^\top}{\sigma_n^2} + \Sigma_p^{-1} \right) (w - \bar{w}) \right]\\ &\propto \exp \left[-\frac{1}{2}w^\top \left( \frac{X X^\top}{\sigma_n^2} + \Sigma_p^{-1} \right) w +\frac{1}{2} \bar{w}^\top \left( \frac{X X^\top}{\sigma_n^2} + \Sigma_p^{-1} \right) w +\frac{1}{2} w^\top \left( \frac{X X^\top}{\sigma_n^2} + \Sigma_p^{-1} \right) \bar{w}\right] \end{split}$

見比べると $\bar{w} = \sigma_n^{-2}(\sigma_n^{-2} X X^\top +\Sigma_p^{-1} )^{-1}Xy$ であることがわかりますね。つまり、事後分布は平均が $\bar{w}$ で分散共分散行列が $(\sigma_n^{-2} X X^\top +\Sigma_p^{-1} )^{-1}$ のガウス分布です。ときにハヤト、線形モデル $f(x) = x^\top w$ を最小2乗フィッティングしたときの $\hat{w}$ ってどうなりましたっけ。

それは $\hat{w} = (X X^\top)^{-1}Xy$ だろ（下スライド）。リッジ正則化するなら $\hat{w} = (X X^\top + \lambda I)^{-1}Xy$ だっけ。あれ？これって $\bar{w}$ とすごい似てる？

似ているが混同するなと 10 ページにあります。

ええ…じゃあ訊くなよ…。

$\hat{w}$ はペナルティ項付きの尤度を最大にする $w$ であり、リッジ回帰の最終的な答えともいうべきものでしょう。他方、 $\bar{w}$ はベイズ推測の事後分布の平均であり最大点ですが、それだけなんです。事後分布の特徴的な点ではあるがこの点での予測値が特別な役割をもつのではないといいたいようです。このケースではたまたまモデルも事後分布も対称なので予測値の分布の平均値が $\bar{w}$ による予測値と一致するんですが。…続く 11 ページにも「未知の点を予測するときは、すべてのありうるパラメータでの予測値を事後分布による重みで平均します」とありますから、ベイズ推測とはあくまでそういうもので、事後分布のある点での予測値を使用するものではないということなのかと。しかし、渡辺ベイズ本の1章にも事後確率最大化推測とか平均プラグイン推測とかありましたから「特別な役割をもたせる人もいるのでは」となりそうなんですが、あくまで「ベイズ推測」というとそういうことではないということなのかもしれません。

ふーん…？まあ何にせよ、未知の点 $x_\ast$ に対する予測値 $f_\ast$ の分布は (2.9) 式で…何でこうなるんだっけ？

渡辺ベイズ本 1.2.3 節の「計算できる例」を参照すれば計算できるでしょう。計算できるわけですから。

あー…事前分布から事後分布への変換がハイパーパラメータの更新で表せるのをつかうんだっけか。それで、今回の場合は予測値の分布はガウス分布で、その平均は $x_\ast^\top \bar{w}$ で分散は $x_\ast^\top (\sigma_n^{-2} X X^\top +\Sigma_p^{-1} )^{-1} x_\ast$ になるのか。ん？「予測値の不確かさは入力の大きさが大きくなるほど大きくなり、これは線形モデルに期待する性質と合致している」みたいにあるけど、どういう意味？そんなこと線形モデルに期待してたっけ？

線形モデル $f(x) = x^\top w$ は $w$ が不確かなわけですから、 $f(x)$ の不確かさはノルムが大きい $x$ ではそれに比例して大きいだろうということなんでしょうか。今回考えた「入力の線形和に分散決め打ちのガウスノイズをのせるモデルを考え、重みベクトルをベイズ更新する」という方針ではそれが満たされていますね、というくらいでは。

まあいいや。Figure 2.1 にこの推測の図示があって、図 (a) の等高線が事前分布で、図 (b) が訓練データで（3点だけなんだな）、図 (c) の等高線は尤度で、図 (d) の等高線は事後分布で、図 (b) に戻って実線と点線が予測分布の信頼区間って感じか。図のキャプションをみると、図 (a)(c)(d) の等高線は1シグマ、2シグマで、図 (b) の破線は2シグマか。というか図 (c) と図 (d) めっちゃ似てるな。

事前分布がかかっているかどうかの違いしかありませんから、それは似ているでしょう。図 (c)(d) で特筆すべきなのは、図 (c) で切片の不確かさはまだ大きいのに対し傾きの不確かさはずっと小さいこと、図 (d) では傾きの広がりは図 (c) とほぼ変わらないのに対し切片は平均も分散も図 (c) からやや変わっていることですね（とキャプションにあるんですが）。この例では切片より傾きがずっとよく特定されます。図 (b) の直線について、切片を 0.5 増やしたときの尤度の減り方と傾きを 0.5 増やしたときの尤度の減り方を想像すればこれはわかるでしょう。

ちなみにプロデューサーさんが Figure 2.1 を再現しました（gist）。

f:id:cookie-box:20210130162410p:plain:w590

暇か。

ただもちろん線形モデルでは表現力が乏しいので、簡単に表現力をもたせる手法として入力 $x$ を基底関数 $\phi(x)$ で適当な高次元空間に送ればよい、と続く 2.1.2 節にありますね。 $\phi(x) = (1, x, x^2, x^3)^\top$ などとしてしまえばいいわけです。後の方の5章ではこの基底関数をどのように選ぶべきかという話題が出てくるようですが、さしあたり適当な基底関数が既に手に入っているものとします。いまや計画行列は $N \times n$ 行列 $\Phi = \Phi(X)$ となり、モデルは $f(x) = \phi(x)^\top w$ となりました。予測分布はどうなりますか？

どうなるって、 $X$ が $\Phi$ になるだけだよな。平均が $\phi(x_\ast)^\top \sigma_n^{-2}(\sigma_n^{-2} \Phi \Phi^\top +\Sigma_p^{-1} )^{-1} \Phi y$ で分散共分散行列が $\phi(x_\ast)^\top (\sigma_n^{-2} \Phi \Phi^\top +\Sigma_p^{-1} )^{-1} \phi(x_\ast)$ のガウス分布なんじゃ。

ええしかし、 $N \times N$ 行列 $\sigma_n^{-2} \Phi \Phi^\top +\Sigma_p^{-1}$ の逆行列を求めなければならないのがネックです。より表現力の高い基底関数を利用しようとするほど $N$ は大きいはずですし。

そうかもだけど仕方ないだろ。

思い出してください。多変量正規分布の積を平方完成した多変量正規分布の分散共分散行列を計算するときに工夫したことがありませんでしたか？

雑記： Schur 補行列と Sherman-Morrison-Woodbury の公式とカルマンフィルタとガウス過程回帰の整理 - クッキーの日記

そんなことやった覚えな…うわあやってる。

以下を今回の場合にあてはめてみましょう。

以下のサイズの行列 $A, \, B, \, C, \, D$ があるとき、
$A \in \mathbb{R}^{n \times n}, \quad B \in \mathbb{R}^{n \times m}$
$C \in \mathbb{R}^{m \times n}, \quad D \in \mathbb{R}^{m \times m}$ 以下の恒等式で逆行列がとられている行列に逆行列が存在するならば、以下の恒等式が成り立ちます。 $(A + BDC)^{-1} = A^{-1}-A^{-1}B(D^{-1}+CA^{-1}B)^{-1}CA^{-1}$ これを Sherman-Morrison-Woodbury の公式といいます。

	カルマンフィルタのフィルタ操作	線形基底関数モデルのベイズ推定
更新する分布	現在の観測に基づいて状態 $x_t$ の分布を前ステップでの一期先予測から更新したい	訓練データに基づいてパラメータ $w$ の分布を事前分布から事後分布に更新したい
$(A + BDC)^{-1}$	フィルタ分布の分散共分散行列 $({V_{t\|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t)^{-1}$ $= V_{t\|t-1}$ $\quad - V_{t\|t-1} {H_t}^{\top} (H_t V_{t\|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t\|t-1}$	事後分布の分散共分散行列 $(\Sigma_p^{-1} + \sigma_n^{-2} \Phi \Phi^\top)^{-1}$ $= \Sigma_p$ $\quad - \Sigma_p \Phi (\Phi^\top \Sigma_p \Phi + \sigma_n^{2} I)^{-1} \Phi^\top \Sigma_p$
$A$	前回の一期先予測の分散共分散行列の逆行列 ${V_{t\|t-1}}^{-1}$	事前分布の分散共分散行列の逆行列 $\Sigma_p^{-1}$
$B = C^\top$	システムの転置 ${H_t}^{\top}$	計画行列 $\Phi$
$D$	観測ノイズの分散共分散行列の逆行列 ${R_t}^{-1}$	モデルの分散共分散行列の逆行列 $\sigma_n^{-2} I$

なので $n \times n$ 行列の逆行列を求めるので済むようになるわけです。 $n$ もデータ数なので大きいイメージがありますが、それより $N$ がずっと大きいケースを想定しています。こうしてみると、計画行列 $\Phi$ はパラメータ $w$ の側からみれば自分を $y$ に変換してくれるシステムなんですね。

というわけで改めて予測分布の分散共分散行列をかき直すとこうです。教科書に倣って $K = \Phi^\top \Sigma_p \Phi$ としました。

$\begin{split} \phi(x_\ast)^\top (\sigma_n^{-2} \Phi \Phi^\top +\Sigma_p^{-1} )^{-1} \phi(x_\ast) &= \phi(x_\ast)^\top \Sigma_p \phi(x_\ast) -\phi(x_\ast)^\top \Sigma_p \Phi (\Phi^\top \Sigma_p \Phi + \sigma_n^{2} I)^{-1} \Phi^\top \Sigma_p \phi(x_\ast) \\ &= \phi(x_\ast)^\top \Sigma_p \phi(x_\ast) -\phi(x_\ast)^\top \Sigma_p \Phi (K + \sigma_n^{2} I)^{-1} \Phi^\top \Sigma_p \phi(x_\ast) \end{split}$ それで、予測分布の平均については Sherman-Morrison-Woodbury の公式は要りませんでした。逆行列の前後に付いているのを逆行列の中に押し込めてみましょう。初手で $\Phi \Phi^\top$ を破壊できるんですよね。そもそも $(A + BDC)^{-1}$ の $BDC$ の部分が邪魔で崩したくて Woodbury の公式を使おうとなるんですが、勝手に崩れました。 $\begin{split} \phi(x_\ast)^\top \sigma_n^{-2}(\sigma_n^{-2} \Phi \Phi^\top +\Sigma_p^{-1} )^{-1} \Phi y &= \phi(x_\ast)^\top (\Phi^\top +\sigma_n^{2} \Phi^{-1} \Sigma_p^{-1} )^{-1} y \\ &= \phi(x_\ast)^\top ( (\Phi^\top \Sigma_p +\sigma_n^{2} \Phi^{-1}) \Sigma_p^{-1} )^{-1} y \\ &= \phi(x_\ast)^\top ( (K +\sigma_n^{2}I ) \Phi^{-1} \Sigma_p^{-1})^{-1} y \\ &= \phi(x_\ast)^\top \Sigma_p \Phi ( K +\sigma_n^{2}I )^{-1} y \end{split}$ なので、元より逆行列の中身が $n \times n$ 行列で済んでいます。

つづいたらつづく

2021-01-04

雑記：モデルをアンサンブルしたい話（その2―カステラ本7.11節、8.2節、8.4節、8.8節、10.1～10.4節）

雑記

私の誤りは私に帰属します。お気付きの点がありましたらお手数ですがご指摘いただけますと幸いです。

テキスト（カステラ本）

統計的学習の基礎 ―データマイニング・推論・予測― | Trevor Hastie, Robert Tibshirani, Jerome Friedman, 杉山将, 井手剛, 神嶌敏弘, 栗田多喜夫, 前田英作, 井尻善久, 岩田具治, 金森敬文, 兼村厚範, 烏山昌幸, 河原吉伸, 木村昭悟, 小西嘉典, 酒井智弥, 鈴木大慈, 竹内一郎, 玉木徹, 出口大輔, 冨岡亮太, 波部斉, 前田新一, 持橋大地, 山田誠 |本 | 通販 | Amazon の 256～257, 326～327ページ。

関連記事

まとめ（解釈を含む）

並行世界の自分が学習したモデルを取り寄せればバリアンスを小さくできる。が、そんなことはできないので自分で並行世界をつくり出す方法がブートストラップ法である（そのモデルたちを平均するのがバギングである）。
カテゴリ値を取るデータの標本 $Z$ からのノンパラメトリックブートストラップ標本は、「標本 $Z$ に対して、 $Z$ 内の各カテゴリの割合を生成したディリクレ分布をベイズ推定して、各カテゴリの割合がその事後分布に（ほぼ）したがうように標本をサンプリングする」ことをしたものであるといえる。ことから、バギングしたモデルは近似的にモデルのベイズ事後分布の平均であるとみなせる（ので普通に訓練したモデル＝MAP推定より2乗誤差が小さくなることが見込める）。
もっともベイズ事後平均を取るのであれば、異なるモデルたちを候補にしてもよい。そのときモデルを足し合わせる重みはBIC（「どのモデルがこの訓練データに対して最も尤もらしいか」という指標だった）を用いてもよいし、直接最適な重みを推定してもよい（スタッキング）。
そもそも足し合わせる各モデルが同じ標本を学ばなくてもよい。1つ前のモデルが誤分類したデータを重点的に学んでいくのがブースティング法の最も基本的なアルゴリズムであるアダブーストM1である。アダブーストM1は前向き段階的加法的モデリングにおいて指数損失を採用しても導出される。というより、前向き段階的加法的モデリングを解く手法全般をブースティングという。

キャラクターの原作とは無関係です。

前回は「並行世界の自分が学習したモデルを取り寄せればバリアンスを小さくできる。が、そんなことはできないので自分で並行世界をつくり出す方法がブートストラップ法である」というところまででしたね。

だいぶブートストラップ法に対する語弊がないかそれ…。そもそもブートストラップ法って何？自分で並行世界をつくるなんてことしていいの？

テキストでブートストラップ法が最初に出てくるのは286ページの7.11節ですね。前回もいった通りここでのブートストラップ標本とは「訓練データ $Z = \bigl\{ (x_1, y_1), \cdots, (x_N, y_N)\bigr\}$ から $N$ 点を復元抽出する」ことを $B$ 回繰り返して $B$ セットの新しい標本 $Z^{\ast 1}, Z^{\ast 2}, \cdots, Z^{\ast B}$ を得たものです。復元抽出なので元の訓練データの点はある $Z^{\ast b}$ に複数回抽出されていることもありますし、1回も抽出されていないこともあります。カギカッコ内は「訓練データの経験分布から $N$ 点生成する」といっても同じですね。なお、これはあくまでノンパラメトリックブートストラップといわれる方法であって、ブートストラップ標本を得る方法は他にも色々あります（テキスト302ページのノイズを添加する方法など）。より一般に、訓練データ自体を用いて並行世界たちの訓練データを複製する方法であればブートストラップ法のようです。そもそもブートストラップとは靴の後部の小さなつまみのことで、"pull oneself up by one's bootstraps" という慣用句で「他人の助けを借りずに自力で達成する」という意味であるようです。ので、この訓練データだけから新たな標本を生成する方法がブートストラップ法と名付けられたのでしょう。初出は1979年とか。

そういう手法なので、期待値や分散や信頼区間のモンテカルロ推定に利用されるのがメインなのではないでしょうか。7.11節に出てくるブートストラップ法の用法は以下ですね。汎化誤差の期待値の推定は込み入っています。ブートストラップ標本は元の標本の点を全ては含んでいませんから、そのディスアドバンテージ分をどう補ってやるかということになってくるようですね。

訓練データから計算される何らかの量 $S(Z)$ の分散を推定するのに、 $B$ 個のブートストラップ標本上の不偏分散でもって推定値とする。
汎化誤差を推定するのに、 $B$ 個のブートストラップ標本で学習したモデル $\hat{f}^{\ast 1}, \cdots, \hat{f}^{\ast B}$ による平均予測誤差の、全訓練データの平均を推定値 $\widehat{\rm Err}^{(1)}$ とする。なお、各 $x_i$ の平均予測誤差を出す際、点 $x_i$ を訓練データとして参照したモデルはとばす。また、この推定値には亜種がある（以下）。

上の推定値では、「個々の $\hat{f}^{\ast 1}, \cdots, \hat{f}^{\ast B}$ は本来の約63.2%のデータしか学べていない（ので汎化誤差を過大評価しているかもしれない）」という問題点がある。これを緩和するために、訓練誤差を36.8%混ぜる（このようになる導出はあるらしい）。これを $\widehat{\rm Err}^{(0.632)}$ とする。
上の推定値でも、「過学習のために訓練誤差が小さくなりすぎているかもしれない（ので訓練誤差を混ぜると逆に過小評価になるかもしれない）」という問題点がある。そこで、「相対過学習率」を、「 $\widehat{\rm Err}^{(1)}$ から訓練誤差を引いたもの」を「でたらめな正解ラベルを付けたときのそのモデルの予測誤差から訓練誤差を引いたもの」で割ったものとして定義する。「相対過学習率」が大きいほど $\widehat{\rm Err}^{(1)}$ を信用する。これを $\widehat{\rm Err}^{(0.632+)}$ とする。

ブートストラップ標本は元の標本の点を全ては含んでいないというのに関連して、元の標本が $N$ 点であったときにあるブートストラップ標本にある点が選ばれる確率は以下ですね。

def arutenga_erabareru_kakuritsu(N):
    p = 1.0 - 1.0 / float(N)  # 1回の抽出で自分以外の点が選ばれる
    p_total = 1.0  # N回の抽出すべてで自分以外の点が選ばれる
    for i in range(N):
        p_total *= p
    return 1.0 - p_total

ある点が選ばれない確率は $N = 1$ で $0$ 、 $N = 2$ で $0.25$ で、 $N \to \infty$ の極限でネイピア数の逆数になります。 $N' = -N$ とおけば $(1-1/N)^N = [ (1+1/{N'})^{-N'} ]^{-1} \xrightarrow[-N' \to - \infty ]{} e^{-1}$ ですから。
ただ7.11節にブートストラップ標本によって推定することがどのように正当かという記述はありませんね。そのような話題は8章にあるようです。以下にまとめます。文字の定義はテキストを参照してください。

真の値のノイズが加法的でガウシアンなときに、パラメトリックブートストラップ標本で学習したモデルの期待値が最尤推定の結果と一致する（8.2節）。
ガウス分布 $N(\theta, 1)$ の期待値 $\theta$ をベイズ推定する状況（ $\theta$ の事前分布も事後分布もガウス分布）では、事前分布の分散を無限大にすると（無情報事前分布）、ある点 $z$ を観測したときの事後分布が $N(z,1)$ となるが、パラメトリックブートストラップ標本はこの事後分布から1点 $\theta'$ をサンプリングして $N(\theta', 1)$ を得てそれの期待値を採用したものとみなせる（8.4節）。

つまり、パラメトリックブートストラップ標本は、「各点 $z$ に対して、 $z$ を生み出したのは $N(z,1)$ なんだろうなとベイズ推測して、その分布から点をサンプリングする」ことを各点に対してしたものであるといえる。

カテゴリ数が $L$ のカテゴリカルなデータの標本を得たとする。各カテゴリが生成される割合 $w$ の事前分布をすべてのカテゴリの集中度母数が0の極限のディリクレ分布とすると、事後分布はすべてのカテゴリの集中度母数が標本内での観測数であるディリクレ分布となるが、ノンパラメトリックブートストラップ標本内の各カテゴリの割合がしたがう分布（標本内の観測割合を母数にもつ多項分布）はこれに近い（平均が等しく分散共分散がほぼ等しい）（8.4節）。

つまり、ノンパラメトリックブートストラップ標本は、「標本 $Z$ に対して、 $Z$ 内の各カテゴリの割合を生み出したのは ${\rm Dir} (N \hat{w})$ なんだろうなとベイズ推測して、各カテゴリの割合がその分布にほぼ近くなる方法で標本をサンプリングする」ことをしたものであるといえる。

文字に色を付けた部分の気持ちになれば、天下りでなく演繹的にブートストラップ法にたどり着けるような気がするかもしれません。僕はしませんが。

しないのかよ！？あと、「ほぼ等しい」ってなんか中途半端じゃない？どれくらい等しいの？？

テキストにそうかいてあるものはかいてありますから…まあ確かめますか。 ${\rm Dir} (N \hat{w})$ にしたがう $\tilde{w}$ の分散は $\hat{w}_i (1 - \hat{w}_i) / (N + 1)$ で、 $N$ 倍が ${\rm Multi}(N, \hat{w})$ にしたがう $\tilde{w}$ の分散は $\hat{w}_i (1 - \hat{w}_i) / N$ ですから近いですね。共分散は $-\hat{w}_i \hat{w}_j / (N + 1)$ と $-\hat{w}_i \hat{w}_j / N$ なので近いです。

確かに近いな。じゃあこの状況でのブートストラップ法はほぼベイズ推定なんだ。

はい、テキスト8.8節「モデルの平均と統合」の冒頭にも「バギングしたモデルは近似的なベイズ事後平均になっていることがわかる」のような文があります。対して、普通に訓練したモデルはベイズ事後分布の最頻値をとっていることに対応すると。そして、2乗誤差に対して最適なのはベイズ事後平均です。ということからも、バギングすることで2乗誤差を小さくできることが見込まれます。これが一応の「自分で並行世界をつくるなんてことをしていいのか」に対する答えになるのではないかと。

そういわれるとそうなのか。

さらに8.8節では「平均する個々のモデルを異なるモデルにしたらどうだろうか」という議論を巡らせています。どう思いますか？

えっ、そんな、別々のモデルにしちゃったら、モデルたちはベイズ事後分布をなさないよな…「並行世界の自分にモデルをもらったけど並行世界の自分が学習したのは違うモデルだった」ってなったら、自分のモデルとどっちが尤もらしいかってわからないわけだし…それじゃ平均したら駄目なんじゃないの？

ええ、どちらが尤もらしいかわかりませんね。でも、前々回に、「どのモデルがこの訓練データに対して最も尤もらしい？」という指標を取り扱いませんでしたか？

あ、BIC…。

はい、そのような場合は BIC が利用できるとあります。また、より直接的に、「どのモデルにどれだけ重みを割り振れば誤差が最も小さくなる？」と重みを最適化するのが331ページ下部で紹介されているスタッキングです。ここで、モデル $m$ の $i$ 番目のデータに対する誤差の計算時には $i$ 番目のデータのみを除いた訓練データで学習したモデル $m$ を用意し、それで予測します。明確に記述されていませんが、データ数×モデル数だけ学習することになるので、結構面倒そうな気はします。

それで、バギングの重要例であるランダムフォレストは15章で掘り下げられています（ただ、ランダムフォレストでは決定木の分岐点を決めるときに特徴量もランダムに絞り込んでさらにバリアンスを下げる工夫をしているのでバギングというのかバギングの改造版というのかわかりませんが）。

さておき、ここまでで、「モデルを平均するとよい」「異なるモデルを異なる重みで平均してもよい」というところまできたわけです。であれば、その重みは入力空間内の点によっても異なっていいと思いませんか？いい換えると、ある場所ではモデル1が重く、ある場所ではモデル2が重いといったように、あたかも得意不得意で役割分担するイメージです。

その点で予測誤差が小さいモデルを重くするってこと？さすがにそれは後出しじゃんけんじゃない？というか、その点のノイズに引っ張られまくる気が。

いえ、ブートストラップ標本で学習したモデルでそれをやるということではないです。あるモデルはある場所から重点的にサンプリングした訓練データで学習し、また別のあるモデルは別の場所から重点的にサンプリングした訓練データで学習し…といったイメージです。それも入力空間を適当に区切るわけではなく、まだ上手く学習できていない箇所に重点を置きにいくんです。もはや個々のモデルの訓練データが異なるということです。…もうネタばらししてしまうんですが、10章のブースティング法がその手法です。その最も基本的なアルゴリズムである、アダブーストM1（10.1節）が以下です。ゴールは2クラス分類問題を解くことで、各分類器 $G_m(x)$ は $-1$ か $1$ を出力するという状況です。

各データの重み $\{w_i\}_{i=1}^N$ を均等に初期化する。
重み $\{w_i\}_{i=1}^N$ で分類器 $G_1(x)$ を学習する。
$G_1(x)$ の重み付き誤分類率 ${\rm err}_1$ を計算し、正解しやすさの対数オッズ $\alpha_1 = \log \bigl( (1 - {\rm err}_1)/{\rm err}_1 \bigr)$ を計算する。
各データの重みを更新する。 $G_1(x)$ が正しく予測できたデータの重みは更新しない。 $G_1(x)$ が正しく予測できなかったデータの重みには $e^{\alpha_1}$ をかける。
2. に戻る（更新した重み $\{w_i\}_{i=1}^N$ で分類器 $G_2(x)$ を学習する）。
最終的な予測モデルを $G(x) = {\rm sign} \bigl[ \sum_{m=1}^M \alpha_m G_m(x) \bigr]$ とする。

「正しく予測できなかったデータの重みを増幅しておく（ことで次以降のモデルに託す）」ことをやっているのがわかると思います。また、重みの増幅率やモデルを足し合わせる係数に対数オッズが出てくるのにも理由があります。

強引に10章にとんだな…。

ブースティングの話に触れておきたかったので。モデルのアンサンブルという文脈でバギングとブースティングが対比される場合が多いと思うんです。というよりは、ランダムフォレストと勾配ブースティング木が対比されるんでしょうか…しかし、テキスト10章の冒頭にもあるように両者は「本質的に異なる手法」なんです。どちらも決定木がたくさんあるくらいで。なので話を上手く10章にもっていけませんでした。なんていうか、一度「モデルを組み合わせよう」という気持ちを捨てた方がいい気がしますね。

うん、いきなりアダブーストM1っていわれてもブートストラップ標本が出てきたときより突拍子がないんだけど、ブートストラップ標本がベイズ推定から導出されるなら、そのアダブーストM1は何から導出されるの。

それが10.3節の「前向き段階的加法的モデリング」ですね。いま学習したいモデルが10.3式のように他のモデルの線形和でかけるとします。便宜上、足し合わせるモデルを弱学習器とよび、足し合わせたモデルを強学習器とよびます。10.3式のようなモデルは全てのパラメータを一気に最適化すべきですが、計算コストなどの問題でそれが上手くできないとき、弱学習器を1つずつ最適化できないかということになります。それが前向き段階的加法的モデリングに他なりません。391ページのアルゴリズム10.2です。

391ページのアルゴリズム10.2ね…って、387ページのアダブーストM1とだいぶ違わない？重みとか出てこないし。それに、アダブーストM1はステップ $m$ で学習した弱学習器の損失をみていたけど、この式だとステップ $m$ までの強学習器の損失って感じだし。

いえ、アルゴリズム10.2で $L$ を指数損失としてみましょう。そうする各ステップですべき最適化が10.9式になります。「ステップ $m$ までの強学習器の損失」が「重み」と「ステップ $m$ で学習した弱学習器の損失」の積になっていますよね。むしろ「重み付き誤分類率」とは「ステップ $m$ までの強学習器の損失」だったんです。だから重み付き誤分類率を最小化する弱学習器 $G_m(x)$ を学習すればいいんです。

なるほど。あれでも、弱学習器 $G_m(x)$ をどれだけの重みで強学習器に足せばいいんだ…って、10.12式か。え、これどうやって出すの？

演習10.1になっていますね…そうですね、以下で出ます。

$\sum_{i=1}^N w_i^{(m)} \exp \bigl( - \beta_m y_i G_m(x_i) \bigr)$ が最も小さくなればいいんですよね。
$\sum_{i \in {\rm OK}_m} w_i^{(m)} \exp \bigl( - \beta_m \bigr) + \sum_{i \in {\rm NG}_m} w_i^{(m)} \exp \bigl( \beta_m \bigr)$ と書き換えます。 ${\rm OK}_m$ は $G_m(x_i) = y_i$ であるインデックスの集合、 ${\rm NG}_m$ は $G_m(x_i) \neq y_i$ であるインデックスの集合とします。
$\beta_m$ についての微分がゼロなら $- \sum_{i \in {\rm OK}_m} w_i^{(m)} \exp \bigl( - \beta_m \bigr) + \sum_{i \in {\rm NG}_m} w_i^{(m)} \exp \bigl( \beta_m \bigr) = 0$ です。
よって $\exp \bigl( 2 \beta_m \bigr) \sum_{i \in {\rm NG}_m} w_i^{(m)} = \sum_{i \in {\rm OK}_m} w_i^{(m)}$ です。
よって $\displaystyle \beta_m =\frac{1}{2} \log \frac{ \sum_{i \in {\rm OK}_m} w_i^{(m)}}{\sum_{i \in {\rm NG}_m} w_i^{(m)}} =\frac{1}{2} \log \frac{ 1 - {\rm err}_m}{{\rm err}_m}$ です。

（その3があれば）つづく

2021-01-01

雑記：モデルをアンサンブルしたい話（その1―カステラ本7.3節、8.7節）

雑記

私の誤りは私に帰属します。お気付きの点がありましたらお手数ですがご指摘いただけますと幸いです。

テキスト（カステラ本）

統計的学習の基礎 ―データマイニング・推論・予測― | Trevor Hastie, Robert Tibshirani, Jerome Friedman, 杉山将, 井手剛, 神嶌敏弘, 栗田多喜夫, 前田英作, 井尻善久, 岩田具治, 金森敬文, 兼村厚範, 烏山昌幸, 河原吉伸, 木村昭悟, 小西嘉典, 酒井智弥, 鈴木大慈, 竹内一郎, 玉木徹, 出口大輔, 冨岡亮太, 波部斉, 前田新一, 持橋大地, 山田誠 |本 | 通販 | Amazon の 256～257, 326～327ページ。

関連記事

雑記：モデルを選択したい話（カステラ本7.4節～7.7節） - クッキーの日記

まとめ（解釈を含む；文字の定義は記事内を参照）

手元の訓練データでモデルを学習しある未知のデータ $x_0$ に対する2乗誤差を小さくしたいとする。手元の訓練データも $x_0$ 上の真の値も確率的なので、誤差 $f(x_0) + \varepsilon - \hat{f}(x_0)$ は確率変数であり、以下の3つの和で表せる。

$x_0$ 上の真の値がぶれる分（真の値のノイズ成分）： $\varepsilon$
訓練データのぶれによりモデル予測値が期待値に満たない分： $E\bigl[ \hat{f}(x_0)\bigr] - \hat{f}(x_0)$
モデル予測値が期待値であったとしても真の値に満たない分： $f(x_0) - E\bigl[ \hat{f}(x_0)\bigr]$ （これは確率的でない）

上の 1., 2., 3. の和の2乗を小さくしたい。が、確率的な成分があると議論しにくいので確率的な成分について期待値をとることにする。と、クロスタームは消え、1., 2., 3. の2乗の期待値の和だけが残る。このうち 1. の2乗はモデル側で小さくできないので、モデル側で小さくしうる項として 2. の2乗の期待値と 3. の2乗が残る。この前者をバリアンス、後者をバイアスの2乗とよぶ。
よって、期待2乗誤差を小さくするにはバリアンスとバイアスを小さくすればよいが、典型的なモデルで両者はトレードオフの関係にあり、一方を小さくすれば他方が大きくなるとわかる（具体的にはリッジ線形回帰など）。よって、手元の訓練データでモデルを学習する分にはこれらのバランスを取るように適当に正則化などするしかない。
ここで仮にもし、並行世界（この世界とは異なる訓練データが得られた世界）たちの自分から学習済みのモデルを取り寄せることができるなら、集めたモデルたちの出力の平均を取って新たなモデルとすることでバリアンスを抑えることができる（※ 複数のモデルの出力の平均を新たな出力にできる場合）。
しかし、並行世界たちの自分から学習済みのモデルを取り寄せることはできない。
そこで、手元で仮想的な並行世界たちをつくり、そこで学習したモデルたちを平均することが考えれる。特に、訓練データからブートストラップ標本たちを生成することによりそれを達成する手法はバギング（bagging: bootstrap aggregating）といわれる。

キャラクターの原作とは無関係です。

そういえば、カステラ本の7章でとばした箇所にあった、「バイアスと分散のトレードオフ」って何？

以下の問題を考えてみてください。どうなりますか？

ある世界では、気温 $X$ の日のアイスクリームの売り上げ $Y$ が $Y = f(X) + \varepsilon$ になるとします。

$f(\cdot)$ は決定的な関数で、 $\varepsilon$ は確率的な誤差で、 ${\rm E}(\varepsilon)=0, \; {\rm Var}(\varepsilon)=\sigma^2$ とします。

さて、この世界で、ある日の気温が $x_0$ でした。この日の売り上げを予測モデル $\hat{f}(\cdot)$ による予測値 $\hat{f}(x_0)$ で予測したときの期待2乗誤差はいくらでしょうか？なお、予測モデル $\hat{f}(\cdot)$ の確率的な成分は $\varepsilon$ と独立とします。

何その世界…ともかく、気温が $x_0$ の日の真の売り上げは $f(x_0) + \varepsilon$ だよな。それで、いま確率的なのは、 $\varepsilon$ と… $\hat{f}(x_0)$ もなのか。とりあえずこれらについての期待値を単に $E [ \cdot ]$ とかくと、期待2乗誤差は、

$\begin{split} E \Bigl[ \bigl( f(x_0) + \varepsilon - \hat{f}(x_0) \bigr)^2 \Bigr] &= E \Bigl[ f(x_0)^2 + \varepsilon^2 + \hat{f}(x_0)^2 + 2 f(x_0) \varepsilon - 2 f(x_0)\hat{f}(x_0) - 2 \hat{f}(x_0) \varepsilon \Bigr] \\ &= f(x_0)^2 + \sigma^2 + E \Bigl[ \hat{f}(x_0)^2 \Bigr] - 2 f(x_0) E \Bigl[ \hat{f}(x_0) \Bigr]\end{split}$

こうなるよな。 $f(x_0)$ は確率的じゃないし、独立な確率変数の積の期待値は期待値の積だし。

はい、間違っていませんが、それだと解釈しづらいですよね。「真の値の2乗とノイズの分散と予測値の2乗の期待値から真の値と予測値の期待値の積を引いたものです」といわれても。なのでこうしましょう。

$\begin{split} E \Bigl[ \bigl( f(x_0) + \varepsilon - \hat{f}(x_0) \bigr)^2 \Bigr] &= f(x_0)^2 + \sigma^2 + E \Bigl[ \hat{f}(x_0)^2 \Bigr] - 2 f(x_0) E \Bigl[ \hat{f}(x_0) \Bigr] \! - \! E \Bigl[ \hat{f}(x_0) \Bigr]^2 \! \! \! \! + \! E \Bigl[ \hat{f}(x_0) \Bigr]^2 \! \! \\ &= f(x_0)^2 + \sigma^2 + V \Bigl[ \hat{f}(x_0)^2 \Bigr] - 2 f(x_0) E \Bigl[ \hat{f}(x_0) \Bigr] \! + \! E \Bigl[ \hat{f}(x_0) \Bigr]^2 \\ &= \biggl\{f(x_0) - E \Bigl[ \hat{f}(x_0) \Bigr] \biggr\}^2 + V \Bigl[ \hat{f}(x_0)^2 \Bigr] + \sigma^2 \\ &= E \Bigl[ f(x_0) - \hat{f}(x_0) \Bigr]^2 + V \Bigl[ \hat{f}(x_0)^2 \Bigr] + \sigma^2 \end{split}$

こうすると「誤差の期待値（バイアス）の2乗と、予測値の分散（バリアンス）と、ノイズの分散の和」となりますよね。最初から予測値を期待値からのずれにしておけば一発ですけどね（以下）。

$\begin{split} E \biggl[ \Bigl( f(x_0) + \varepsilon - \hat{f}(x_0) + E \Bigl[ \hat{f}(x_0) \Bigr] - E \Bigl[ \hat{f}(x_0) \Bigr] \Bigr)^2 \biggr] &= \biggl\{f(x_0) - E \Bigl[ \hat{f}(x_0) \Bigr] \biggr\}^2 + V \Bigl[ \hat{f}(x_0)^2 \Bigr] + \sigma^2 \\ &= E \Bigl[ f(x_0) - \hat{f}(x_0) \Bigr]^2 + V \Bigl[ \hat{f}(x_0)^2 \Bigr] + \sigma^2 \end{split}$

何にせよ、2乗誤差を下図のように区分けして各マスの期待値をとっているだけです。

f:id:cookie-box:20201228135133p:plain:w500

俺に計算させた意味！あと図がごちゃごちゃしすぎ！！そもそもさ、期待2乗誤差が「誤差の期待値（バイアス）の2乗と、予測値の分散（バリアンス）と、ノイズの分散の和」だったら何なの？何かうれしいの？

「期待2乗誤差を小さくしたいなら、バイアスとバリアンスが小さいモデルにすべきである」といえるでしょう。ノイズはコントロールできませんから。

ああそういうことか。「ある点に対する誤差の期待値も小さいし、予測値自体もぶれないモデル」にすべきってことなんだな…って、いまいちどうすればいいかわからないんだけど？

実際にバイアスやバリアンスを小さくするにはどうすればいいのだろうと考えてみましょう。一般的な傾向として、トレードオフがありそうなことに気付くでしょう。

まず、バイアス＝誤差の期待値を小さくするためには、手元の訓練データ上での誤差を徹底的に小さくするべきです。モデルをいくら複雑にしてもです。だって、精度を上げる余地があるのに手加減してしまったら、その分の誤差を詰められませんから。
しかし、バリアンス＝予測値のぶれを小さくするには、手元の訓練データを徹底的に学ぶのは得策ではありません。なぜなら、訓練データはたまたま出たノイズを含みます。そのノイズまでしっかり学習してしまうようなモデルは、ノイズの出方によって予測値がぶれてしまいます。ぶれを抑えるには、あえて細かく学習させない工夫が要るでしょう。学習対象パラメータを制約してしまうのがその最たる例です。

実際、カステラ本の256～257ページに載っている、具体的なモデルでのトレードオフの例が以下の表の最初の3つです。 $k$ 近傍法では $k$ の大小によってトレードオフが発生し、最小2乗線形回帰ではリッジ正則化をかける大きさ $\lambda$ によってトレードオフが発生すると考えられます。 $k, \lambda$ を大きくするほどモデルが滑らかになり、小さくするほどモデルがでこぼこになるのが想像できると思います。また、以下の表の最後2つはウィキペディアにあった例です。

モデル $\hat{f}$	バイアス（誤差の期待値）	バリアンス（予測値の分散）
手元の訓練データから予測対象点 $x_0$ の最近傍 $k$ 点を選び、それらの点の実績値の平均値を予測値とするモデル。	$k$ を大きくするほど $x_0$ から離れた点が混ざってきてバイアスは大きくなる傾向にある。	$k$ を大きくするほど多くの点の実績値の平均を取るのでバリアンスは小さくなる傾向にある。
手元の訓練データで最小2乗線形回帰したモデル。つまり、 $\hat{f}(x_0) = x_0^\top (X^\top X)^{-1} X^\top Y$ とする。横ベクトル $h(x_0)=x_0^\top (X^\top X)^{-1} X^\top$ の各成分は、各データの実績値をどれだけの重みで取り込むべきかを意味する。	バイアスは「真のモデルと最良の線形近似との誤差の期待値」と「最良の線形近似といまの線形近似との誤差の期待値」に分解できる。後者は、何度も訓練データを取って学習したモデルの期待値をとれば、ゼロになる。	$\\|h(x_0)\\|^2 \sigma^2$ になる。
1つ上のモデルをリッジ正則化する。つまり、 $\hat{f}(x_0) = x_0^\top (X^\top X + \lambda I)^{-1} X^\top Y$ とする。	リッジ正則化したことにより「最良の線形近似といまの線形近似との誤差の期待値」はゼロにならなくなる。	$h(x_0)$ の逆行列の箇所に $\lambda I$ が加わった分、バリアンスは小さくなる。
ニューラルネットワーク。	例えば隠れ層のニューロン数を増やすとバイアスは小さくなる。	例えば隠れ層のニューロン数を増やすとバリアンスは大きくなる。
決定木。	例えば木を深くするとバイアスは小さくなる。	例えば木を深くするとバリアンスは大きくなる。

確かにその表の例だと、バイアスを下げるとバリアンスが上がって、バリアンスを下げるとバイアスが上がる傾向がありそうだな。これがトレードオフか…でも、それだと結局「期待2乗誤差が小さくなるように適宜ハイパーパラメータを調節しましょう」ってことにならない？いまいちバイアスとバリアンスに分解した甲斐がないっていうか…。

確かにそうですね。でも、例えば…ハヤトはここ1年の毎日の気温とアイスクリームの売り上げのデータをもとに、アイスクリーム売り上げ予測モデルを学習しました。そこにランプの精が現れていいました。「私は並行世界から来ました。並行世界のあなたが学習したモデルを差し上げます。並行世界の気温とアイスクリームの売り上げを生成する分布はこの世界と同じです。しかしこの世界と実現値はきっと異なるでしょう。予測に用いたモデルと学習方法はあなたと全く同じです」と。ちなみに同様のランプの精が計9人現れました。そしてハヤトは手元に自分が学習したモデル1つと、並行世界の自分が学習したモデル9つの、計10個のモデルを手に入れました。どうしますか？

ええ…まあ突っ込みはさておき、同じモデルならバイアスもバリアンスも同じだからどれがよいモデルとかないよな。まあモデルが10個あるならなんか平均してみたくなるけど。

ではモデルを平均しましょう。そうすると平均2乗誤差が小さくなることこそあれ、大きくなることはないとテキストの326～327ページにあります。訓練データを生成する分布を $\mathcal{P}$ とし、この世界のハヤトが学習したモデルを $\hat{f}^\ast(x)$ とし、それとあらゆる並行世界のハヤトたちが学習したモデルを平均したモデルを $f_{\rm ag}(x) = E_{\mathcal{P}} \bigl[\hat{f}^\ast(x)\bigr]$ とします。 $E_{\mathcal{P}} \bigl[\cdot\bigr]$ は色々な訓練データを得ることについての期待値です（と思っています）。すると、ある $(x,y)$ に対する2乗誤差の期待値について以下の不等式が成り立ちます（テキストでは $y$ が確率変数であるようにかかれていますが、この議論はどちらかというとある $y$ についてのものではないかと思っていますが、間違っていたらすみません）。

$\begin{split} E_{\mathcal{P}} \Bigl[ \bigl( y - \hat{f}^\ast(x) \bigr)^2 \Bigr] &= E_{\mathcal{P}} \Bigl[ \bigl( y- f_{\rm ag}(x) + f_{\rm ag}(x) -\hat{f}^\ast(x) \bigr)^2 \Bigr] \\ &= E_{\mathcal{P}} \Bigl[ \bigl( y - f_{\rm ag}(x)\bigr)^2 + \bigl( f_{\rm ag}(x) -\hat{f}^\ast(x) \bigr)^2 + 2\bigl( y - f_{\rm ag}(x)\bigr) \bigl( f_{\rm ag}(x) -\hat{f}^\ast(x) \bigr) \Bigr] \\ &= \bigl( y - f_{\rm ag}(x)\bigr)^2 + E_{\mathcal{P}} \Bigl[ \bigl( f_{\rm ag}(x) -\hat{f}^\ast(x) \bigr)^2 \Bigr] \\ &= \bigl( y - f_{\rm ag}(x)\bigr)^2 + V_{\mathcal{P}} \Bigl[ \hat{f}^\ast(x) \Bigr] \\ &\geqq \bigl( y - f_{\rm ag}(x)\bigr)^2 \end{split}$

つまり、1つのモデルの2乗誤差の期待値より、平均したモデルの2乗誤差の方が小さいか同じになります――モデルのバリアンスの分だけ。まあいまは $\mathcal{P}$ から生成されるあらゆる訓練データについて学習したモデルが手元にあるわけではなく、ある10セットの訓練データで学習したモデルが手元にあるだけですが、訓練データの出方の経験分布を $\mathcal{P}$ と考えれば話は同じはずです。

本当だ…あれでも、その論理だといつでも複数のモデルを平均した方がいいの？誤差を小さくしたかったら何でもいいから助っ人のモデルたちを用意すればいいってこと？？

ではありません。バイアスも平均されるわけですから、助っ人のモデルによってバリアンスが抑えられる以上にバイアスが増加したら意味がないです。何でもいいから寄せ集めればいいということにはなりません。

ああ確かに…いまは10個のモデルのバイアスの期待値が同じだから、10個のモデルを平均してもバイアスが増える心配はなかったのか。

それに、いまは回帰モデルで2乗誤差を損失とする場合でしたが、損失が異なる場合や、分類が目的の場合もありますよね。例えば個々のモデルが 0 か 1 を出力するような2値分類モデルであって、不正解率を損失とする場合、モデルをどうマージすればいいでしょうか。

えっ、うーん、個々のモデルが 0 か 1 を出しているなら、10個のモデルの出力を平均したらきっと 0.3 とか 0.6 とかになるよな。でも、正解か不正解をみたいなら最終的には 0 か 1 かを出さないといけないから…閾値を決めて、0.5 未満なら 0、0.5 以上なら 1 にするとか？ぴったり 0.5 はどう扱うべきか迷うけど…。

要は多数決ですね。しかしこの場合、マージすることが誤差を小さくすることにつながると限りません。テキスト327ページにある例ですが、あるデータの正解が 1 とします。そして、個々のモデルがこのデータに正しく 1 と出力できる確率が 0.4 とします。個々のモデルの正解率の期待値が 0.4 ということです。しかし、あらゆるモデルの多数決をとると必ず 0 を出力してしまいますね。4割のモデルが1、6割のモデルが0と判定するので。なので、多数決によって正解率がかえって 0 になってしまうのです。個々のモデルの正解率の期待値が 0.6 なら多数決によって正解率が 1 になるんですが。多数決を取る場合、多数派がよい予測をしていなければならないんです。こうかいてみると当然ですが。

なら、バイアスを小さくする方に振ってバリアンスはモデルの平均で抑えにいくのがいいってことなのか…って、いや、現実には並行世界からランプの精こないじゃん！

いかにも。なので、並行世界を自分でつくるしかありません。それがブートストラップ標本です。ブートストラップ標本とは、 $N$ 個のデータから $N$ 個のデータを復元抽出（抽出したサンプルを元に戻して次のサンプルを抽出していく）することを $B$ 回繰り返して $B$ セットの標本を得たものです（301ページ；正確にはノンパラメトリックブートストラップですが）。

え、うーん、そんなんでいいの？確かに標本を複数用意できるけど、なんか自作自演みたいな…。

（その2があれば）つづく

2020-12-31

雑記：モデルを選択したい話（カステラ本7.4節～7.7節）

雑記

私の誤りは私に帰属します。お気付きの点がありましたらお手数ですがご指摘いただけますと幸いです。

テキスト（カステラ本）

統計的学習の基礎 ―データマイニング・推論・予測― | Trevor Hastie, Robert Tibshirani, Jerome Friedman, 杉山将, 井手剛, 神嶌敏弘, 栗田多喜夫, 前田英作, 井尻善久, 岩田具治, 金森敬文, 兼村厚範, 烏山昌幸, 河原吉伸, 木村昭悟, 小西嘉典, 酒井智弥, 鈴木大慈, 竹内一郎, 玉木徹, 出口大輔, 冨岡亮太, 波部斉, 前田新一, 持橋大地, 山田誠 |本 | 通販 | Amazon の261～269ページ。

その他の参考文献

(PDF) Model selection for ecologists: The worldviews of AIC and BIC の633ページ。

Akaike information criterion - Wikipedia から参照されており、AICとBICは目的が異なることを強調している。635ページの表に両者の対比がまとまっている。

まとめ（解釈を含む）

訓練データの被説明変数には独立に同一の分布にしたがう平均 0 のノイズがのっていると考える。と、その訓練データに最適化したモデルはたまたま出たノイズに引っ張られている可能性がある。したがって、訓練データ上の誤差（訓練誤差 $\overline{{\rm err}}$ ）でモデル間を比較するのは適切ではない。手元に訓練データしかないとしても、あらゆるノイズの出方に対する $\overline{{\rm err}}$ の期待値をとったもの（訓練標本内誤差 ${\rm Err}_{\rm in}$ ）で比較するべきである。
が、訓練標本内誤差 ${\rm Err}_{\rm in}$ は知り得ないので、あらゆるノイズの出方に対して最適化したときの期待値 $E_y \bigl[{\rm Err}_{\rm in}\bigr]$ を推定することになる。例えば線形回帰モデルで2乗誤差の和を損失としたときは、 $E_y \bigl[{\rm Err}_{\rm in}\bigr] = E_y \bigl[\overline{{\rm err}}\bigr] + 2d \sigma_\varepsilon^2/N$ になることがわかる（ $d$ は説明変数の次元数、 $\sigma_\varepsilon^2$ はノイズの分散、 $N$ は訓練データの個数）。ので、 $E_y \bigl[\overline{{\rm err}}\bigr]$ を計算可能な $\overline{{\rm err}}$ で代用した $\overline{{\rm err}} + 2d \sigma_\varepsilon^2/N$ を ${\rm Err}_{\rm in}$ の推定値とすればよい。 $2d \sigma_\varepsilon^2/N$ は「手元の訓練データにたまたま出たノイズを学んだせいで誤差が過小評価されている分を補完（？）するペナルティ項」といえる。
また、損失を交差エントロピーとしたときはより一般のモデルで漸近的に $E_y \bigl[{\rm Err}_{\rm in}\bigr] \approx E_y \bigl[\overline{{\rm err}}\bigr] + d/N$ が成り立つ（ $d$ はモデルの有効パラメータ数）。この右辺を $\overline{{\rm err}}$ で代用した $\overline{{\rm err}} + d/N$ は赤池情報量規準（AIC）とよばれる。
他方、元より「モデル候補 $\mathcal{M}_m \, (m=1, \cdots, M)$ のうち訓練データ $Z$ に対して最も尤もらしいモデルはどれか」を出発点に、ベイズ的にモデル選択しようとすることもできる。このとき、モデル候補 $\mathcal{M}_m$ のパラメータの最尤推定値を $\hat{\theta}_m$ とすると $\log {\rm Pr} (Z|\mathcal{M}_m) = \log {\rm Pr} (Z| \hat{\theta}_m, \mathcal{M}_m) - d_m \log N / 2 + O(1)$ が成り立つ（ $d_m$ はモデル候補 $\mathcal{M}_m$ の自由度）。これに基づいた $\overline{{\rm err}} + (d \log N )/N$ はベイズ情報量規準（BIC）とよばれる。
BICとAICはペナルティ項が $\log N$ 倍異なるが、手元のモデル候補のどれが真かを見出したいときはBICが、専ら予測誤差の最小化に興味があるときはAICが適していると考えられる。

キャラクターの原作とは無関係です。

モデルを選択するとき、何に注意してどう選択するべきなのかって気になりますよね。そこでカステラ本の7章が「モデルの評価と選択」であるようなんです。面倒なので261ページから読みましょう。

いや俺は気になっていないんだけど。とにかくテキストの261ページね…なんか誤差の定義がやたら多くない？訓練誤差とか汎化誤差とか期待誤差とか…。

モデルの誤差には「どの訓練データで学習したのか」「その訓練データにはどんなノイズがのっていたのか」「それをどのテストデータに適用したのか」がすべて関係してきますからね。何を固定して何を固定していないかによって呼び名を変えているようです。以下にまとめてみました。

訓練誤差 $\overline{{\rm err}} = \displaystyle \frac{1}{N} \sum_{i=1}^N L\bigl( y_i, \hat{f}(x_i) \bigr)$	訓練データ $\mathcal{T} = \bigl\{ (x_1, y_1), \cdots, (x_N, y_N) \bigr\}$ で学習したモデル $\hat{f}$ で訓練データを予測したときの予測誤差の平均値。 $\hat{f}$ は訓練データにたまたま出たノイズまで学習しがちなので、誤差の指標としては「あまりに楽観的（261ページ）」である。
訓練標本内誤差 ${\rm Err}_{\rm in} = \displaystyle \frac{1}{N} \sum_{i=1}^N E_{Y^0} \Bigl[ L\bigl( Y_i^0, \hat{f}(x_i) \bigr) \, \Big\| \, \mathcal{T} \Bigr]$	訓練データ $\mathcal{T}$ で学習したモデル $\hat{f}$ で訓練データを予測したときの予測誤差の、各データのノイズの出方に関する期待値の、平均値。訓練データ $\mathcal{T}$ を、たまたま出たノイズは学ばずに、きちんと学べたかという指標になる。興味があるのはこの指標ではなく汎化誤差だが、モデル間を相対比較する分にはこの指標が使用しやすい。訓練誤差を訓練標本内誤差にするための調整分としての最善度 ${\rm op} \equiv {\rm Err}_{\rm in} - \overline{{\rm err}}$ は「ノイズを学んでしまった分」となるがこれは直接推定できない。ふつうは訓練データの被説明変数に関する期待値を取った平均最善度 $\omega \equiv E_y \bigl[ {\rm op}\bigr]$ を推定する（「最善度」と名付けられている割に、大きいとよい指標ではなく、ゼロになるべき指標である）。
汎化誤差 ${\rm Err}_{\mathcal{T}} = E_{X^0, Y^0} \Bigl[ L\bigl( Y^0, \hat{f}(X^0) \bigr) \, \Big\| \, \mathcal{T} \Bigr]$	訓練データ $\mathcal{T}$ で学習したモデル $\hat{f}$ でテストデータ点 $(X^0, Y^0)$ を予測したときの予測誤差の、テストデータ点 $(X^0, Y^0)$ に関する期待値。（おそらく）この指標に最も興味があるが、訓練データ $\mathcal{T}$ しか手元にない以上これを直接推定することはできない。
期待誤差 ${\rm Err} = E_{\mathcal{T}} E_{X^0, Y^0} \Bigl[ L\bigl( Y^0, \hat{f}(X^0) \bigr) \, \Big\| \, \mathcal{T} \Bigr]$	汎化誤差の、訓練データ $\mathcal{T}$ の取り方に関する期待値。

そして、2乗損失や0/1損失など色々な損失で $\omega = (2/N) \sum_{i=1}^N {\rm Cov}(\hat{y}_i, y_i)$ が成り立つそうです。2乗誤差の場合でこれを示せというのが演習問題になっていますね。ハヤト、試しに示してみますか？

えっ、まずその $\omega$ が何なのかよくわかっていないんだけど…まあどのみち先に ${\rm Err}_{\rm in}$ と $\overline{{\rm err}}$ が要るみたいだから、 $L$ を2乗誤差にすると、

$\begin{split} {\rm Err}_{\rm in} &= \displaystyle \frac{1}{N} \sum_{i=1}^N E_{Y^0} \Bigl[ \bigl( \hat{f}(x_i) - Y_i^0 \bigr)^2 \, \Big| \, \mathcal{T} \Bigr] \\ &= \frac{1}{N} \sum_{i=1}^N \hat{f}(x_i)^2 + \frac{1}{N} \sum_{i=1}^N E_{Y^0} \Bigl[(Y_i^0)^2 \, \Big| \, \mathcal{T} \Bigr] - \frac{2}{N} \sum_{i=1}^N E_{Y^0} \Bigl[ Y_i^0 \, \Big| \, \mathcal{T} \Bigr] \hat{f}(x_i) \\ &= \frac{1}{N} \sum_{i=1}^N \hat{f}(x_i)^2 + E_{Y^0} \Bigl[ (Y_i^0)^2 \, \Big| \, \mathcal{T} \Bigr] - \frac{2}{N} E_{Y^0} \Bigl[ Y_i^0 \, \Big| \, \mathcal{T} \Bigr] \sum_{i=1}^N \hat{f}(x_i) \\ \overline{{\rm err}} &= \displaystyle \frac{1}{N} \sum_{i=1}^N \bigl(\hat{f}(x_i) - y_i \bigr)^2 \\ &= \frac{1}{N} \sum_{i=1}^N \hat{f}(x_i)^2 + \frac{1}{N} \sum_{i=1}^N y_i^2 - \frac{2}{N} \sum_{i=1}^N y_i \hat{f}(x_i) \end{split}$

こうなるよな。これを ${\rm op} \equiv {\rm Err}_{\rm in} - \overline{{\rm err}}$ に代入して、

$\begin{split} {\rm op} &= E_{Y^0} \Bigl[ (Y_i^0)^2 \, \Big| \, \mathcal{T} \Bigr] - \frac{2}{N} E_{Y^0} \Bigl[ Y_i^0 \, \Big| \, \mathcal{T} \Bigr] \sum_{i=1}^N \hat{f}(x_i) - \frac{1}{N} \sum_{i=1}^N y_i^2 + \frac{2}{N} \sum_{i=1}^N y_i \hat{f}(x_i) \end{split}$

さらにこれを訓練データの被説明変数について期待値をとったのが $\omega$ だから、訓練データのノイズが変わったら変わりうるところに $E_{Y^0}[ \, \cdot \, | \, \mathcal{T}]$ をかぶせればいいわけだから、

$\begin{split} \omega &= E_{Y^0} \Bigl[ (Y_i^0)^2 \, \Big| \, \mathcal{T} \Bigr] - \frac{2}{N} E_{Y^0} \Bigl[ Y_i^0 \, \Big| \, \mathcal{T} \Bigr] \sum_{i=1}^N E_{Y^0} \Bigl[ \hat{f}(x_i)\, \Big| \, \mathcal{T} \Bigr] \\& \quad \;- \frac{1}{N} \sum_{i=1}^N E_{Y^0} \Bigl[ (Y_i^0)^2 \, \Big| \, \mathcal{T} \Bigr] + \frac{2}{N} \sum_{i=1}^N E_{Y^0} \Bigl[ Y_i^0 \hat{f}(x_i) \, \Big| \, \mathcal{T} \Bigr] \\ &= - \frac{2}{N} E_{Y^0} \Bigl[ Y_i^0 \, \Big| \, \mathcal{T} \Bigr] \sum_{i=1}^N E_{Y^0} \Bigl[ \hat{f}(x_i)\, \Big| \, \mathcal{T} \Bigr] + \frac{2}{N} \sum_{i=1}^N E_{Y^0} \Bigl[ Y_i^0 \hat{f}(x_i) \, \Big| \, \mathcal{T} \Bigr] \\ &= \frac{2}{N} \sum_{i=1}^N \biggl\{ E_{Y^0} \Bigl[ Y_i^0 \hat{f}(x_i) \, \Big| \, \mathcal{T} \Bigr]- E_{Y^0} \Bigl[ Y_i^0 \, \Big| \, \mathcal{T} \Bigr] E_{Y^0} \Bigl[ \hat{f}(x_i)\, \Big| \, \mathcal{T} \Bigr] \biggr\} \end{split}$

これって共分散の公式の形だ！だったら $\omega = (2/N) \sum_{i=1}^N {\rm Cov}(\hat{y}_i, y_i)$ だ（ $\hat{y}_i = \hat{f}(x_i)$ とする）。この ${\rm Cov}(\cdot, \cdot)$ は訓練データの説明変数は固定した下での被説明変数に関する共分散（ノイズの出方が色々変わったときの共分散）だな。どう、これでいい？

間違っていないとは思いますが、カステラ本には演習の解答がないのでなんとも。

ええ解答ないの！？

何にせよ、モデルの ${\rm Cov}(\hat{y}_i, y_i)$ が正である状況とは、「 $y_i$ が大きくなる方向にノイズが変化したら $\hat{y}_i = \hat{f}(x_i)$ も大きくなる」といった状況であるわけです。そんなノイズに反応するようなモデルは望ましくありません。 ${\rm Cov}(\hat{y}_i, y_i)$ が負であっても困ります。 ${\rm Cov}(\hat{y}_i, y_i)$ はゼロであってほしいですよね。

それはそうだな。じゃあモデルが ${\rm Cov}(\hat{y}_i, y_i)$ がどうなるかを調べれば、そのモデルがどれくらいノイズを学習してしまうかわかるんだな。それでさっそく263ページに加法的誤差モデルの例が出てきて…いや、 $\sum_{i=1}^N {\rm Cov}(\hat{y}_i, y_i) = d \sigma_\varepsilon^2$ ってなんで？というか加法的誤差モデルって何？

おそらく25ページがここでいう加法的誤差モデルの定義なんじゃないかと思うんですが、25ページの記述は「加法的モデル」なんですよね…まあ、 $\sum_{i=1}^N {\rm Cov}(\hat{y}_i, y_i) = d \sigma_\varepsilon^2$ になること自体は線形回帰モデルの最小2乗法で確かめるといいのではないかと。257ページの上の方でもその事実をつかっていますし。少なくとも7章に導出はなさそうですが。イメージとしては、最小2乗回帰したモデルは未知の点への予測値を訓練データを重ね合わせてつくり出していると解釈できますから、それを介して訓練データのノイズを取り込んでしまうわけです。

ただ、おそらくここの主張は線形回帰より広いクラスでもこうなんだというものと思います（以下）。

説明変数の各次元に適用したモデルを足し合わせるようなモデル（Ex. 線形回帰）で損失を2乗誤差（2乗誤差以外でも結構成り立つと思われる）とするときは、

平均最善度（「ノイズを学んでしまった分」の期待値）は $\omega = 2 d \sigma_\varepsilon^2 / N$ になる。
よって、 $E_y \bigl[ {\rm Err}_{\rm in} \bigr] = E_y \bigl[ \overline{{\rm err}} \bigr] + 2 d \sigma_\varepsilon^2 / N$ になる（7.24式）。
よって、説明変数の次元 $d$ が多いほどノイズを学んでしまいやすい。

ここまで平均最善度がはっきりしていると、「説明変数を1次元増やして（自由に調整できる要素を1つ増やして）誤差が $2 \sigma_\varepsilon^2 / N$ より減らないなら増やさない方がいい」などといった判断ができそうですよね。

ときにハヤト、いま「標本データ上での誤差を、自由度で調整して、モデルのよさを測る」というようなことをしたわけです。「標本データ上での誤差を、自由度で調整して、モデルのよさを測る」と聞いて、何か思い出しませんか？

「自由度で調整」って、もしかして赤池情報量規準（AIC）のこと？何次多項式で回帰するべきかって文脈でよくみるよな。意味はよくわかってないけど…。

はい、実際次の264ページに、より一般的なモデルに適用できる ${\rm Err}_{\rm in}$ の推定方法として、AICが出てくるんです。まず、天下りですが $N \to \infty$ で7.27式（以下）の関係式が成り立つことがわかっています（いつ成り立つのか曖昧ですが、AICの原論文はフリーアクセスではなさそうなので一旦置いておきます）。

$-2E\Bigl[ \log {\rm Pr}_{\hat{\theta}}(Y)\Bigr] \approx \displaystyle -\frac{2}{N} E\Bigl[ \sum_{i=1}^N \log {\rm Pr}_{\hat{\theta}}(y_i)\Bigr] + \frac{2d}{N} \tag{7.27}$

確かにめっちゃ降って湧いてきたな。というかこの式どういう意味？

まず $E[\cdot]$ は $Y$ の真の分布の上での期待値ですね。ここで、真の分布は ${\rm Pr}_{\theta^\ast}(Y)$ で表されることを仮定しています。つまり、真のパラメータ $\theta^\ast$ さえ突き止めれば真の分布を再現できるという状況です。といっても、手元には有限の $N$ 個のサンプルしかないのでこの理想的な状況でも真の分布の推定が必ずできるわけではありません。限られた手元の標本データで尤度が最大になるようにしたパラメータが $\hat{\theta}$ です。それで、7.27式の左辺は真の分布と、手元の標本データで最善を尽くした分布の交差エントロピーの2倍ですね。これは一番知りたいものです。しかし、真の分布は知りえませんから、手元の標本データの経験分布で代用すると $-(1/N) \sum_{i=1}^N \log {\rm Pr}_{\hat{\theta}}(y_i)$ となりますね。この値の期待値（色々標本データを取り直したときの期待値）の2倍が右辺第1項です。しかし、この右辺第1項は、 $\hat{\theta}$ に標本データのクセが反映されている以上、左辺の推定値としては「あまりに楽観的」ですよね。その調整分が右辺第2項であるわけです。なので結局、右辺第1項の期待値を手元のデータでの値で代用した ${\rm AIC} = -(2/N) \sum_{i=1}^N \log {\rm Pr}_{\hat{\theta}}(y_i) + 2d/N$ をモデルのよさの推定値とせよというのがここでの主張ですね。右辺第1項に出てくる $\sum_{i=1}^N \log {\rm Pr}_{\hat{\theta}}(y_i)$ は最大対数尤度（＝現在の $d$ で尤度を最大にした $\hat{\theta}$ での尤度）になっていますが、「手元のデータで交差エントロピーを推定したもの」といった方が意味合い的にしっくりくる気がします。同じなんですが。

ふーん…あれでも、最小2乗線形回帰モデルだと $E_y \bigl[ {\rm Err}_{\rm in} \bigr] = E_y \bigl[ \overline{{\rm err}} \bigr] + 2 d \sigma_\varepsilon^2 / N$ だった気がするんだけど、調整分が $\sigma_\varepsilon^2$ だけずれていない？

どちらかというと、最小2乗線形回帰モデルの $E_y \bigl[ {\rm Err}_{\rm in} \bigr] = E_y \bigl[ \overline{{\rm err}} \bigr] + 2 d \sigma_\varepsilon^2 / N$ が7.29式（7.27式）の両辺に $\sigma_\varepsilon^2$ をかけたものになっていますね。順を追って説明します。

まず、一般にAICを利用するときは、「真の分布からの標本データ $\{x_1, \cdots, x_N\}$ が手元にあって、なるべく真の分布 $f(x)$ に近い予測分布 $\hat{f}(x)$ をつくりたい（近さの基準は交差エントロピー）」ことが大前提になるはずです。
対して7.4節の文脈での当面の目的は「訓練標本内誤差 ${\rm Err}_{\rm in}$ を小さくしたい」です。より詳しくいうと、「訓練データ $\bigl\{ (x_1, y_1), \cdots, (x_N, y_N) \bigr\}$ の説明変数は固定した下で、被説明変数は標本なのだと考えて、真の被説明変数の分布上での期待損失が小さいモデルをつくりたい」です。真の分布 $f(x,y)$ の予測分布 $\hat{f}(x,y)$ がつくりたいのだと考えれば、AICを利用したい状況と同じになるでしょう。ただし、「損失が交差エントロピーであれば」です。
最小2乗線形回帰モデルは損失が2乗誤差なので、AICとは目的が少し違っています。が、ノイズの分散 $\sigma_\varepsilon^2$ が既知であり、最小2乗線形回帰モデルの予測値を中心に分散 $\sigma_\varepsilon^2$ をもつガウス分布を予測分布と考えるなら、両者の目的は一致するんです。なぜなら、このときの交差エントロピー $-\sum_i \int f(x_i,y) \log \hat{f}(x_i,y) dy$ は2乗誤差を $2\sigma_\varepsilon^2$ で割ったものに定数バイアスを足したものになるからです（※）。交差エントロピー最小化が2乗誤差最小化と一致するんです。
ところでAICは「交差エントロピーの2倍」の推定値として構築されていました。これをいまの状況で「2乗誤差」の推定値にかき換えたいなら、 $\sigma_\varepsilon^2$ をかければいいです。「交差エントロピーの2倍」が2乗誤差を $\sigma_\varepsilon^2$ で割ったものになっているわけですから。定数バイアスは両辺で打ち消し合いますたぶん。

なので調整項に $\sigma_\varepsilon^2$ のずれが発生しているわけです。ちなみに（※）はこの記事の最下部でプロデューサーさんが適当に計算しただけなので適当です。

あー、何を推定しているのかがずれていたのか。一瞬「AIC を使えば $\sigma_\varepsilon^2$ が要らないの？」って思ったけど、AIC にしたらしたで右辺第1項の計算時に $\sigma_\varepsilon^2$ が要るな。

ノイズ $\sigma_\varepsilon^2$ が大きいときほどノイズを学習してしまう危険性は増すわけですからね。極端な話、ノイズが全くないデータなら ${\rm Err}_{\rm in}$ と $\overline{{\rm err}}$ は一致して最善度は常にゼロですし。まあそれでも訓練データの隙間や外挿部分の正解は知りえませんが。

ところでジュン、265ページの「もし基底関数が適応的に選ばれるなら式 (7.23) はもはや成り立たない」ってどういうこと？

かいてある通りなんですが、例えば…ハヤトはいま1次元の入力で1次元の出力を回帰するモデルとして $\hat{f}(x) = a_0 + a_1 x + a_2 x^2 + \cdots$ のような多項式を候補に考えていて、何次多項式にするかを決めたいとします。平均 $\hat{f}(x)$ 、分散 $\sigma^2$ であるようなガウス分布を予測分布としましょう。切片と分散も推定対象とすると、 $m$ 次多項式モデルのパラメータの次元数は $d =m + 2$ になりますね。これでAICを適用すればいいです。しかしハヤトは考えました。「AICの調整項が面倒だな…そうだ、 $x$ の $m$ 次の項までのうち一番予測に有用な1個だけを使うことにしよう。これならパラメータの次元数は常に3になるから調整項が要らない。10次くらいまで調べて単に尤度が最大になる次数を選べばいい。このアイデアはモテるだろ！」と。しかし、それでは全然駄目なんです。

俺そんなこといわない！俺のキャラクターの把握が雑！そもそもAICの調整項 $2d/N$ の計算に面倒な要素ないだろ！！ …まあともかく、なんか駄目なのはわかるよ。なんか後出しじゃんけんっぽいし。見かけのパラメータ数でAICを計算したら駄目ってことだよな。でも、それならどうやって $d$ を決めればいいんだ？

次の7.6節に出てきますが、訓練データへの予測値 $\hat{y}$ を訓練データの被説明変数のベクトル $y$ で $\hat{y} = Sy$ と表し、 $S \in \mathbb{R}^{N \times N}$ を「訓練データの説明変数のベクトル $x$ には依存するが $y$ には依存しない」行列としたとき、 ${\rm tr}(S)$ が有効パラメータ数になるということです。

へ、行列のトレース？

最小2乗線形回帰 $\hat{f}(x) = x^\top (X^\top X)^{-1} X^\top Y$ なら $S = X(X^\top X)^{-1} X^\top$ になると思います。それならトレースの公式から ${\rm tr} \bigl( X(X^\top X)^{-1} X^\top \bigr) = {\rm tr} \bigl( (X^\top X)^{-1} X^\top X \bigr) = {\rm tr} \bigl( I_d \bigr) = d$ となって成り立っていますね。ここで $d$ は $x$ の次元数です。先ほどの多項式の例だと $S$ がどうなるかというのは示せないんですが、 $S$ が「 $y$ には依存しない」という条件がある以上、適応的に次数を選んだなら調べた次数を全て取り込まないといけない気がします。まずは全ての次数でパラメータを最適化してみなければならないでしょう。その上で、ある特定の次数の項だけを選ぶような強烈な正則化をするのではないかと思うんですが…。

歯切れ悪いな…まあそれで次の7.7節は、 ${\rm BIC} = -2 \sum_{i=1}^N \log {\rm Pr}_{\hat{\theta}}(y_i) + d \log N$ っていうのが出てきた。これ、AICの $N$ 倍になっているというわけでもないな。調整項が $2d$ だったのが $d \log N$ になっているし。でも、AICの調整項は最小2乗線形回帰の例でも裏付けられていたはずで…どうなってんの？？

AICとは「測っているもの」が異なるということでしょう。Schwarz の論文（BICの原論文）は以下で閲覧できました。

https://projecteuclid.org/euclid.aos/1176344136

イントロダクション中に、AICはこうだがBICはこうだとありますね。

choosing the model for which $\log M_j (X_1, \cdots, X_n) - k_j$ is largest
Choose the model for which $\log M_j (X_1, \cdots, X_n) - \frac{1}{2} k_j \log n$ is largest

イントロダクションに「ある自由度のモデルの最尤推定量は、ベイズ推定量のサンプル数を大きくした極限として得られる」とあり、だからベイズ的なアプローチでモデル選択できるということだと思います。というかテキスト7.7節内にも結構かいてありますね。BICの出発点は「モデル候補 $\mathcal{M}_m \, (m=1, \cdots, M)$ のうち最もよいモデルはどれか」であるようです。そして、BICは以下が成り立つことに基づいています。

$\displaystyle \log {\rm Pr} (Z|\mathcal{M}_m) = \log {\rm Pr} (Z| \hat{\theta}_m, \mathcal{M}_m) -\frac{d_m}{2} \log N + O(1) \tag{7.40}$

この式を日本語訳するならば、「モデル候補 $m$ の下で訓練データ $Z$ が得られる対数尤度は、そのモデルのパラメータを最尤推定値 $\hat{\theta}_m$ にした下での対数尤度から $d_m \log N /2$ を差し引いたものである（ $d_m$ はモデル候補 $m$ の自由度）」といったところでしょうか。そしてこれは、AICのベースとなっている7.27式とは左辺が既に違います。あちらは「尤度最大のパラメータでの、訓練標本内交差エントロピーは？」と問うているのに対して、こちらは「どのモデルがこの訓練データに対して最も尤もらしい？」なのですから。

ところで、テキストのAICとBICを比べやすくするために、右辺第1項をそろえてみましょう。

$\begin{split} \frac{\rm AIC}{2} &= - \frac{1}{N} \sum_{i=1}^N \log {\rm Pr}_{\hat{\theta}}(y_i) + \frac{d}{N}\\ \frac{\rm BIC}{2N} &= - \frac{1}{N} \sum_{i=1}^N \log {\rm Pr}_{\hat{\theta}}(y_i) + \frac{d \log N}{N} \end{split}$

どちらも $N \to \infty$ で調整項がゼロに収束するのは同じです。ただ、収束のスピードが異なります。相対的に、AICの調整項は甘く、BICの調整項は厳しいことになります。つまり、テキストにもありますが、相対的に、AICは複雑な、BICは単純なモデルを選択する傾向があるということですね。そして、「モデル選択が目的のとき、AICとBICのどちらを使うべきかがはっきりしているわけではない（269ページ）」と。

ええどっちがいいとかないの？そういえば、269ページに「真のモデルを含むモデル集合が与えられたときにBICが正しいモデルを選ぶ確率は、標本数 $N \to \infty$ のとき1に近づく」（漸近一致性をもつ）ってあるけど、逆にAICはこれが成り立たないの？成り立ってほしいような気がするんだけど…。

そのようですね。つまり、真のモデルより複雑なモデルがノイズを学んでしまう分に釣り合ったペナルティを $d/N$ では課し切れないということでしょう。…しかし、AICの目的は「真のモデルはどれだろうか」だったでしょうか？確かにBICの目的は「真のモデルはどれだろうか」でした。しかし、AICの目的は「そのモデルを尤度最大にチューニングした下で真の分布とどれだけ離れているか」なんです。真のモデルを外していようと、誤差を小さくすれば正義なんです。

例えば以下の文献にはAICは漸近有効性をもつとあります。つまり、予測誤差を最小にするのはAICであるということです。

(PDF) Model selection for ecologists: The worldviews of AIC and BIC

そしてこの文献は、AICとBICは何を最適としているかが違うと指摘しています。

In fact the conflict is easily resolved once it is acknowledged that ‘‘asymptotically optimal’’ can have several meanings. Asymptotic efficiency and (asymptotic) consistency are different kinds of optimality.（633ページ）

この文献によると、McQuarrie and Tsai (1998) は、AICを筆頭とする予測誤差を最小にするための指標を「efficient estimators」、BICを筆頭とするモデルを確認するための指標を「consistent estimators」と区別したそうです。AICの眷属にはテキスト7.5節にも出てきた Mallows’ $C_p$ や交差検証（cross validation）が、BICの眷属には Hannan and Quinn や Geweke and Meese があるようですね。

えっと、モデル選択の指標が2つの派閥（？）に分かれるのとか、両者はなんか目的が違うっぽいのはわかったけど、そこまでいうならどっちを使うべきってないの？

先の文献には「真のモデルが非常に複雑で（自由度が非常に大きく）真のモデルを当てられる見込みがなく、モデル候補の自由度をそれに合わせなくてもよく、モデル候補のパラメータが真のモデルのパラメータを包含していなくてもよいし、余分なパラメータを含んでいてもよい」というときは前者を、「真のモデルがシンプルで、モデル候補のうち1つが真のモデルであると期待されるとき」は後者を利用するべきだとあります。確かに前者の状況でBICを使う意味は薄いと思うんですよね。モデル候補が真のモデルを含んでいる見込みが薄いなら。でも、ではこの状況でAICは上手く機能するのかはきちんと導出を追っていないのでわからないんですよね。いいんだと思うんですが。

おわり

※ 交差エントロピーが2乗誤差を $2\sigma_\varepsilon^2$ で割ったものに定数バイアスを足したものになっている。
$\begin{split} \displaystyle -\int f(x_i,y) \log \hat{f}(x_i,y) dy &=-\frac{1}{\sqrt{2 \pi \sigma_\varepsilon^2}} \int \exp \left( -\frac{(y - y^\ast)^2}{2 \sigma_\varepsilon^2} \right) \log \left[ \frac{1}{\sqrt{2 \pi \sigma_\varepsilon^2}} \exp \left( -\frac{(y - \hat{y})^2}{2 \sigma_\varepsilon^2} \right) \right] dy \\ &=- \frac{1}{\sqrt{2 \pi \sigma_\varepsilon^2}} \int \left( -\frac{(y - \hat{y})^2}{2 \sigma_\varepsilon^2} \right) \exp \left( -\frac{(y - y^\ast)^2}{2 \sigma_\varepsilon^2} \right)dy + \log \sqrt{2 \pi \sigma_\varepsilon^2} \\ &= -\frac{1}{\sqrt{2 \pi \sigma_\varepsilon^2}} \int \left( -\frac{(y - y^\ast)^2 +(y^\ast -\hat{y})^2 - 2(y - y^\ast)(y^\ast -\hat{y})}{2 \sigma_\varepsilon^2} \right) \exp \left( -\frac{(y - y^\ast)^2}{2 \sigma_\varepsilon^2} \right)dy + \log \sqrt{2 \pi \sigma_\varepsilon^2} \\ &= \frac{\sigma_\varepsilon^2}{2 \sigma_\varepsilon^2} + \frac{(y^\ast -\hat{y})^2}{2 \sigma_\varepsilon^2} + \log \sqrt{2 \pi \sigma_\varepsilon^2} \end{split}$

2020-11-23

NeurIPS2020読みメモ： Adversarial Sparse Transformer for Time Series Forecasting

論文読み

以下の論文を読みます。キャラクターの原作とは無関係です。私の誤りは私に帰属します。お気付きの点がありましたらご指摘ください。

Sifan Wu, Xi Xiao, Qianggang Ding, Peilin Zhao, Ying Wei, Junzhou Huang. Adversarial Sparse Transformer for Time Series Forecasting. In Pre-proceedings of the 33rd International Conference on in Neural Information Processing Systems (NeurIPS 2020), 2020. Paper

まとめ

問題設定：

関連するいくつかの時系列（例. 各家庭の15分ごとの電力消費量など）がある。
各時系列について、少し離れた先の特定のパーセンタイルを予測したい。

例えば、 50 パーセンタイルと 90 パーセンタイル、のように。

アプローチ：

予測するパーセンタイルごとに Transformer を用意して学習する（曜日や時刻も入力するのが Positional Encoding の役割を担うと思われる）。損失はパーセンタイルに応じたピンボールロスにする。ただし、

予測に無関係なステップを無視し、予測に関係あるステップに注意を集中したいので、アテンションにはソフトマックスではなく α-entmax を用いる（Sparse）。
Transformer の学習には、ディスクリミネータも利用する（Adversarial）。

結果、electricity, traffic の1日後、7日後予測や wind, solar, M4-Hourly の予測のほとんどでも予測性能が既存手法を上回った（誤差の蓄積を回避できた）。

単純な Transformer や Sparse Transformer よりも Adversarial Sparse Transformer がよかった。
なお、DeepAR を Adversatial に学習しても性能が向上した。

所感

どのようなデータを出力するべきかの指針を与えてくれる敵対的学習は、損失を上手く設計できない場面で（上手く設計できるとは）広く有効そうにみえる。

関連記事

雑記： NeurIPS 2020 pre-proceedings の「時系列」を含むタイトル - クッキーの日記

GAN
Transformer
問題設定
Sparse
Adversarial
検証結果

GAN

時系列予測モデルとして Adversarial Sparse Transformer (AST) なるモデルを提案しているんですが、GAN の要領で Transformer を学習するのが独特です。これによって誤差の蓄積を回避し、長期予測性能を向上させています。

GAN って何だったっけ。てか俺誕生日なのになんで論文読まされてるの…。

GAN は第3節の背景の一番最後に簡単に説明がありますが、せっかくですし原論文をみてみましょう。

[1406.2661] Generative Adversarial Networks

GAN

GAN: Generative Adversarial Networks（敵対的生成ネットワーク）とは生成モデルなんですが、その学習方法が特徴的です。そうですね、いま、手元に人間の顔の画像の訓練データセットがあって、これを利用して人間の顔っぽい画像をランダムに生成したいとします。以下の手順でそんなモデルを得るのが GAN です。

予め適当な空間上の適当な確率分布 $p_z(z)$ を用意します。この分布から生成した $z$ を $x = G(z; \theta_g)$ によって画像空間の元に変換します。これでランダムな画像を生成する機構はできました。問題は、この機構によって生成される画像の分布が、画像空間内の「人間の顔っぽいところ」に広がるようにすることです。そうなるように $G$ を学習しなければなりません。
となるとそもそも「人間の顔っぽいとは何か」という話になってきますが、訓練データの画像と容易に識別できる画像ならそれは人間の顔っぽくはないだろう、と考えます。ので、訓練データ画像とランダム画像を識別するモデル $D(x; \theta_d)$ を用意しましょう。 $D(x; \theta_d)$ は訓練データ画像なら $1$ 、訓練データ画像ではないランダム画像なら $0$ を取ってほしいです。そうなるように $D$ を学習します。
すると $G$ をどう学習するかも定まります。 $G$ の目標は、自分が出すランダム画像を、 $D$ が訓練データ画像と識別できないようにすることです。
との目標をまとめましょう。
- $D$ の目標は、訓練データ画像には「訓練データ画像だ」と出力し、 $G$ から出てきた画像には「ランダム画像であって訓練データ画像ではない」と出力することです。
- $G$ の目標は $D$ を欺き、自分が出した画像を「訓練データ画像だ」と出力させることです。
そしてこの最適化問題を数式でかくとこうです。
$\displaystyle \underset{G}{\rm min} \; \underset{D}{\rm max} \Bigl[ \mathbb{E}_{x \sim p_{\rm data}(x)}\bigl(\log D(x) \bigr) + \mathbb{E}_{x \sim p_z(z)}\bigl(\log (1 - D(G(z)) ) \bigr) \Bigr]$

$D$ は $D(G(z))$ を $0$ にしようとし、 $G$ は $D(G(z))$ を $1$ にしようとする敵対が起きていることがわかりますね。ちなみに上の目的関数は、 $D$ が $G$ に対して最適に学習されている場合は訓練データの分布と $G$ が生成する画像の分布のJSダイバージェンスになります（原論文5ページ）。

敵対的って物騒だな…って思ったけど、それを訊くと本格的に敵対してるな。片や欺こうとして、片や見抜こうとしてるんだから。…でもさ、人間の顔っぽい画像の分布がほしいなら、各訓練データに近いほど密度が大きい分布をつくって足し合わせるとかじゃ駄目なの？

その近いとは何かという話だと思います。「この方向にこれくらいずらすのは近いのか」とかわからないでしょう。分散を小さめにしたらしたで、元の訓練データ内にあった画像しか出てこないモデルになってしまいますし。元の画像のどれかとかではなく本当にランダムだが見分けにくいようなものがほしくてこのようなことをするのだと思います。見分ける係（ $D$ ）が人間ではなくてニューラルネットですから人間の感覚との差異はあるでしょうが、それでもかなり上手くいくんでしょう。

Transformer

ふーん…それで、Transformer ってのは超ロボット生命体？

ではありません。以下の論文で提案されたネットワークで、入力系列を同じ長さの特徴系列にエンコードし、それを利用して適当な長さの出力系列をデコードするものですね。

[1706.03762] Attention Is All You Need

Transformer

今回の論文でも第3節の背景の The Transformer の箇所に説明がありますね。つまり、Transformer のエンコーダでは「マルチヘッドセルフアテンション」＋「全結合」を $N$ 回繰り返します。具体的には以下を $N$ 回繰り返します。

$d$ 次元ベクトルが $n$ 個並んだ入力系列 $h \in \mathbb{R}^{n \times d}$ を、

$W_m^Q \in \mathbb{R}^{d \times d/M}$ で $Q_m = h W_m^Q \in \mathbb{R}^{n \times d/M}$ に写像する（ $d/M$ 次元ベクトルが $n$ 個並ぶ）。
$W_m^K \in \mathbb{R}^{d \times d/M}$ で $K_m = h W_m^K \in \mathbb{R}^{n \times d/M}$ に写像する（ $d/M$ 次元ベクトルが $n$ 個並ぶ）。
$W_m^V \in \mathbb{R}^{d \times d_v}$ で $V_m = h W_m^V \in \mathbb{R}^{n \times d_v}$ 次元に写像する（ $d_v$ 次元ベクトルが $n$ 個並ぶ）。

$Q_m K_m^\top \in \mathbb{R}^{n \times n}$ を計算し、各要素を $\sqrt{d/M}$ で割る（ $n$ 次元ベクトルが $n$ 個並ぶ）。その上で各 $n$ 次元ベクトルをソフトマックスする。これで得られた $\alpha_m$ を scaled dot-product attention とよぶ。
あとは $O_m = \alpha_m V_m$ を計算する（ $d_v$ 次元ベクトルが $n$ 個並ぶ）。
以上のことを $M$ ヘッドやった $O_1, \cdots, O_M$ を concat する（ $M \times d_v$ 次元ベクトルが $n$ 個並ぶ）。
各ベクトルを全結合し、ReLU で活性化し、さらに全結合する。つまり ${\rm max}(0, O W_1 +b_1)W_2 +b_2$ とする。これは入力系列と同じ長さの特徴系列である。

余談ですが、BERT では ReLU ではなく GELU（Gaussian Error Linear Units）で活性化していますよね。ともかく、 $\alpha_m$ は、例えば長さ5の系列を入力したら、5×5行列になりますが、この1行目が意味するのは、「1番目の位置は、1~5番目の位置にどれだけずつ注目するか」であり、入力系列は自分に注意している（セルフアテンション）ことになります。エンコーダから出力される特徴系列は、前後の文脈を踏まえたその箇所の単語の特徴とでもいうべきものになっているでしょう。

ところで、最終的にほしいのはそんな特徴系列ではありません。例えば機械翻訳であれば、英語の文章をドイツ語の文章に翻訳したものなどがほしいはずです。なのでそのような出力系列を得るデコーダを用意します。デコーダには「文頭トークン、＊、＊、＊、＊」（＊は未知）という系列を入れて、エンコーダと同様にマルチヘッドセルフアテンションしてまず $O$ を得ます。が、このとき scaled dot-product attention が＊に注意しないように、自分より後ろへの注意を0にします。なのでこの層は Masked Multi-Head Attention とよばれていますね。次に、再度マルチヘッドセルフアテンションしますが、この段では $V_m = h_{\rm embed} W_m^V$ にエンコーダからの出力 $h_{\rm embed}$ を取り込みます。自分への注意ではなく、特徴系列に注意するわけです。その後全結合-ReLU-全結合します。これをやはり $N$ 回繰り返した後に、全結合-softmax して最終出力をします。これは例えば「すべてのドイツ語の単語上の確率分布」のようなものにすべきでしょう。こうして最初の単語を得て、次は「文頭トークン、最初の単語、＊、＊、＊」をデコーダに入力してデコードを繰り返します。

…処理が込み入ってるけど、Transformer は系列から系列を得るのに使えるんだな。入力文章の各位置に前後の文脈を反映させてエンコード文章にして、デコードするときはそこまででデコードできている範囲で前後の文脈を反映させてからエンコード文章を取り込むって感じか…ってあれ？いまは機械翻訳じゃなくて時系列の予測をしたいんだよな？

問題設定

時系列予測も「現時点までの数ステップを参照してこれから未来の数ステップを予測する」と考えれば機械翻訳のようなものですよ。問題設定を確認しましょう。第3節の最初ですね。いま、手元に $\{y_{i, 1:t_0}\}_{i=1}^S$ という $S$ 本の時系列があるとします。各 $y_{i,t}$ は $\mathbb{R}$ の元です。これが興味のある時系列ですね（ターゲット時系列とよぶようです）。これに加えて、 $X_{i,1:t_0} \in \mathbb{R}^{t_0 \times k}$ という説明変数の時系列もあるとします。これは時間変化するものでも時間変化しないものでも構いませんが、未来の値も予測に利用しているようなので、未来の値が予めわかるものでないといけませんね。そしていま予測したいのは、 $S$ 本の各時系列の今後 $\tau$ ステップ間の $\rho$ パーセンタイルです。モデルは以下になります。

$\hat{Y}_{\rho, t_0+1:t_0+\tau} = f_\rho(Y_{1:t_0}, X_{1:t_0+\tau})$ $\rho$ ごとにモデルを用意するようですね。以下にイメージをかきましょう。例えば50パーセンタイルと90パーセンタイルを予測するとして、50パーセンタイルモデルは以下の青字の箇所を入力に緑字の箇所を出力します。90パーセンタイルモデルは以下の青字の箇所を入力にオレンジの字の箇所を出力します。まあ入力はどちらも同じなんですが。

時刻	$1$	$\cdots$	$t_0$	$t_0 + 1$	$\cdots$	$t_0 + \tau$
説明変数	$X_1$	$\cdots$	$X_{t_0}$	$X_{t_0+1}$	$\cdots$	$X_{t_0+\tau}$
ターゲット時系列 $1$	$y_{1,1}$	$\cdots$	$y_{1,t_0}$	$y_{1,t_0+1}^{(50)}$	$\cdots$	$y_{1,t_0+\tau}^{(50)}$
$\vdots$	$\vdots$	$\ddots$	$\vdots$	$\vdots$	$\ddots$	$\vdots$
ターゲット時系列 $S$	$y_{S,1}$	$\cdots$	$y_{S,t_0}$	$y_{S,t_0+1}^{(50)}$	$\cdots$	$y_{S,t_0+\tau}^{(50)}$

時刻	$1$	$\cdots$	$t_0$	$t_0 + 1$	$\cdots$	$t_0 + \tau$
説明変数	$X_1$	$\cdots$	$X_{t_0}$	$X_{t_0+1}$	$\cdots$	$X_{t_0+\tau}$
ターゲット時系列 $1$	$y_{1,1}$	$\cdots$	$y_{1,t_0}$	$y_{1,t_0+1}^{(90)}$	$\cdots$	$y_{1,t_0+\tau}^{(90)}$
$\vdots$	$\vdots$	$\ddots$	$\vdots$	$\vdots$	$\ddots$	$\vdots$
ターゲット時系列 $S$	$y_{S,1}$	$\cdots$	$y_{S,t_0}$	$y_{S,t_0+1}^{(90)}$	$\cdots$	$y_{S,t_0+\tau}^{(90)}$

ターゲット時系列 $1$ のみに注目すれば $(y_{1,1}, \cdots, y_{1, t_0})$ から $(y_{1,t_0 + 1}, \cdots, y_{1, t_0 + \tau})$ への機械翻訳のようなものでしょう？

まあそうかもしれないけど。

あとここにきて気付いたんですが、説明変数 $X_t$ は Transformer でいう Positional Encoding とかトークンタイプエンコーディングの位置付けなんですね。例えば月や曜日などとありましたし。Figure 2 に Positional Encoding はありませんし。あ、Positional Encoding は、機械翻訳ではその単語が何単語目かという特徴ベクトルですね。それを予め各単語ベクトルに足し合わせてからマルチヘッドセルフアテンションに流します。Transformer は再帰や畳込みを行わないので、そうでもしないとその単語が文章の1番目にあったのか、2番目にあったのかが本質的に区別されませんからね。

えっと、結局どうやって未来の時系列を予測するの？

4節をみてまとめましょう。

現時点までのターゲット系列と説明変数系列 $(Y_{1:t_0}, X_{1:t_0})$ をエンコーダに入力し、特徴系列 $(h_1, \cdots, h_{t_0})$ にエンコードする。
未来の説明変数系列 $(X_{t_0 + 1:t_0 + \tau})$ と特徴系列 $(h_1, \cdots, h_{t_0})$ をデコーダに入力し、順次 $\hat{y}_{t_0 + 1}, \cdots, \hat{y}_{t_0 + \tau}$ をデコードする。

明記されていませんが、このとき最初に機械翻訳における文頭トークンに相当するものとして $(Y_{t_0}, X_{t_0})$ がフィードされていると思うんです。そうでなければ、特徴系列に注目する主体がいませんから。また、Figure 2 に明記されていませんが Masked Multi-Head Attention であるはずです。

とまあ、これだけなら純粋に Transformer を利用して時系列予測したという話です。しかし、本論文で提案しているのは Adversarial Sparse Transformer (AST) です。ただの Transformer と違って Adversarial で Sparse なんです。

あ、敵対的なのとか忘れてた…。

Sparse

先に Sparse の説明からいきましょう。

Sparse

時系列を予測するのに、過去の数ステップにしか注目したくなくて、関係ないステップには全く注目したくないという気持ちがあります（過去のどのステップが未来予測に関わってくるかは時系列によると思うんですが）。必要なステップへの注意に集中したいんです。しかし、 $\alpha_m$ はソフトマックスの結果ですから、小さい要素でも完全にゼロにはなりません。そこで α-entmax を採用します。以下で提案されたものですね。

[1905.05702] Sparse Sequence-to-Sequence Models

つまり、 $\alpha_{\rm entmax}(h) = [ (\alpha - 1) h - \tau {\bf 1}]^{1/(\alpha - 1)}_{+}$ です。ここで、 $[\cdot]_+$ は ReLU、 ${\bf 1}$ は要素がすべて1のベクトルで、 $\tau$ は $h$ に応じてただ1つ定まる閾値です。 $\alpha > 1$ はスパースさの度合いを定めるパラメータで、 $\alpha=1$ のとき $\alpha_{\rm entmax}(h)$ は softmax と一致するそうです。 $\alpha=2$ のときは sparsemax なるものになるそうです。参照している論文の Figure 3 にいくつかの $\alpha$ に対するグラフがありますね。 $\alpha = 1$ のときは $h$ がどれだけ小さくても小さな正の値になりますが、 $\alpha$ が大きくなるほどゼロに切り捨てられる範囲が広がってくることがわかると思います。ステップ関数に近づいてきますね。この論文では $\alpha = 1.5$ を採用するようです。

え、何その式の形…全然ソフトマックスっぽくないんだけど…。

そうですね…元々 α-entmax は参照論文の (10) 式として定義されていて、これだとベクトル $p$ の最適化を含んでしまうので、 $\tau$ の最適化に落とし込んだのが今回の式のようなんですが、詳細は参照論文をよく読まなければなさそうです。

Adversarial

最後に Adversarial の説明です。

Adversarial

ここまでで現時点までの時系列から向こう何ステップかの予測値を生成する Sparse Transformer を用意しましたが、これを普通に学習するのではなく、ディスクリミネータも導入して学習します。ディスクリミネータには LeakReLu で活性化した3層の全結合層を用いたそうです。以降、Sparse Transformer のことをジェネレータとよびかえます。学習の1イテレーションは以下です。

データセットからランダムに $[ X_{1:t_0 + \tau}, Y_{1:t_0 + \tau} ]$ をサンプリングします。 $Y_{\rm real} \equiv Y_{1:t_0 + \tau}$ とします。
現時点のジェネレータで $\hat{Y}_{t_0 + 11:t_0 + \tau}$ を予測します。 $Y_{\rm fake} \equiv Y_{1:t_0} \circ \hat{Y}_{t_0 + 11:t_0 + \tau}$ とします。ディスクリミネータに $D(Y_{\rm fake} )=1$ と判定させるのがジェネレータの目標です。
以下を小さくするようにジェネレータを更新します。 $\mathcal{L}_\rho (Y_{t_0+1:t_0+\tau}, \hat{Y}_{t_0 + 11:t_0 + \tau}) + \lambda \mathbb{E}[ \log( 1 − D(Y_{\rm fake} )) ]$
以下を小さくするようにディスクリミネータを更新します。 $\mathbb{E}[ - \log( D(Y_{\rm real} )) - \log( 1 − D(Y_{\rm fake} )) ]$

ここで $\mathcal{L}_\rho (Y_{t_0+1:t_0+\tau}, \hat{Y}_{t_0 + 11:t_0 + \tau})$ は通常の学習の損失ですが、 $y_{i, t}$ を $\hat{y}_{i, t}$ と予測したときの損失の定義は、例えば 90 パーセンタイルの予測だったら、「上振れしたときは上振れ幅の 0.1 倍、下振れしたときは下振れ幅の 0.9 倍」です（論文は誤植だと思います）。基本的に絶対誤差なんですが、90パーセンタイルの予測だったら下振れ側に厳しく、10パーセンタイルの予測だったら上振れ側に厳しいイメージですね。

…それって90パーセンタイルの予測になるの？だって、仮に $\hat{y}_{i, t}$ が $y_{i, t}$ を完璧に予測できたらその損失ってゼロになるけど、それは90パーセンタイルの予測じゃなくない？

完璧に予測できたらそうなるでしょうが、まず完璧に予測できないとして、「上振れはしてもほとんど下振れしない予測値」にはなっていると思います。それくらいの意味しかないと思いますよ。本当に90パーセンタイルを予測したかったら、90パーセンタイルのアノテーションデータが必要だと思いますし。

検証結果

検証は electricity, traffic, wind, solar, M4-Hourly データセットで行ったようです。electricity, traffic については以下の記事で図示しました。

NeurIPS2018読みメモ： Deep State Space Models for Time Series Forecasting（その1） - クッキーの日記

誤差の指標として6ページの (8) 式のρリスクを導入していますが、これは50パーセンタイルの予測であれば単なる絶対パーセント誤差ですね。90パーセンタイルの予測であれば、上振れに甘く、下振れに厳しくなります。

Table 2, Table 3 は electricity, traffic の1日後、1週間後予測ですが（Table 2 は50パーセンタイル、Table 3 は90パーセンタイル）、AST のρリスクが既存手法に比べて最小になっていますね。AST の左隣2列が T, ST となっていますが、これは単なる Transformer と Sparse Transformer でしょう。T より ST の方がよく、ST より AST の方がさらによいことがはっきりわかりますね。Table 6 には wind, solar, M4-Hourly の結果がありますが、50パーセンタイルは一貫して AST が最良ですが、90パーセンタイルについては DeepState や DeepAR がよい場合もありますね。

面白いのは、Table 5 で DeepAR にも敵対的学習を施してみている点です。DeepAR も敵対的学習によって性能が向上することがわかります。向上後も AST よりは誤差が大きいようですが。

敵対的学習がそれだけ有効だったってこと？ …でもさ、予測モデルの学習って正解データがあるんだよな。正解に合わせるように学習しさえすればいいんじゃないのか？なんでわざわざ敵（ディスクリミネータ）を用意して敵対させなきゃならないんだ…。

今回の特徴は再帰的に何ステップも予測を続けていく点だと思います。例えば一期先予測を大きい側に $d$ 謝るのと、小さい側に $d$ 誤るのとでは、絶対誤差の観点ではどちらも同じだけの誤りです。しかし、「現時点までの時系列に続けてその値が観測されることは尤もらしいだろうか」という観点では同じ誤りではない可能性があります。ディスクリミネータ視点、片や「この系列は訓練データらしい（訓練データにあってもおかしくない）」、片や「この系列は訓練データらしくない」となっている可能性があります。そして、後者に陥ってしまったら、そこから先の予測は途端にくるってくる可能性があるかもしれません。だったら後者を優先して修正しなければならない…とか。

おわり