お気付きの点がありましたらご指摘いただけますと幸いです。
第1話のまとめ
| ![]() |



なるほど。「後の人がちゃんと見てくれるだろうからヨシ!」ということですね。


ならないよね。

[1]のイントロダクションでは、トランスフォーマーの効率化はテクノロジーの民主化につながるのだと意気込まれていますね。だから一部の層を乱数初期化のまま固定するぞと!? 単刀直入に何をやったかからきましたね……なぜそうするかの心は続きに綴られているのでしょうか。第3パラグラフに色々ありますが、その最後にはトランスフォーマーの理論的な理解にもつながるのだともありますね。確かに、乱数初期化のまま固定してもよい層とそうでない層がどれなのか気になります。ときに、分散学習やエッジコンピューティングも容易になるというくだりで「1つの数を伝送するだけでよいからだ」といっているのはどのような意味でしょうか? 1つの数とは??

その前の文と合わせると「乱数のシード」だと思う。分散学習でもエッジコンピューティングでも、訓練済みネットワークを他のマシンにデプロイするとき、普通はネットワークの各層についてその層のパラメータの次元数だけの数値を伝送する必要がある。でも、その層のパラメータが単に乱数値なら乱数のシードを送るだけでよい、といっていると思う。まあ乱数値なら何も伝送しなくてよいじゃんって気はするけど、実務的にシードは同期しないとマシンごとに推論がぶれるからそれを強調しているのかなあ……。

なるほど? 第4パラグラフは、引き続き乱数初期化の理由付けですね? 「random projection は古くから研究されている」……random projection って何ですか? ランダムな射影??

プレ処理でやっているのをみるよね。scikit-learn にもあるし[3]、特徴量エンジニアリングの本に載っているんじゃないかな……あっ載ってないわ。まえがきに「本書に含めませんでした」ってあった。


あー、scikit-learn のページを示したのが悪かったけど、たぶん random projection には次元を減らすという含意はないよ。次元を増やす方向でも random projection。次元を増やす方向のモチベーションは次元を増やして活性化すると線形分離可能になる可能性が高い(だって Cover の定理があるから)ということだと思う。ニューラルネットの中間層がそんなものだよね。

はあ……確かに、続きにはうってかわって次元削減の話がありますね。雑にまとめると「random projection、次元を増やしても次元を減らしても面白い」ということでしょうか。とにかくランダムな行列は素晴らしいものなのですね。いまいち腑に落ちてはいませんが……その次の random kernel methods とは? これも次元を減らすか増やすかするのですか?

これは非常にサイズが大きいデータにカーネル法を適用するときの計算量削減手法のはず[4]……データサイズが大きいとグラム行列が巨大になるよね。だからグラム行列は一旦放棄して、カーネル関数をその逆フーリエ変換(Bochner の定理によりできる)のフーリエ変換の形にして、フーリエ変換を周波数のサンプリングして端折るみたいなやつ……たぶん。直接入力データの次元を減らすとか増やすとかではない。周波数空間全体の積分をサンプル平均で近似するという話だから。サンプル点たちがランダム行列だと思うけど、この文脈ではランダム行列がよい性質をもつというより Bochner の定理が便利という話のように思えるけどわからないな……。

ランダム行列を売り込まれましたが、今回は次元削減やカーネル法をしたいわけではないので、Cover の定理が一番関連しているのでしょうか? ランダムな写像であってもそれが非線形で次元を増やしているならば表現力に寄与しているぞということですよね?? であれば次元を増やす層はランダム固定でもよい??? ……第5パラグラフにいきましょう。ここはリザバーコンピューティングの話ですね。これは今回の研究の動機として一番わかりやすいですね。層をランダムにしてその後の学習に委ねる手法の直接的な先例なわけですから。その次のパラグラフは……言語処理の文脈でも「文章をランダムに埋め込んでもクラス分類などさまざまなタスクで性能が出る」という研究があったのですね? しかしそれらはトランスフォーマーではなかったようですね。
ともかく、イントロダクションの最後の部分をかいつまむと、リザバートランスフォーマーの論文の内容は以下のようなものですね。
- リザバー層でさまざまなタスクの汎化性能が向上したし、pre-trained model(BERT,RoBERTa)の性能も向上したと。
- 異なるタイプ(RNN 式や CNN 式なども含む)のリザバー層を試した……? ああ、エンコーダ層レベルでリザバー化するので、もはやその固定化したエンコーダ層はトランスフォーマーでなくても FFN や RNN や CNN でもいいのではないかということですね。しかし、チューニングが足りていないかもしれないなどでこれといった結論が出ていないのですかね?
- さらに "backskipping" なる手法を導入し誤差逆伝播を省いた? どのような内容かこれだけではわかりません……。

3.1 節の最後かな……連なるエンコーダ層を交互にリザバー層に置き換えるらしい。元々7層の LLLLLLL だったら LRLRLRL にするというように。Appendix C によると、交互に置き換えるのが一番よくて、リザバー層を連続させると駄目みたいにあるね。
おまけ
どの画像パスがどの表情かわからないのでメモです。これらの画像ははてなフォトライフに CC BY で公開しています。![]() 20211229151955p |
![]() 20211229152010p |
![]() 20211229151958p |
![]() 20211229152003p |
![]() 20211229152006p |
![]() 20211229165400p |
||
![]() 20211229162329p |
![]() 20211229162343p |
![]() 20211229162334p |
![]() 20211229162339p |