お気付きの点がありましたらご指摘いただけますと幸いです。
💜

💛

- 以前の記事に Reformer について以下の記述が残されていたのですが、読み返しても何の役にも立ちませんでした。論文の4ページ目に絵があります。なんというか、処理するステップたちをあるルールで「青組、黄組、赤組、白組」に組分けした上で人口の多い組から順に並べ、等間隔にサブ系列に切って、「サブ系列内 or 自分の組内のみでアテンションする」といった感じです。それで組分けのルール locality sensitive hashing が肝心ですが、これは3ページ目の図でしょうか。点 x とその少し後ろにいる点 y があったとして、点 x をランダムに回転させたときに同じ色のエリアにいるか、といった絵にみえますが…
- それ一応自分のセリフという体裁じゃないか……。
- なのでいま一度原著 [1] をあたると、Reformer では $Q=K$ にするとのことです。先を読み進めると $q_1, \cdots, q_n$ と $k_1, \cdots, k_n$ を一緒くたにして近傍探索をしたいのでそうするということだと思うのですが、一緒くたにしなくても近傍探索をして $k_j$ だったら捨てるとかできないのでしょうか? $Q$ と $K$ を別物として学習するとやはり $q_i$ の周辺には $q_j$ ばかりになってしまうのでしょうか?
- それでじゅうぶんな性能が出るといっているならそれでいいんじゃない? 実験の節のテーブルを眺めても $Q$ と $K$ を別々にしたものも比較しましたとかはなさそうだね。というか眺めていて思ったけど Reformer って何の略なんだろう……Reversible Transformer は先行手法だよね……。
- まあそれで、ソフトマックスというものはソフトマックス対象の配列のうち大きい成分たちが支配的なので、$i$ 単語目からのソフトマックスを得るときに $q_i$ に近いような $k_i$ たち(正体は $q_i$ たちだが)に興味があるとのことです。単語長が 64K であっても $q_i$ に近い 32 単語でじゅうぶんだと。そういわれると 32 単語もとればじゅうぶんそうに思えます。