以下の論文を読みます。
※ キャラクターは架空のものです。私の誤りは私に帰属します。お気付きの点がありましたらコメントでご指摘ください。
今や時の人ですからね、藤井七段は。
読み進めなければわかりませんね。それで、提案手法では CoNLL 2003 と Reuters and Bloomberg という2つのデータセットに対して、ドメイン外の NER モデルよりF1スコアが 7% 上がったということですか…ベースラインのドメイン外モデルというのがどの程度ドメイン外なのかわかりませんが。イントロダクションに進むと、NER は情報抽出、質問応答、匿名化、機械翻訳、会話モデルなどにも利用されているということですね。そもそも NER モデルとは与えられた文書に対してここからここまでのスパンが人名/組織名/地名/…だといったタグ付けを行うものです。何か例は挙げられていないでしょうか?
1996-08-22 が最終的に日付じゃなくその他数値になっちゃってるのはモデルの誤りっぽいね。30,000 barrels per day まで数量として取れていないのも誤りかな。あと Heidrun が箇所によって地名にも会社名にも判定されているけど、実際に地名でも会社名でもあるんじゃなくて油田の名前っぽい。
常日頃からそんなこと思ってたの!?
…しかし、ラーメンを目の前にして「X店のラーメンだ」とはあまり言わない気がしますね。既に天下一品の店内にいたら「天下一品の」という情報は要りませんし。出前という場合もあるかもしれませんが、友人に「出前取ってくれたんだ、どこのお店で取ってくれたの?」と訊かれても、その時は逆に「天下一品だよ」だけでいいですからね。ラーメンは目の前にあるわけですから。…以上の考察より、「これは天下一品のラーメンだ」の「天下一品」は一般の四字熟語である可能性が高いです。なるほど、これが文脈の力…。
本当かな…。
それで、NER モデルは往々にして CNN や RNN(にCRF層を追加したもの)で実装されるが、近年は Bi-LSTM や Transformer や contextual string embeddings も利用されているとのことです。CRF 層は最終出力の系列に整合性をもたせるようなものですよね。 contextual string embeddings というのは何かわかりませんが、字面から察するに単語ではない何らかの文字列を埋め込むんでしょうか? それで、ニューラルネットは大量の正解付きデータを要すること、対象ドメインの正解付きデータが不足する場合には転移学習という手段があることと続きますね。
以下が紹介されているけど、これらは固有表現抽出のためのニューラルネットの転移学習の研究みたいだね、一般の転移学習の研究というわけではなく。
- simple transfer (Rodriguezet al., 2018)
- discriminative fine-tuning (Howardand Ruder, 2018)
- adversarial transfer (Zhou et al.,2019)
- layer-wise domain adaptation approaches (Yang et al., 2017; Lin and Lu, 2018)
しかしこの論文の手法は転移学習ではありませんよね。対象ドメインのラベル付きデータがないということですし。この論文では「転移学習するラベル付きデータすらないので、弱い正解ラベルたちから強い正解ラベルをつくる」という状況にみえます。
強い正解ラベルをつくってしまえばそれで転移学習できる気はするけど、「3 Approach」の節に転移学習しているような記述はないっぽいかな。転移学習と組み合わせたらどうなるのか、組み合わせない方がよいから組み合わせていないのか、気になるね。
しかし無から正解ラベルは生まれませんから、ある程度は的を射たアノテーション関数が要るんですよね? 具体的にどのような関数を採用するか気になるんですが…って、イントロダクションの節の最後にありますね。以下のようなものだということです。
他ドメインのNERモデルはいいとして、地名辞典も「この辞典に載っている単語(フレーズ)は地名」というアノテーション関数として使うのですかね。地名以外を検出できない上に、地名っぽい人名や会社名まで地名にしてしまうので精度はガタガタでしょうが。文書レベルの制約というのはなんでしょう? …後で3.1節に出てくるようですね。2節の関連研究にも目星を振っておきましょうか。情報の拾い漏れが怖いですからね。おそらく以下のような内容ですね。教師なしドメイン適応 | これは、既にあるドメインで学習したモデルがあるが、そのモデルの特徴空間を何とか別ドメインの推論に利用したいということなんでしょうか。ピボットを用いた手法というのは、この次元はドメインに関係なさそうだという軸を選ぼうとするということ? 2段落目にある例は言語をまたいだ適応なんでしょうか。コンテクストベクトルをX語にもY語にもファインチューニングしながらY語のラベリングを学習することでX語とY語で共通に利用できる特徴を利用したモデルになるということのように思われますが、原論文をあたらなければよくわかりません。 |
---|---|
アノテーションの統合 | クラウドソーシングによるアノテーションでもアノテーションの統合というのは重大な関心事になるようですね。Kim and Ghahramani (2012) は複数の予測値を線形結合したとありますが、競合するアノテーションを別々に学んだということなんでしょうか。 Hovy et al.(2013) はクラウドソーシングによるアノテーションを再現する生成モデルを学習してアノテータたちの信頼度を見積もったということですが、今回も信頼度を測ると思いますが、具体的にどうやるのか知りたいですね。 |
弱教師あり学習 | 最初に出てくる distant supervision というのは、外部リソースの特定のカテゴリのエンティティに頼るということですが、いうなれば、料理レシピからの固有表現抽出器を学習したいが、正解データがないので、ウィキペディアの食べ物カテゴリ(あるのか?)のエンティティを拝借するということでしょうか? 様々な情報ソースの精度を推定して、ソースを統合して(ソースの統合とは)、モデルを学習するようですね? しかし既存手法は系列ラベリングには不向きなようです。個々のデータが独立でないといけないからと。確かに NER でラベリング対象の単語たちは全く独立ではないですね。 |
アンサンブル学習 | この論文自体はアンサンブル学習ではないけど対比がかいてありますね。アンサンブル学習では弱学習器をたくさん用意して統合する。推論時にも個々の弱学習器に推論させて統合することになる。でもこの論文の手法では一回正解ラベルを統合するだけでよいです。…といっても、状況がそもそも違う気がします。 |
つづく