論文読みメモ： Named Entity Recognition without Labelled Data: A Weak Supervision Approach（その1）

以下の論文を読みます。

Pierre Lison, Jeremy Barnes, Aliaksandr Hubin, Samia Touileb. Named Entity Recognition without Labelled Data: A Weak Supervision Approach. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020. Named Entity Recognition without Labelled Data: A Weak Supervision Approach - ACL Anthology

※ キャラクターは架空のものです。私の誤りは私に帰属します。お気付きの点がありましたらコメントでご指摘ください。

f:id:cookie-box:20200531131544p:plain:w60

対象ドメインのアノテーションデータがないときに固有表現抽出を学習する方法でしょうか。アノテーションデータがないのに学習できるとは非常に便利そうな話ですが…仕組みとしては、

自動的にアノテーションする関数を複数用意して、
それらのアノテーションの正確さを推定する隠れマルコフモデルを用意して、
最終的に統合されたアノテーションにしたがって系列ラベリングモデルを学習すると。

これは、精度のよくないアノテーション関数を集めて洗練されたアノテーションにするということなんでしょうか？ …でも、適当にその辺の人々を100人集めてチームを組ませたところで藤井聡太七段に将棋で勝つことはできませんよね？

f:id:cookie-box:20200531131606p:plain:w60

藤井七段に喩えるの好きだね。

今や時の人ですからね、藤井七段は。

話を戻すと、もしアノテーションを統合するときに個々のアノテーション関数よりもっと長い文脈を考慮するなら、統合後はより洗練されるんじゃないかな。「ここの単語は固有表現スパン内なのか固有表現スパン外なのかアノテーション関数によって意見が割れて不確かだ」となっていた箇所も、長い文脈をみてみたら「実はアノテーションが確かなパターンに似ている」というのが拾えるとかあるかもしれないし。ただアノテーション関数たちがいい感じにバラエティに富んでなければならないと思うけど。

読み進めなければわかりませんね。それで、提案手法では CoNLL 2003 と Reuters and Bloomberg という2つのデータセットに対して、ドメイン外の NER モデルよりF1スコアが 7% 上がったということですか…ベースラインのドメイン外モデルというのがどの程度ドメイン外なのかわかりませんが。イントロダクションに進むと、NER は情報抽出、質問応答、匿名化、機械翻訳、会話モデルなどにも利用されているということですね。そもそも NER モデルとは与えられた文書に対してここからここまでのスパンが人名／組織名／地名／…だといったタグ付けを行うものです。何か例は挙げられていないでしょうか？

1526ページに今回の個々のアノテーションと、それを HMM で統合したものが載っているね。統合したアノテーションのみ示すよ。背景色の凡例は、政治的機能をもつ地名、地名、会社名、組織名、日付、数量、その他数値にしているよ。

論文1526ページより

Well repairs to lift Heidrun oil output - Statoil. OSLO 1996-08-22 Three plugged water injection wells on the Heidrun oilfield off mid-Norway will be reopened over the next month, operator Den Norske Stats Oljeselskap AS ( Statoil ) said on Thursday. The plugged wells have accounted for a dip of 30,000 barrels per day ( bpd ) in Heidrun output to roughly 220,000 bpd, accordingto the company’s Status Weekly newsletter . The wells will be reperforated and gravel will be pumped into the reservoir through one of the wells to avoid plugging problems in the future , it said . – Oslo newsroom

1996-08-22 が最終的に日付じゃなくその他数値になっちゃってるのはモデルの誤りっぽいね。30,000 barrels per day まで数量として取れていないのも誤りかな。あと Heidrun が箇所によって地名にも会社名にも判定されているけど、実際に地名でも会社名でもあるんじゃなくて油田の名前っぽい。

まあでもこうしてみると、ノルウェーの油田関連（？）のドメイン知識なしにアノテーションできる気がしませんね。…そういえば、常日頃から思っていたんですが、「これは天下一品のラーメンだ」という文章があったとき、「天下一品」をアノテーションするのは難しいと思いませんか？ラーメン店の可能性も、一般の四字熟語の可能性もあります。

常日頃からそんなこと思ってたの！？

…しかし、ラーメンを目の前にして「X店のラーメンだ」とはあまり言わない気がしますね。既に天下一品の店内にいたら「天下一品の」という情報は要りませんし。出前という場合もあるかもしれませんが、友人に「出前取ってくれたんだ、どこのお店で取ってくれたの？」と訊かれても、その時は逆に「天下一品だよ」だけでいいですからね。ラーメンは目の前にあるわけですから。…以上の考察より、「これは天下一品のラーメンだ」の「天下一品」は一般の四字熟語である可能性が高いです。なるほど、これが文脈の力…。

本当かな…。

それで、NER モデルは往々にして CNN や RNN（にCRF層を追加したもの）で実装されるが、近年は Bi-LSTM や Transformer や contextual string embeddings も利用されているとのことです。CRF 層は最終出力の系列に整合性をもたせるようなものですよね。 contextual string embeddings というのは何かわかりませんが、字面から察するに単語ではない何らかの文字列を埋め込むんでしょうか？それで、ニューラルネットは大量の正解付きデータを要すること、対象ドメインの正解付きデータが不足する場合には転移学習という手段があることと続きますね。

以下が紹介されているけど、これらは固有表現抽出のためのニューラルネットの転移学習の研究みたいだね、一般の転移学習の研究というわけではなく。

simple transfer (Rodriguezet al., 2018)
discriminative fine-tuning (Howardand Ruder, 2018)
adversarial transfer (Zhou et al.,2019)
layer-wise domain adaptation approaches (Yang et al., 2017; Lin and Lu, 2018)

しかしこの論文の手法は転移学習ではありませんよね。対象ドメインのラベル付きデータがないということですし。この論文では「転移学習するラベル付きデータすらないので、弱い正解ラベルたちから強い正解ラベルをつくる」という状況にみえます。

強い正解ラベルをつくってしまえばそれで転移学習できる気はするけど、「3 Approach」の節に転移学習しているような記述はないっぽいかな。転移学習と組み合わせたらどうなるのか、組み合わせない方がよいから組み合わせていないのか、気になるね。

しかし無から正解ラベルは生まれませんから、ある程度は的を射たアノテーション関数が要るんですよね？具体的にどのような関数を採用するか気になるんですが…って、イントロダクションの節の最後にありますね。以下のようなものだということです。

様々なドメインで学習したニューラルネットNERモデル
地名辞典（gazetteer）
ヒューリスティックな関数
文書レベルの制約

他ドメインのNERモデルはいいとして、地名辞典も「この辞典に載っている単語（フレーズ）は地名」というアノテーション関数として使うのですかね。地名以外を検出できない上に、地名っぽい人名や会社名まで地名にしてしまうので精度はガタガタでしょうが。文書レベルの制約というのはなんでしょう？ …後で3.1節に出てくるようですね。2節の関連研究にも目星を振っておきましょうか。情報の拾い漏れが怖いですからね。おそらく以下のような内容ですね。

教師なしドメイン適応	これは、既にあるドメインで学習したモデルがあるが、そのモデルの特徴空間を何とか別ドメインの推論に利用したいということなんでしょうか。ピボットを用いた手法というのは、この次元はドメインに関係なさそうだという軸を選ぼうとするということ？ 2段落目にある例は言語をまたいだ適応なんでしょうか。コンテクストベクトルをX語にもY語にもファインチューニングしながらY語のラベリングを学習することでX語とY語で共通に利用できる特徴を利用したモデルになるということのように思われますが、原論文をあたらなければよくわかりません。
アノテーションの統合	クラウドソーシングによるアノテーションでもアノテーションの統合というのは重大な関心事になるようですね。Kim and Ghahramani (2012) は複数の予測値を線形結合したとありますが、競合するアノテーションを別々に学んだということなんでしょうか。 Hovy et al.(2013) はクラウドソーシングによるアノテーションを再現する生成モデルを学習してアノテータたちの信頼度を見積もったということですが、今回も信頼度を測ると思いますが、具体的にどうやるのか知りたいですね。
弱教師あり学習	最初に出てくる distant supervision というのは、外部リソースの特定のカテゴリのエンティティに頼るということですが、いうなれば、料理レシピからの固有表現抽出器を学習したいが、正解データがないので、ウィキペディアの食べ物カテゴリ（あるのか？）のエンティティを拝借するということでしょうか？様々な情報ソースの精度を推定して、ソースを統合して（ソースの統合とは）、モデルを学習するようですね？しかし既存手法は系列ラベリングには不向きなようです。個々のデータが独立でないといけないからと。確かに NER でラベリング対象の単語たちは全く独立ではないですね。
アンサンブル学習	この論文自体はアンサンブル学習ではないけど対比がかいてありますね。アンサンブル学習では弱学習器をたくさん用意して統合する。推論時にも個々の弱学習器に推論させて統合することになる。でもこの論文の手法では一回正解ラベルを統合するだけでよいです。…といっても、状況がそもそも違う気がします。

上の4つは、それぞれ状況が以下のように違うような気がします。雰囲気ですが。

推論したいことがあるが、ちょっと違うデータセットで学習したモデルしかない。
推論したいことがあるが、不確かな正解ラベルの付き方たちしかない。
推論したいことがあるが、ちょっと違うデータセットたちしかない。
推論したいことがあるが、個々のモデルが弱い。

つづく