2022-06-06から1日間の記事一覧

雑記: 百人一首に「秋風」が登場する歌は3首あるので逆文書頻度は log(100/3)

まとめ sklearn.feature_extraction.text.TfidfVectorizer で TF-IDF 値を出すとデフォルトでは[その文書内でのその単語の出現回数]×[log( (1 + 全文書数) / (1 + その単語が出現する文書数) ) + 1]を文書ごとに L2 正規化したものである。 参考文献 tf-…