2022-06-01から1ヶ月間の記事一覧

雑記: SQL で適当に AUC を計算すると遅い

追記: この記事には 2 通りの方法をかいているが前者の方法は遅いので後者の方法(つまり参考文献 [1] の方法)でやるのがよい。 参考文献 SQLでAUCを算出する方法 |Dentsu Digital Tech Blog|note(2022年6月22日参照). Prestoでは集計関数をWINDOW関…

雑記: 学習し過ぎてほしくない話

お気付きの点がありましたらご指摘いただけますと幸いです。 Overfitting - Wikipedia(2022年6月20日参照). model selection - Why isn't Akaike information criterion used more in machine learning? - Cross Validated(2022年6月20日参照). Can the …

雑記: 百人一首に「秋風」が登場する歌は3首あるので逆文書頻度は log(100/3)

まとめ sklearn.feature_extraction.text.TfidfVectorizer で TF-IDF 値を出すとデフォルトでは[その文書内でのその単語の出現回数]×[log( (1 + 全文書数) / (1 + その単語が出現する文書数) ) + 1]を文書ごとに L2 正規化したものである。 参考文献 tf-…