tf-idf

Wikipediaの解説によると以下で求められるらしい。

tf-idf = tf * idf
tf = ドキュメントのある単語の出現回数 / ドキュメント中の全ての単語の出現回数
idf = log(すべてのドキュメント数 / 単語を含むドキュメント数)

tf-idf

コードを書いて動かして見たらこうなった。

屋根   0.06931471805599453
男性  0.03960841031771116
雪 0.03465735902799726
館 0.02970630773828337
市 0.02970630773828337
----
学校  0.05401146861506067
県 0.036007645743373784
神奈川   0.036007645743373784
支給  0.036007645743373784
朝鮮  0.027005734307530335
----
機関  0.04780325383172036
アメリカ    0.04780325383172036
政府  0.04780325383172036
閉鎖  0.03824260306537629
サービス    0.03824260306537629
----
関東  0.050966704452937155
気圧  0.04077336356234972
雪 0.030580022671762293
月曜日   0.030580022671762293
気象庁   0.030580022671762293
----