tf-idf
Wikipediaの解説によると以下で求められるらしい。
tf-idf = tf * idf tf = ドキュメントのある単語の出現回数 / ドキュメント中の全ての単語の出現回数 idf = log(すべてのドキュメント数 / 単語を含むドキュメント数)
コードを書いて動かして見たらこうなった。
屋根 0.06931471805599453 男性 0.03960841031771116 雪 0.03465735902799726 館 0.02970630773828337 市 0.02970630773828337 ---- 学校 0.05401146861506067 県 0.036007645743373784 神奈川 0.036007645743373784 支給 0.036007645743373784 朝鮮 0.027005734307530335 ---- 機関 0.04780325383172036 アメリカ 0.04780325383172036 政府 0.04780325383172036 閉鎖 0.03824260306537629 サービス 0.03824260306537629 ---- 関東 0.050966704452937155 気圧 0.04077336356234972 雪 0.030580022671762293 月曜日 0.030580022671762293 気象庁 0.030580022671762293 ----