単語重要度入門 〜テキストをダイエットさせよう〜
DESCRIPTION
第3回のさくさくテキストマイニング勉強会で発表を行った資料です。TF*IDFについての解説です。http://atnd.org/events/15873TRANSCRIPT
単語重要度入門 ~テキストをダイエットさせよう~
2011/06/04id:toilet_lunch
12011年6月4日土曜日
id:toilet_lunch27歳都内某IT企業所属
22011年6月4日土曜日
id:toilet_lunch27歳都内某IT企業所属
twitterではネガティブなことばかりを書いているのでフォロー非推奨
32011年6月4日土曜日
1. 単語重要度(特徴語)について2. TF*IDF3. TF*IDFの良いところ 悪いところ4. TF*IDF以外の指標
42011年6月4日土曜日
TF*IDF !?
52011年6月4日土曜日
「バカにしてんのか!」
62011年6月4日土曜日
というくらい基本的な指標
72011年6月4日土曜日
知らないでは済まされない
82011年6月4日土曜日
今日でマスターしましょう
92011年6月4日土曜日
1. 単語重要度(特徴語)について2. TF*IDF3. TF*IDFの良いところ 悪いところ4. TF*IDF以外の指標
102011年6月4日土曜日
単語重要度の必要性・ 自由記述式のアンケートデータが山のようにあるとする・ 自分が分析したい情報について記述されているデータが欲しい・ 分析したい情報を単語で検索するのは簡単だが精度が低い・ その文章がどのような言葉で特徴付けられているかを知りたい 「Aについて詳しく書かれたアンケート」 vs 「話の流れでAという言葉が1度だけ使われたアンケート」・ 文章の特徴を知るという意味で単語にスコアをつける技術がある・ 文書を特徴でまとめあげることで全部の要素は考えなくても良い・ 文書をダイエットさせて自動で処理をしやすくしよう
112011年6月4日土曜日
単語重要度の必要性・ 自由記述式のアンケートデータが山のようにあるとする・ 自分が分析したい情報について記述されているデータが欲しい・ 分析したい情報を単語で検索するのは簡単だが精度が低い・ その文章がどのような言葉で特徴付けられているかを知りたい 「Aについて詳しく書かれたアンケート」 vs 「話の流れでAという言葉が1度だけ使われたアンケート」・ 文章の特徴を知るという意味で単語にスコアをつける技術がある・ 文書を特徴でまとめあげることで全部の要素は考えなくても良い・ 文書をダイエットさせて自動で処理をしやすくしよう
122011年6月4日土曜日
単語重要度の必要性・ 自由記述式のアンケートデータが山のようにあるとする・ 自分が分析したい情報について記述されているデータが欲しい・ 分析したい情報を単語で検索するのは簡単だが精度が低い・ その文章がどのような言葉で特徴付けられているかを知りたい 「Aについて詳しく書かれたアンケート」 vs 「話の流れでAという言葉が1度だけ使われたアンケート」・ 文章の特徴を知るという意味で単語にスコアをつける技術がある・ 文書を特徴でまとめあげることで全部の要素は考えなくても良い・ 文書をダイエットさせて自動で処理をしやすくしよう
132011年6月4日土曜日
重要度を表せるもの
仮説)1つの文書で何度も 使われてる単語は重要なのでは?
142011年6月4日土曜日
例文エビオス嬢が書いたコラムはこの2つだけだが、「オムライス」の回で話題になり、「お漏らし女子」で爆発的な人気となった。ネットではこのコラムは真面目なものなのか、それともギャグなのかといった議論が起こり、いったいどんな人が書いているのかと注目された。
ネットでは「エビオス嬢」は、休筆しているはずの有名な男性小説家ではないか、というものや、イラスト投稿サイト「pixiv」からネタを引用しているのではないか、などと諸説が飛び交っていた。
http://www.j-cast.com/2011/05/30096935.html?ly=cm&p=1
『「おもらし女子」「オムライス食べられない女」 過激コラム「エビオス嬢」の正体』J-CAST ニュース
152011年6月4日土曜日
例文エビオス嬢が書いたコラムはこの2つだけだが、「オムライス」の回で話題になり、「お漏らし女子」で爆発的な人気となった。ネットではこのコラムは真面目なものなのか、それともギャグなのかといった議論が起こり、いったいどんな人が書いているのかと注目された。
ネットでは「エビオス嬢」は、休筆しているはずの有名な男性小説家ではないか、というものや、イラスト投稿サイト「pixiv」からネタを引用しているのではないか、などと諸説が飛び交っていた。
エビオス嬢 : 2回コラム : 2回ネット : 2回
162011年6月4日土曜日
例文エビオス嬢が書いたコラムはこの2つだけだが、「オムライス」の回で話題になり、「お漏らし女子」で爆発的な人気となった。ネットではこのコラムは真面目なものなのか、それともギャグなのかといった議論が起こり、いったいどんな人が書いているのかと注目された。
ネットでは「エビオス嬢」は、休筆しているはずの有名な男性小説家ではないか、というものや、イラスト投稿サイト「pixiv」からネタを引用しているのではないか、などと諸説が飛び交っていた。
エビオス嬢 : 2回コラム : 2回ネット : 2回
良いように見えるが…
172011年6月4日土曜日
例文
、 8回は 7回の 6回で 6回
エビオス嬢が書いたコラムはこの2つだけだが、「オムライス」の回で話題になり、「お漏らし女子」で爆発的な人気となった。ネットではこのコラムは真面目なものなのか、それともギャグなのかといった議論が起こり、いったいどんな人が書いているのかと注目された。
ネットでは「エビオス嬢」は、休筆しているはずの有名な男性小説家ではないか、というものや、イラスト投稿サイト「pixiv」からネタを引用しているのではないか、などと諸説が飛び交っていた。
1.助詞や記号に負ける
182011年6月4日土曜日
例文エビオス嬢が書いたコラムはこの2つだけだが、「オムライス」の回で話題になり、「お漏らし女子」で爆発的な人気となった。ネットではこのコラムは真面目なものなのか、それともギャグなのかといった議論が起こり、いったいどんな人が書いているのかと注目された。
ネットでは「エビオス嬢」は、休筆しているはずの有名な男性小説家ではないか、というものや、イラスト投稿サイト「pixiv」からネタを引用しているのではないか、などと諸説が飛び交っていた。
1.助詞や記号に負ける2. 同じ頻度だと区別がつかない
ネット 2回コラム 2回もの 2回ない 2回この 2回
192011年6月4日土曜日
例文エビオス嬢が書いたコラムはこの2つだけだが、「オムライス」の回で話題になり、「お漏らし女子」で爆発的な人気となった。ネットではこのコラムは真面目なものなのか、それともギャグなのかといった議論が起こり、いったいどんな人が書いているのかと注目された。
ネットでは「エビオス嬢」は、休筆しているはずの有名な男性小説家ではないか、というものや、イラスト投稿サイト「pixiv」からネタを引用しているのではないか、などと諸説が飛び交っていた。
頻度だけでは限界がある
202011年6月4日土曜日
例文エビオス嬢が書いたコラムはこの2つだけだが、「オムライス」の回で話題になり、「お漏らし女子」で爆発的な人気となった。ネットではこのコラムは真面目なものなのか、それともギャグなのかといった議論が起こり、いったいどんな人が書いているのかと注目された。
ネットでは「エビオス嬢」は、休筆しているはずの有名な男性小説家ではないか、というものや、イラスト投稿サイト「pixiv」からネタを引用しているのではないか、などと諸説が飛び交っていた。
頻度だけでは限界がある
TF*IDFの登場212011年6月4日土曜日
1. 単語重要度(特徴語)について2. TF*IDF3. TF*IDFの良いところ 悪いところ4. TF*IDF以外の指標
222011年6月4日土曜日
TF*IDF
(参考)http://tfidf.net/memos/tfidf.htm
単語の頻度(TF)とIDF(後述)をかけ合わせた指標 IDFはKaren Sparck Jones が1972年に提案
情報検索分野のアルゴリズム経験則(ヒューリスティクス)
232011年6月4日土曜日
TF*IDF
(参考)http://tfidf.net/memos/tfidf.htm
単語の頻度(TF)とIDF(後述)をかけ合わせた指標 IDFはKaren Sparck Jones が1972年に提案
情報検索分野のアルゴリズム経験則(ヒューリスティクス)実務上、これさえ知っていればほとんど問題ない
242011年6月4日土曜日
IDFInverse Document Frequency「単語が含まれる文書割合の逆数(の対数)」
定性的見方 : 「どの文書にも使われているような 単語の価値は低い(特徴がない)」
252011年6月4日土曜日
IDFInverse Document Frequency「単語が含まれる文書割合の逆数(の対数)」
定性的見方 : 「どの文書にも使われているような 単語の価値は低い(特徴がない)」
単語のスコアを下げる指標
262011年6月4日土曜日
文書数:1万単語:あの,もの,は,コラム
単語を含む文書数(DF):あの (4000)もの (2000)は (8000)コラム (500)
272011年6月4日土曜日
文書数:1万単語:あの,もの,は,コラム
単語のIDF:あの 10000/4000 = 2.5 もの 10000/2000 = 5は 10000/8000 = 1.25コラム 10000/500 = 20
282011年6月4日土曜日
文書数:1万単語:あの,もの,は,コラム
単語のIDF:あの 10000/4000 = 2.5 もの 10000/2000 = 5は 10000/8000 = 1.25コラム 10000/500 = 20エビオス嬢 10000/1 = 10000!
292011年6月4日土曜日
文書数:1万単語:あの,もの,は,コラム
単語のTF*IDF:あの 2 × 10000/4000 = 5 もの 2 × 10000/2000 = 10は 8 × 10000/8000 = 10コラム 2 × 10000/500 = 40エビオス嬢 2 × 10000/1 = 20000!
302011年6月4日土曜日
文書数:1万単語:あの,もの,は,コラム
単語のTF*IDF:あの 1000 × 10000/4000 = 2500 もの 2 × 10000/2000 = 10は 8 × 10000/8000 = 10コラム 2 × 10000/500 = 40エビオス嬢 2 × 10000/1 = 20000!
1000回「あの」が出てきても勝てない
312011年6月4日土曜日
特殊な表現であるというだけでIDF値が跳ね上がる
322011年6月4日土曜日
特殊な表現であるというだけでIDF値が跳ね上がる ⇒ 常用対数を取って数字を抑える
332011年6月4日土曜日
10 = 100
対数(log)2
この関係をlogを使って下に書き直せるlog (100) = 2
10
342011年6月4日土曜日
10 = 100
対数(log)2
この関係をlogを使って下に書き直せるlog (100) = 2
10
⇒ 指数を計算するための演算
特に、「10の何乗か」を考える対数を常用対数と呼ぶ
352011年6月4日土曜日
文書数:1万単語:あの,もの,は,コラム
単語のIDF:あの 10000/4000 = 2.5 もの 10000/2000 = 5は 10000/8000 = 1.25コラム 10000/500 = 20エビオス嬢 10000/1 = 10000!
362011年6月4日土曜日
文書数:1万単語:あの,もの,は,コラム
単語のIDF(対数):あの log(10000/4000) = 0.398 もの log(10000/2000) = 0.699は log(10000/8000) = 0.097コラム log(10000/500) = 1.30エビオス嬢 log(10000/1) = 4
372011年6月4日土曜日
文書数:1万単語:あの,もの,は,コラム
単語のTF*IDF(対数):あの 2 × log(10000/4000) = 0.796 もの 2 × log(10000/2000) = 1.40は 8 × log(10000/8000) = 0.776コラム 2 × log(10000/500) = 2.60エビオス嬢 2 × log(10000/1) = 8
382011年6月4日土曜日
1. 単語重要度(特徴語)について2. TF*IDF3. TF*IDFの良いところ 悪いところ4. TF*IDF以外の指標
392011年6月4日土曜日
TF*IDFの良いところ・簡単 ヒューリスティクスで理解しやすい 実装も簡単(掛け算するだけ) IDFを計算するための文書を集める作業が面倒
・実績がある IDF提唱後、40年経った今でも実務で主戦力
402011年6月4日土曜日
TF*IDFの良いところ・簡単 ヒューリスティクスで理解しやすい 実装も簡単(掛け算するだけ) IDFを計算するための文書を集める作業が面倒
・実績がある IDF提唱後、40年経った今でも実務で主戦力
仕事で使うならまずコレ
412011年6月4日土曜日
TF*IDFの悪いところ・ゼロ頻度問題普通、「エビオス嬢」なんて表現は他のどの文書でも出現しないIDF = 10000/0 = 計算不能?? ⇒ 0回を0.1回とみなすなどのスムージングと呼ばれる改善手法がある(奥が深い話なので興味のある方は調べてください)
・低頻度テキストに向かない twitterなどの短いテキストだと頻度がどの単語もほぼ1になるため、IDFだけで重要度を計算することになる。
422011年6月4日土曜日
1. 単語重要度(特徴語)について2. TF*IDF3. TF*IDFの良いところ 悪いところ4. TF*IDF以外の指標
432011年6月4日土曜日
TF*IDF以外の指標・相互情報量文書にカテゴリが与えられている場合の、単語とカテゴリの関連の強さをスコアとするex. 単語「iPhone」がカテゴリ「IT」に頻出し、 カテゴリ「IT以外」に一切出現しなかった場合、 単語「iPhone」はカテゴリ「IT」の文書の特徴語といえる。
・TF*KLI IDFを一種の「情報量」とみなせるので、 それを「カルバック・ライブラー情報量」と呼ばれるものに置き換えている
442011年6月4日土曜日
TF*IDF以外の指標
・representativeness 単語の話題性、分野代表性を表すもの 分かりません http://ci.nii.ac.jp/naid/110002935168
452011年6月4日土曜日
難しいのでTokyoNLPで勉強しましょう
462011年6月4日土曜日
https://groups.google.com/group/tokyotextmining
TokyoNLP 主催:@nokuno様
DSIRNLP主催:@overlast様
https://groups.google.com/group/dsirnlp
472011年6月4日土曜日
ご清聴ありがとうございました
482011年6月4日土曜日