2016.03.11 「論文に書(け|か)ない自然言語処理」...
TRANSCRIPT
ソーシャルメディア分析サービスにおけるNLPに関する諸問題について
株式会社ホットリンク
榊 剛史 水木 栄
サービス紹介
ソーシャルメディア分析ツール
Copyright© Hottolink, Inc.
▶TOPICS ソーシャルメディア分析ツールの機能
検索機能 記事数集計
本文抽出
Copyright© Hottolink, Inc.
▶TOPICS ソーシャルメディア分析ツールの機能
話題語
関連語
Copyright© Hottolink, Inc.
▶TOPICS 分析機能とNLP技術の関係
検索 関連語 話題語 評判
属性推定 スパム判定
形態素解析 (分かち書き)
複合語処理 評判分析
スパムフィルタ ユーザ属性
係り受け解析
ソーシャルメディアの文書
前処理
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS ソーシャルメディアに見られる文書の特徴
「高飛車」だけじゃない…過去に起きたジェットコースター
の事故 http://dlvr.it/Kjs0CJ #事件 #事故
ファミマのおそ松さんクリアファイルとクリアコースター
の推し松買えた♡♡.+*:゚+。7時に行ったのに最後の
全松最後の1枚だった(笑)凄い人気だな(笑)さてまた
お菓子が増えた…(:3)っ⌒つ
【おそ松さん】予約のオススメ① 5月発売予定
「ラバーコースターvol.2」が好評予約受付中どす
え!! 六つ子の変顔、ヤバ顔、おもろ顔、ドヤ顔、
あざと顔、チョロ顔といろんな表情がぜんぶカワイイ
グッズどすぅ!ご予約はアニメイト京都店で!
種類 説明
複合名詞 一般単名詞が連接して作られる名詞
固有表現(複合名詞含む) 人名や地名などといった固有名詞や、日付表現、時間表現など
専門用語(jargon) 特定の集団のみで通じる用語
口語表現(Slang) 話し言葉のようなくだけた表現
顔文字・絵文字(emoticon) 表情や動作を図的に表現する文字や記号、単独の文字の集合
テキストメタ情報 テキスト形式で本文に埋め込まれたメタ情報
Copyright© Hottolink, Inc.
▶TOPICS 目的に即した分かち書きの必要性
目的 望ましい要件
検索インデックスの作成 ([高橋ら 2016])
・短単位志向であること(Recall確保のため) ・再現性が高いこと ・高速に動作すること
固有表現/エンティティ抽出 単語分散表現の前処理
・長単位志向であること、 理想的には固有表現/エンティティと同一単位であること ・未知語に頑健であること
未知語の自動獲得 ・辞書に依存しないこと ・人手による整備を必要としないこと
• 分かち書き=文を「意味の基本単位」である語に分割すること
• 日本語NLPにおいて、基本単位をどのように定めるかは難しい問題である(黒橋[2016])
• NLP応用サービスにおいても、適切な分かち書きの方法は目的に応じて異なる。代表的なものとして下表の3例を挙げる
• 目的に応じて要件が異なるため、汎用的手法のみによる解決は困難である
Copyright© Hottolink, Inc.
▶TOPICS 目次
1. 前処理 • 文字の正規化
• テキストメタ情報の除去・抽出
2. 分かち書き・形態素解析 • 辞書の拡張
• カタカナ複合語の分割
• 顔文字の認識
3. 複合語処理 • ルールに基づく連結
• 連接頻度に基づく統計的な連結
Copyright© Hottolink, Inc.
▶TOPICS 1. 前処理
検索 関連語 話題語
形態素解析 (分かち書き)
複合語処理
ソーシャルメディアの文書
前処理
Copyright© Hottolink, Inc.
▶TOPICS 文字の正規化
問題例
Playstation3(全角) ⇔ Playstation3(半角) ㍉ ⇔ ミリ ハ゛ラモス ⇔ バラモス
• 見た目上は同じような・類似した表記でも、内部表現(文字コード)としては異なる表記として扱われる場合が多数ある。
• 見た目上の表記が同じであれば、同じ文字列として扱いたい
解決策 Unicode正規化(NFKC)を用いる
• Unicode正規化:等価な文字や文字の並びを統一的な内部表現に変換すること
正規化前 NFD(正規分解) NFKD(互換分解) NFC(正規合成) NFKC(互換合成)
が か+゛ か+゛ が が
か+゛ か+゛ か+゛ が が
ア(全角) ア ア ア ア
ア(半角) ア ア ア ア
Copyright© Hottolink, Inc.
▶TOPICS 文字の正規化
• Unicodeの正規化(Unicode[1998]) – NFD(Normalization Form Canonical Decomposition)
• 正準等価性に基づく分解
– NFC(Normalization Form Canonical Composition)
• 正準等価性に基づく分解後、正準等価性に基づいて再度合成
– NFKD(Normalization Form Compatibility Decomposition)
• 互換等価性に基づく分解
– NFKC(Normalization Form Compatibility Composition)
• 互換等価性に基づく分解後、正準等価性に基づいて再度合成
分解: が(U+304c)→か(U+304b)+゛ (U+3099)
合成: か(U+304b)+゛ (U+3099)→が(U+304c)
互換等価性:見た目がまったく同じではないが、内部表現が異なる
ア(U+FF71)→ア(30a2)
正準等価性:文字コードは異なるが、外見上は同じである
が(U+304c)→か(U+304b)+゛ (U+3099)
参考
Copyright© Hottolink, Inc.
▶TOPICS 文字の正規化
参考 正規化対象外の文字→ ‘Punctuation, Dash’ カテゴリ
http://www.fileformat.info/info/unicode/category/Pd/list.htm https://hydrocul.github.io/wiki/blog/2014/1101-hyphen-minus-wave-tilde.html
Copyright© Hottolink, Inc.
▶TOPICS テキストメタ情報の除去・抽出
問題例
• ソーシャルメディアの場合、文書に対するメタ情報がテキスト形式で本文に埋め込まれることが多い
• これらのメタ情報により分かち書き誤りが発生する場合がある
種類 事例 正規表現
URL pic.twitter.com/oW4JAHFfBF 秘伝のタレのため削除
ハッシュタグ #nlp2016, ¥#¥S+
ユーザ名 @noroke_miner ¥@[a-zA-Z0-9_]
解決策 正規表現による除去・抽出
• 除去:URLやユーザ名(screen_name)のように、単語として扱わない語は、正規表現で除去
• 抽出:ハッシュタグのように、単語として扱いたい語は、正規表現で除去した後、最後の分かち書き結果に追加する
Copyright© Hottolink, Inc.
▶TOPICS 2. 分かち書き・形態素解析
検索 関連語 話題語
分かち書き 形態素解析
複合語処理
ソーシャルメディアの文書
前処理
Copyright© Hottolink, Inc.
▶TOPICS 辞書の拡張
• 固有表現/エンティティ抽出を志向する場合、固有表現の単位で分かち書きされることが望ましい
• 汎用志向の辞書(ipadic, unidicなど)を用いると、分割が過剰になりやすい
分類 固有表現 MeCab + IPADIC(Ver.2.7.0)
新語 スマートフォン スマート|フォン
人名 福山雅治 福山|雅治
ランドマーク 東京スカイツリー 東京|スカイ|ツリー
専門用語 消費者態度指数 消費|者|態度|指数
問題例
アプローチ
• 固有表現を簡便かつ高精度に獲得したい場合、辞書の拡張が有効である
• 特にソーシャルメディアに対しては、ウェブ上の情報から獲得した語彙との親和性が高い – 芸能、社会、政治・経済、組織・企業、音楽、ゲーム・アニメ…
• 情報ソースとしては、ユーザー生成型百科事典の見出し語が特に有用である – Wikipedia日本語版、はてなキーワード(© 2001 Hatena)
Copyright© Hottolink, Inc.
▶TOPICS 辞書の拡張
• mecab-ipadic-NEologd(Sato[2015])は、ウェブ上の言語資源から得た新語を追加したMeCab用辞書を一般に公開する試みである
• 利用の障壁が低く、処理速度・網羅性に優れた方法である
分類 固有表現 MeCab + mecab-ipadic-NEologd(Ver.2016-02-01)
新語 スマートフォン スマートフォン
人名 福山雅治 福山雅治
ランドマーク 東京スカイツリー 東京スカイツリー
専門用語 消費者態度指数 消費者態度指数
解決策
対処困難な事象
• ウェブ上の言語資源、特にウェブ百科事典の見出し語には、形態素辞書エントリとして不適切なものも含まれているため、取捨選択処理が必要である – 不適当な見出し語の例: 「あ」「1月1日」「企業一覧」「明日の私」「よろしくお願いします」…
• JUMAN辞書の手法(柴田ら[2012])のように、既存の形態素解析器の出力を素性として利用するアプローチが有力である – 一形態素とみなすルールを定義する、二値分類器を学習する など
Copyright© Hottolink, Inc.
▶TOPICS カタカナ複合語の分割
• 英語複合語は、カタカナ複合語として表記される場合が多い – 例:Crew Neck Raglan Shirt = クルーネックラグランシャツ
– 特に衣料品・食料品・化粧品に多い印象
• IPADICは多くの場合に望ましい結果を返してくれるが、カタカナ複合語は分かち書きされないことが多い。これは検索のRecallなどに悪影響を及ぼしうる
問題例
アプローチ
• 短単位を志向したユーザ辞書を併用する、あるいはシステム辞書を利用することが有効である
英語複合語 カタカナ複合語 MeCab + IPADIC(Ver.2.7.0)
Crew Neck Raglan Shirt クルーネックラグランシャツ クルーネックラグランシャツ
Sliced Tomato Salad スライストマトサラダ スライストマトサラダ
Face Cleansing Oil フェイスクレンジングオイル フェイスクレンジングオイル
Copyright© Hottolink, Inc.
▶TOPICS カタカナ複合語の分割
• IPADICを用いて形態素解析を行ってから、長文字数のカタカナ語のみを抽出して、UniDic(小木曽ら[2013])を用いて再解析を行う
• UniDicは揺れの少ない短単位で設計されているため、一般名詞については分かち書きされる場合が多い
• 利用の障壁が低く、処理速度・再現性に優れた方法である
解決策
対処困難な事象
• 品詞体系が異なるため、分析者自身が適宜補正する必要がある
• 未知語(特に新語)を含む場合は不十分
英語複合語 カタカナ複合語 MeCab + UniDic(Ver.2.1.2)
Crew Neck Raglan Shirt クルーネックラグランシャツ クルー|ネック|ラグラン|シャツ
Sliced Tomato Salad スライストマトサラダ スライス|トマト|サラダ
Face Cleansing Oil フェイスクレンジングオイル フェイス|クレンジング|オイル
Copyright© Hottolink, Inc.
▶TOPICS 顔文字の認識
• 顔文字は、顔のように見える文字・記号列を用いた表現である。ソーシャルデータにおいては頻繁に利用される – 「\(^o^)/」「(>_<)」「(^^)」「(*^^*)」いずれかを含むブログ記事は、全記事の3.6%を占める
• 汎用志向の辞書を用いると、記号列として分かち書きされる場合が多い – IPADICの場合、厳密には「名詞-サ変接続」品詞が付与される場合が多い
• 理想的には、感情語の一種として取り扱いたい – 評判分析などの特徴量として有効
顔文字 MeCab + IPADIC(Ver.2.7.0)
\(^o^)/ \(^␣o␣^)/
(´・ω・`) (´␣・␣ω␣・␣`)
(´Д` ) (´␣Д␣` ␣)
問題例
アプローチ
• 簡便かつ分かち書きのみを目的とする場合、ルールベースの処理が有効
• Precisionを制御しつつ感情語への置換を目的とする場合、辞書の拡張が有効
Copyright© Hottolink, Inc.
▶TOPICS (参考)顔文字の統計的性質
• 顔文字を単語とみなして単語分散表現を推定、次元圧縮を行うと、おおむね感情語と整合的な配置が得られる
出典:弊社・風間研究室の共同研究 Word2Vec + t-SNE
Copyright© Hottolink, Inc.
▶TOPICS 顔文字の認識
• 顔文字の規則性を利用して、抽出する(風間ら[2013],三好[2013])
※本技術は、和歌山大学 風間研究室からの技術提供による
• 短所は、(1)誤認識が生じること (2)対応する感情語が自明でないこと
解決策その1
解決策その2
• 顔文字頻度分布がZipFの法則に従うことを仮定して、出現頻度の高い顔文字を辞書に登録する – 実際にZipFの法則はよく当てはまる。上位5,000種類で約90%(推定値)を網羅できる
• 原形に感情語を登録することにより、顔文字を単語に置換・集約できる – 感情語は単語分散表現を用いて推定する(黒崎[2015])
• mecab-ipadic-NEologdにも一部の顔文字が登録されている
顔文字 MeCab + mecab-ipadic-NEologd(Ver.2016-02-01) 原形
\(^o^)/ \(^o^)/ バンザイ
(´・ω・`) (´␣・␣ω␣・␣`) -
(´Д` ) (´Д` ) カオモジ
Copyright© Hottolink, Inc.
▶TOPICS 顔文字の認識
対処困難な事象
• 顔文字は改変が容易であるため、活用形(?)が大量に存在する – 改変の例:パーツの置換、装飾の付与・除去、スペースの挿入、繰り返し など
– 活用形を別種と認識すると、顔文字の種類は数十万に上る
• 活用形を自動的に認識して、基本形(?)に集約することが望ましい
• 文字n-gramを素性に用いることで、相応の精度を実現することができる – 下表は Bag-of-char-{uni+bi}gram + NMF(dim=20) + L2.distance(top-k) で作成したもの
基本形 活用形1 活用形2 活用形3 活用形4
(〃∇〃) (〃∇〃)ゞ (〃~∇~〃) (ノ∇〃) (>∧<)
ヽ(≧▽≦)/ ヽ(〃▽〃)/ ヽ(≧∇≦)/ ヽ(≧▽≦)/♪ ♪ヽ(≧▽≦)/
(#^_^#) (^_^#) (^_^)# (^_^)q p(^_^)
(^-^)o o(^-^) (o^-^) (^-^o) ヾ(^o^-)
(ρ_-)ノ (ノ_-) (ρ_-) (つ_-) (σ_-)
((´^ω^)) ((´^ω^))♪ ((´^ω^) ((´^ω^))♥ ヾ(´^ω^)ノ
出典:弊社分析
Copyright© Hottolink, Inc.
▶TOPICS 3. 複合語処理
検索 関連語 話題語
分かち書き 形態素解析
複合語処理
ソーシャルメディアの文書
前処理
Copyright© Hottolink, Inc.
▶TOPICS ルールに基づく連結
問題例
• 複合名詞において、結合される品詞には一定のパターンがある
• 上記パターンに注目し、複合名詞となりうるかの手がかりとして用いる
種類 複合名詞 MeCab + IPADIC(Ver.2.7.0)
固有表現(地名) アスティ三島駅 アスティ|三島|駅
固有表現(地名) 裏なんば 裏|なんば
固有表現(製品名) 牧場の朝 牧場|の|朝
固有表現(製品名) 有吉の怒り新党 有吉|の|怒り|新党
専門用語(ジャニーズ) スマ兄さん スマ|兄さん
専門用語(ソシャゲ) 無課金 無|課金
アプローチ
• 固有表現/エンティティ抽出のほか、特徴語抽出・トピック抽出・係り受け解
析における専門用語抽出においては、未知語を固有表現の単位で分かち書きされることが望ましい
• 汎用志向の辞書(ipadic, unidicなど)を用いると、分割が過剰になりやすい
Copyright© Hottolink, Inc.
▶TOPICS ルールに基づく連結
解決策 複合名詞として認識すべき品詞の連接パターンを予め定めておく
アスティ|三島|駅
名詞,固有名詞,組織 名詞,固有名詞,組織 名詞,接尾,地域
牧場|の|朝
名詞,一般,* 助詞,連体化,* 名詞,副詞可能,*
複合名詞 種類 品詞の連接情報 名詞
アスティ三島駅 固有表現(地名) (名詞,固有名詞,組織)(名詞,固有名詞,組織)(名詞,接尾,地域) TRUE
裏なんば 固有表現(地名) (名詞,一般,*)(名詞,固有名詞,地域) TRUE
牧場の朝 固有表現(製品名) (名詞,一般,*)( 助詞,連体化,*)(名詞,副詞可能,*) TRUE
有吉の怒り新党 固有表現(製品名) (名詞,固有名詞,人名)(助詞,連体化,*)(名詞,一般,*)(名詞,一般,*) TRUE
スマ兄さん 専門用語(ジャニーズ) (名詞,固有名詞,一般)(名詞,一般,*) TRUE
無課金 専門用語(ソシャゲ) (接頭詞,名詞接続,*)(名詞,サ変接続,*) TRUE
はがない 専門用語(オタク) (動詞,自立,*)(助動詞,*,*) FALSE
ごはんですよ 固有表現(製品名) (名詞,一般,*)(助動詞,*,*)(助詞,終助詞,*) FALSE
対象困難な事例
・未知語への対応が可能 ・ルールベースであるため、事前学習が不要
・確実性の高いルールのみを採用することで、Precisionの制御が可能
・既存の文法ルールから外れている固有名詞 例:はがない、よなよなエール、ごはんですよ
Copyright© Hottolink, Inc.
▶TOPICS 連接頻度に基づく統計的な連結
問題例
• 固有表現/エンティティ抽出のみならず、トピック抽出や係り受け解析における専門用語抽出において、未知語を固有表現の単位で分かち書きされることが望ましい
• 汎用志向の辞書(ipadic, unidicなど)を用いると、分割が過剰になりやすい
種類 複合名詞 MeCab + IPADIC(Ver.2.7.0)
固有表現(製品名) ごはんですよ ごはん|です|よ
専門用語 新事業活動促進法 新|事業|活動|促進|法
専門用語 炭素繊維複合素材 炭素|繊維|複合|素材
• 複合名詞は、ある概念を表す単名詞を連接することで構成されることが多い
• コーパスから単名詞について「複合名詞への含まれやすさ」を算出することができれば、単名詞の連接に対して「複合名詞らしさ」のスコアが算出可能
アプローチ
Copyright© Hottolink, Inc.
▶TOPICS 連接頻度に基づく統計的な連結
新|事業|活動|促進|法
解決策
𝐿𝑅 新|事業|活動|促進|法 = 𝐹𝐿 𝑁𝑖 + 1
𝐿
𝑖=1
𝐹𝑅 𝑁𝑖 + 1
12𝐿
𝐹𝐿 𝑁 (𝐹𝑅 𝑁 ):単名詞Nの左方(右方)に連接した際の複合名詞の形成されやすさ
文書中の連接頻度に基づいて統計的に「複合名詞らしさ」を算出する
・単名詞への対応がコーパスに含まれている場合、それらにより構成される未知語を処理可能 ・学習データを用いるため、事前知識が不要 ・閾値を低く設定することで、Recallを制御しやすい
例:termEX(中川[2003])
対象困難な事例
種類 複合名詞 名詞
固有表現(製品名) ごはんですよ TRUE
専門用語 新事業活動促進法 TRUE
専門用語 炭素繊維複合素材 TRUE
定型句 あけおけ TRUE
定型句 お誕生日おめ TRUE
・定型フレーズの誤認識 あけおめ、お誕生日おめ ・十分な出現頻度が無い語への対応が困難
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS まとめ
• NLP応用サービスには、汎用的手法では対応困難な課題が存在する – 要因その1:ソーシャルメディア文書に特有の性質
– 要因その2:目的に即した分かち書きの必要性
• 前処理・形態素解析/分かち書き・複合語処理において、特殊な手法を用いることがしばしば有効である
• 弊社内で用いられる知見・工夫・解決策の一部をご紹介した – 文字の正規化、テキストメタ情報の処理
– 辞書の拡張、カタカナ複合語の分割、顔文字の認識
– ルールに基づく連結、連接頻度に基づく統計的な連結
• 解決策の考案・実施においては、NLP分野を中心とした先行研究・言語資源・ツールに依拠する部分が非常に大きい。改めて感謝申し上げます
• 「やわらかい」言語表現に対する研究・関心が継続されることおよび、知見の体系化が進展することを期待しております
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS 余談:中国語ソーシャルメディア分析
• 中国国内には、独自のソーシャルメディアが存在する – Weibo(微博:マイクロブログ)
– WeChat(微信:インスタントメッセンジャー)
– Blog(博客)
• 弊社では2015年より、ソーシャルメディア分析を目的とした中国語NLPの基礎研究に着手した
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS 余談:中国語ソーシャルメディア分析
• Weiboには Chinese Penn Treebank とは異なる世界が広がっていた…
我々の戦いはこれからだ!
日本語/中国語混在 テキストメタ情報
固有表現(商品名) 口語表現
絵文字
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS 参考文献
• Unicode, Inc. 1998. Unicode® Standard Annex #15 UNICODE NORMALIZATION FORMS. – http://www.unicode.org/reports/tr15/
• Toshinori Sato. 2015. Neologism dictionary based on the language resources on the Web for Mecab. – https://github.com/neologd/mecab-ipadic-neologd
• 黒橋 禎夫. 自然言語処理. 放送大学教育振興会. 2015.
• 小木曽 智信, 伝 康晴. UniDic2: 拡張性と応用可能性にとんだ電子化辞書. 言語処理学会第19回年次大会, 2013.
• 風間 一洋, 榊 剛史, 鳥海 不二夫, 篠田 孝祐, 栗原 聡, 野田 五十樹. 顔文字に着目したツイートの感情変化の分析. WebDB Forum 2013. A2-3
• 三好辰明, 太田学. ツイートに出現する顔文字等の文字と記号に着目した感情分類. DEIM Forum,March 2013.
• 黒崎 優太, 高木 友博. Word2Vecを用いた顔文字の感情分類. 言語処理学会第21回年次大会, 2015.
• 中川裕志, 森辰則, 湯本紘彰. 出現頻度と連接頻度に基づく専門用語抽出. 自然言語処理, Vol.10 No.1, pp. 27 - 45, 2003. – http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html
• 柴田 知秀, et al. 実テキスト解析をささえる語彙知識の自動獲得. 言語処理学会第18回年次大会, 2012.
• 高橋 文彦, 颯々野 学. 情報検索のための単語分割一貫性の定量的評価.言語処理学会第22回年次大会, 2016.