2016.03.11 「論文に書（け｜か）ない自然言語処理」...

ソーシャルメディア分析サービスにおけるNLPに関する諸問題について

株式会社ホットリンク

榊剛史水木栄

サービス紹介

ソーシャルメディア分析ツール

Copyright© Hottolink, Inc.

▶TOPICS ソーシャルメディア分析ツールの機能

検索機能記事数集計

本文抽出


▶TOPICS ソーシャルメディア分析ツールの機能

話題語

関連語


▶TOPICS 分析機能とNLP技術の関係

検索関連語話題語評判

属性推定スパム判定

形態素解析（分かち書き）

複合語処理評判分析

スパムフィルタユーザ属性

係り受け解析

ソーシャルメディアの文書

前処理


▶TOPICS


▶TOPICS ソーシャルメディアに見られる文書の特徴

「高飛車」だけじゃない…過去に起きたジェットコースター

の事故 http://dlvr.it/Kjs0CJ #事件 #事故

ファミマのおそ松さんクリアファイルとクリアコースター

の推し松買えた♡♡.+*:ﾟ+｡7時に行ったのに最後の

全松最後の1枚だった（笑）凄い人気だな（笑）さてまた

お菓子が増えた…(:3)っ⌒つ

【おそ松さん】予約のオススメ① 5月発売予定

「ラバーコースターvol.2」が好評予約受付中どす

え！！六つ子の変顔、ヤバ顔、おもろ顔、ドヤ顔、

あざと顔、チョロ顔といろんな表情がぜんぶカワイイ

グッズどすぅ！ご予約はアニメイト京都店で！

種類説明

複合名詞一般単名詞が連接して作られる名詞

固有表現（複合名詞含む）人名や地名などといった固有名詞や、日付表現、時間表現など

専門用語（jargon）特定の集団のみで通じる用語

口語表現（Slang）話し言葉のようなくだけた表現

顔文字・絵文字（emoticon）表情や動作を図的に表現する文字や記号、単独の文字の集合

テキストメタ情報テキスト形式で本文に埋め込まれたメタ情報

https://t.co/DyUXVEf16F

https://t.co/DyUXVEf16F

https://twitter.com/hashtag/%E4%BA%8B%E4%BB%B6?src=hash

https://twitter.com/hashtag/%E4%BA%8B%E4%BB%B6?src=hash

https://twitter.com/hashtag/%E4%BA%8B%E6%95%85?src=hash

https://twitter.com/hashtag/%E4%BA%8B%E6%95%85?src=hash


▶TOPICS 目的に即した分かち書きの必要性

目的望ましい要件

検索インデックスの作成 ([高橋ら 2016])

・短単位志向であること（Recall確保のため）・再現性が高いこと・高速に動作すること

固有表現/エンティティ抽出単語分散表現の前処理

・長単位志向であること、理想的には固有表現/エンティティと同一単位であること・未知語に頑健であること

未知語の自動獲得・辞書に依存しないこと・人手による整備を必要としないこと

• 分かち書き＝文を「意味の基本単位」である語に分割すること

• 日本語NLPにおいて、基本単位をどのように定めるかは難しい問題である(黒橋[2016])

• NLP応用サービスにおいても、適切な分かち書きの方法は目的に応じて異なる。代表的なものとして下表の3例を挙げる

• 目的に応じて要件が異なるため、汎用的手法のみによる解決は困難である


▶TOPICS 目次

1. 前処理 • 文字の正規化

• テキストメタ情報の除去・抽出

2. 分かち書き・形態素解析 • 辞書の拡張

• カタカナ複合語の分割

• 顔文字の認識

3. 複合語処理 • ルールに基づく連結

• 連接頻度に基づく統計的な連結


▶TOPICS 1. 前処理

検索関連語話題語

形態素解析（分かち書き）

複合語処理


前処理


▶TOPICS 文字の正規化

問題例

Ｐｌａｙｓｔａｔｉｏｎ３（全角） ⇔ Playstation3(半角）㍉ ⇔ ミリハ゛ラモス ⇔ バラモス

• 見た目上は同じような・類似した表記でも、内部表現（文字コード）としては異なる表記として扱われる場合が多数ある。

• 見た目上の表記が同じであれば、同じ文字列として扱いたい

解決策 Unicode正規化（NFKC）を用いる

• Unicode正規化：等価な文字や文字の並びを統一的な内部表現に変換すること

正規化前 NFD(正規分解) NFKD(互換分解) NFC(正規合成) NFKC(互換合成)

がか+゛か+゛がが

か+゛か+゛か+゛がが

ア（全角）アアアア

ｱ（半角）ｱアｱア



• Unicodeの正規化(Unicode[1998]) – NFD（Normalization Form Canonical Decomposition）

• 正準等価性に基づく分解

– NFC（Normalization Form Canonical Composition）

• 正準等価性に基づく分解後、正準等価性に基づいて再度合成

– NFKD（Normalization Form Compatibility Decomposition）

• 互換等価性に基づく分解

– NFKC（Normalization Form Compatibility Composition）

• 互換等価性に基づく分解後、正準等価性に基づいて再度合成

分解：が（U+304c）→か(U+304b)+゛ (U+3099)

合成：か(U+304b)+゛ (U+3099)→が（U+304c）

互換等価性：見た目がまったく同じではないが、内部表現が異なる

ｱ(U+FF71)→ア(30a2)

正準等価性：文字コードは異なるが、外見上は同じである

が（U+304c）→か(U+304b)+゛ (U+3099)

参考



参考正規化対象外の文字→ ‘Punctuation, Dash’ カテゴリ

http://www.fileformat.info/info/unicode/category/Pd/list.htm https://hydrocul.github.io/wiki/blog/2014/1101-hyphen-minus-wave-tilde.html


▶TOPICS テキストメタ情報の除去・抽出

問題例

• ソーシャルメディアの場合、文書に対するメタ情報がテキスト形式で本文に埋め込まれることが多い

• これらのメタ情報により分かち書き誤りが発生する場合がある

種類事例正規表現

URL pic.twitter.com/oW4JAHFfBF 秘伝のタレのため削除

ハッシュタグ #nlp2016, ¥#¥S+

ユーザ名 @noroke_miner ¥@[a-zA-Z0-9_]

解決策正規表現による除去・抽出

• 除去：URLやユーザ名（screen_name）のように、単語として扱わない語は、正規表現で除去

• 抽出：ハッシュタグのように、単語として扱いたい語は、正規表現で除去した後、最後の分かち書き結果に追加する


▶TOPICS 2. 分かち書き・形態素解析


分かち書き形態素解析

複合語処理


前処理


▶TOPICS 辞書の拡張

• 固有表現/エンティティ抽出を志向する場合、固有表現の単位で分かち書きされることが望ましい

• 汎用志向の辞書(ipadic, unidicなど)を用いると、分割が過剰になりやすい

分類固有表現 MeCab + IPADIC(Ver.2.7.0)

新語スマートフォンスマート|フォン

人名福山雅治福山|雅治

ランドマーク東京スカイツリー東京|スカイ|ツリー

専門用語消費者態度指数消費|者|態度|指数

問題例

アプローチ

• 固有表現を簡便かつ高精度に獲得したい場合、辞書の拡張が有効である

• 特にソーシャルメディアに対しては、ウェブ上の情報から獲得した語彙との親和性が高い – 芸能、社会、政治・経済、組織・企業、音楽、ゲーム・アニメ…

• 情報ソースとしては、ユーザー生成型百科事典の見出し語が特に有用である – Wikipedia日本語版、はてなキーワード(© 2001 Hatena)


▶TOPICS 辞書の拡張

• mecab-ipadic-NEologd(Sato[2015])は、ウェブ上の言語資源から得た新語を追加したMeCab用辞書を一般に公開する試みである

• 利用の障壁が低く、処理速度・網羅性に優れた方法である

分類固有表現 MeCab + mecab-ipadic-NEologd(Ver.2016-02-01)

新語スマートフォンスマートフォン

人名福山雅治福山雅治

ランドマーク東京スカイツリー東京スカイツリー

専門用語消費者態度指数消費者態度指数

解決策

対処困難な事象

• ウェブ上の言語資源、特にウェブ百科事典の見出し語には、形態素辞書エントリとして不適切なものも含まれているため、取捨選択処理が必要である – 不適当な見出し語の例：「あ」「1月1日」「企業一覧」「明日の私」「よろしくお願いします」…

• JUMAN辞書の手法(柴田ら[2012])のように、既存の形態素解析器の出力を素性として利用するアプローチが有力である – 一形態素とみなすルールを定義する、二値分類器を学習するなど


▶TOPICS カタカナ複合語の分割

• 英語複合語は、カタカナ複合語として表記される場合が多い – 例：Crew Neck Raglan Shirt = クルーネックラグランシャツ

– 特に衣料品・食料品・化粧品に多い印象

• IPADICは多くの場合に望ましい結果を返してくれるが、カタカナ複合語は分かち書きされないことが多い。これは検索のRecallなどに悪影響を及ぼしうる

問題例

アプローチ

• 短単位を志向したユーザ辞書を併用する、あるいはシステム辞書を利用することが有効である

英語複合語カタカナ複合語 MeCab + IPADIC(Ver.2.7.0)

Crew Neck Raglan Shirt クルーネックラグランシャツクルーネックラグランシャツ

Sliced Tomato Salad スライストマトサラダスライストマトサラダ

Face Cleansing Oil フェイスクレンジングオイルフェイスクレンジングオイル


▶TOPICS カタカナ複合語の分割

• IPADICを用いて形態素解析を行ってから、長文字数のカタカナ語のみを抽出して、UniDic(小木曽ら[2013])を用いて再解析を行う

• UniDicは揺れの少ない短単位で設計されているため、一般名詞については分かち書きされる場合が多い

• 利用の障壁が低く、処理速度・再現性に優れた方法である

解決策


• 品詞体系が異なるため、分析者自身が適宜補正する必要がある

• 未知語（特に新語）を含む場合は不十分

英語複合語カタカナ複合語 MeCab + UniDic(Ver.2.1.2)

Crew Neck Raglan Shirt クルーネックラグランシャツクルー|ネック|ラグラン|シャツ

Sliced Tomato Salad スライストマトサラダスライス|トマト|サラダ

Face Cleansing Oil フェイスクレンジングオイルフェイス|クレンジング|オイル


▶TOPICS 顔文字の認識

• 顔文字は、顔のように見える文字・記号列を用いた表現である。ソーシャルデータにおいては頻繁に利用される – 「＼(^o^)／」「(>_<)」「(^^)」「(*^^*)」いずれかを含むブログ記事は、全記事の3.6%を占める

• 汎用志向の辞書を用いると、記号列として分かち書きされる場合が多い – IPADICの場合、厳密には「名詞-サ変接続」品詞が付与される場合が多い

• 理想的には、感情語の一種として取り扱いたい – 評判分析などの特徴量として有効

顔文字 MeCab + IPADIC(Ver.2.7.0)

＼(^o^)／＼(^␣o␣^)／

(´・ω・｀) (´␣・␣ω␣・␣｀)

(´Д` ) (´␣Д␣` ␣)

問題例

アプローチ

• 簡便かつ分かち書きのみを目的とする場合、ルールベースの処理が有効

• Precisionを制御しつつ感情語への置換を目的とする場合、辞書の拡張が有効


▶TOPICS （参考）顔文字の統計的性質

• 顔文字を単語とみなして単語分散表現を推定、次元圧縮を行うと、おおむね感情語と整合的な配置が得られる

出典：弊社・風間研究室の共同研究 Word2Vec + t-SNE



• 顔文字の規則性を利用して、抽出する(風間ら[2013]，三好[2013])

※本技術は、和歌山大学風間研究室からの技術提供による

• 短所は、(1)誤認識が生じること (2)対応する感情語が自明でないこと

解決策その1

解決策その2

• 顔文字頻度分布がZipFの法則に従うことを仮定して、出現頻度の高い顔文字を辞書に登録する – 実際にZipFの法則はよく当てはまる。上位5,000種類で約90%(推定値)を網羅できる

• 原形に感情語を登録することにより、顔文字を単語に置換・集約できる – 感情語は単語分散表現を用いて推定する(黒崎[2015])

• mecab-ipadic-NEologdにも一部の顔文字が登録されている

顔文字 MeCab + mecab-ipadic-NEologd(Ver.2016-02-01) 原形

＼(^o^)／＼(^o^)／バンザイ

(´・ω・｀) (´␣・␣ω␣・␣｀) －

(´Д` ) (´Д` ) カオモジ




• 顔文字は改変が容易であるため、活用形(?)が大量に存在する – 改変の例：パーツの置換、装飾の付与・除去、スペースの挿入、繰り返しなど

– 活用形を別種と認識すると、顔文字の種類は数十万に上る

• 活用形を自動的に認識して、基本形(?)に集約することが望ましい

• 文字n-gramを素性に用いることで、相応の精度を実現することができる – 下表は Bag-of-char-{uni+bi}gram + NMF(dim=20) + L2.distance(top-k) で作成したもの

基本形活用形1 活用形2 活用形3 活用形4

(〃∇〃) (〃∇〃)ゞ (〃~∇~〃) (ノ∇〃) (＞∧＜)

ヽ(≧▽≦)/ ヽ(〃▽〃)/ ヽ(≧∇≦)/ ヽ(≧▽≦)/♪ ♪ヽ(≧▽≦)/

(#^_^#) (^_^#) (^_^)# (^_^)q p(^_^)

(^-^)o o(^-^) (o^-^) (^-^o) ヾ(^o^-)

(ρ_-)ノ (ノ_-) (ρ_-) (つ_-) (σ_-)

((´^ω^)) ((´^ω^))♪ ((´^ω^) ((´^ω^))♥ ヾ(´^ω^)ノ

出典：弊社分析


▶TOPICS 3. 複合語処理


分かち書き形態素解析

複合語処理


前処理


▶TOPICS ルールに基づく連結

解決策複合名詞として認識すべき品詞の連接パターンを予め定めておく

アスティ|三島|駅

名詞,固有名詞,組織名詞,固有名詞,組織名詞,接尾,地域

牧場|の|朝

名詞,一般,* 助詞,連体化,* 名詞,副詞可能,*

複合名詞種類品詞の連接情報名詞

アスティ三島駅固有表現（地名） (名詞,固有名詞,組織)(名詞,固有名詞,組織)(名詞,接尾,地域) TRUE

裏なんば固有表現（地名） (名詞,一般,*)(名詞,固有名詞,地域) TRUE

牧場の朝固有表現（製品名） (名詞,一般,*)( 助詞,連体化,*)(名詞,副詞可能,*) TRUE

有吉の怒り新党固有表現（製品名） (名詞,固有名詞,人名)(助詞,連体化,*)(名詞,一般,*)(名詞,一般,*) TRUE

スマ兄さん専門用語（ジャニーズ） (名詞,固有名詞,一般)(名詞,一般,*) TRUE

無課金専門用語（ソシャゲ） (接頭詞,名詞接続,*)(名詞,サ変接続,*) TRUE

はがない専門用語（オタク） (動詞,自立,*)(助動詞,*,*) FALSE

ごはんですよ固有表現（製品名） (名詞,一般,*)(助動詞,*,*)(助詞,終助詞,*) FALSE

対象困難な事例

・未知語への対応が可能・ルールベースであるため、事前学習が不要

・確実性の高いルールのみを採用することで、Precisionの制御が可能

・既存の文法ルールから外れている固有名詞例：はがない、よなよなエール、ごはんですよ


▶TOPICS 連接頻度に基づく統計的な連結

問題例

• 固有表現/エンティティ抽出のみならず、トピック抽出や係り受け解析における専門用語抽出において、未知語を固有表現の単位で分かち書きされることが望ましい


種類複合名詞 MeCab + IPADIC(Ver.2.7.0)

固有表現（製品名）ごはんですよごはん|です|よ

専門用語新事業活動促進法新|事業|活動|促進|法

専門用語炭素繊維複合素材炭素|繊維|複合|素材

• 複合名詞は、ある概念を表す単名詞を連接することで構成されることが多い

• コーパスから単名詞について「複合名詞への含まれやすさ」を算出することができれば、単名詞の連接に対して「複合名詞らしさ」のスコアが算出可能

アプローチ


▶TOPICS 連接頻度に基づく統計的な連結

新|事業|活動|促進|法

解決策

𝐿𝑅 新|事業|活動|促進|法 = 𝐹𝐿 𝑁𝑖 + 1

𝐿

𝑖=1

𝐹𝑅 𝑁𝑖 + 1

12𝐿

𝐹𝐿 𝑁 （𝐹𝑅 𝑁 ）:単名詞Nの左方（右方）に連接した際の複合名詞の形成されやすさ

文書中の連接頻度に基づいて統計的に「複合名詞らしさ」を算出する

・単名詞への対応がコーパスに含まれている場合、それらにより構成される未知語を処理可能・学習データを用いるため、事前知識が不要・閾値を低く設定することで、Recallを制御しやすい

例：termEX(中川[2003])

対象困難な事例

種類複合名詞名詞

固有表現（製品名）ごはんですよ TRUE

専門用語新事業活動促進法 TRUE

専門用語炭素繊維複合素材 TRUE

定型句あけおけ TRUE

定型句お誕生日おめ TRUE

・定型フレーズの誤認識あけおめ、お誕生日おめ・十分な出現頻度が無い語への対応が困難


▶TOPICS


▶TOPICS まとめ

• NLP応用サービスには、汎用的手法では対応困難な課題が存在する – 要因その1：ソーシャルメディア文書に特有の性質

– 要因その2：目的に即した分かち書きの必要性

• 前処理・形態素解析/分かち書き・複合語処理において、特殊な手法を用いることがしばしば有効である

• 弊社内で用いられる知見・工夫・解決策の一部をご紹介した – 文字の正規化、テキストメタ情報の処理

– 辞書の拡張、カタカナ複合語の分割、顔文字の認識

– ルールに基づく連結、連接頻度に基づく統計的な連結

• 解決策の考案・実施においては、NLP分野を中心とした先行研究・言語資源・ツールに依拠する部分が非常に大きい。改めて感謝申し上げます

• 「やわらかい」言語表現に対する研究・関心が継続されることおよび、知見の体系化が進展することを期待しております


▶TOPICS


▶TOPICS 余談：中国語ソーシャルメディア分析

• 中国国内には、独自のソーシャルメディアが存在する – Weibo(微博：マイクロブログ)

– WeChat(微信：インスタントメッセンジャー)

– Blog(博客)

• 弊社では2015年より、ソーシャルメディア分析を目的とした中国語NLPの基礎研究に着手した


▶TOPICS


▶TOPICS 余談：中国語ソーシャルメディア分析

• Weiboには Chinese Penn Treebank とは異なる世界が広がっていた…

我々の戦いはこれからだ！

日本語/中国語混在テキストメタ情報

固有表現(商品名) 口語表現

絵文字


▶TOPICS


▶TOPICS 参考文献

• Unicode, Inc. 1998. Unicode® Standard Annex #15 UNICODE NORMALIZATION FORMS. – http://www.unicode.org/reports/tr15/

• Toshinori Sato. 2015. Neologism dictionary based on the language resources on the Web for Mecab. – https://github.com/neologd/mecab-ipadic-neologd

• 黒橋禎夫. 自然言語処理. 放送大学教育振興会. 2015.

• 小木曽智信, 伝康晴. UniDic2: 拡張性と応用可能性にとんだ電子化辞書. 言語処理学会第19回年次大会, 2013.

• 風間一洋, 榊剛史, 鳥海不二夫, 篠田孝祐, 栗原聡, 野田五十樹. 顔文字に着目したツイートの感情変化の分析. WebDB Forum 2013. A2-3

• 三好辰明, 太田学. ツイートに出現する顔文字等の文字と記号に着目した感情分類. DEIM Forum,March 2013.

• 黒崎優太, 高木友博. Word2Vecを用いた顔文字の感情分類. 言語処理学会第21回年次大会, 2015.

• 中川裕志, 森辰則, 湯本紘彰. 出現頻度と連接頻度に基づく専門用語抽出. 自然言語処理, Vol.10 No.1, pp. 27 - 45, 2003. – http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html

• 柴田知秀, et al. 実テキスト解析をささえる語彙知識の自動獲得. 言語処理学会第18回年次大会, 2012.

• 高橋文彦, 颯々野学. 情報検索のための単語分割一貫性の定量的評価.言語処理学会第22回年次大会, 2016.

http://www.unicode.org/reports/tr15/

http://www.unicode.org/reports/tr15/

https://github.com/neologd/mecab-ipadic-neologd





http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html




2016.03.11 「論文に書（け｜か）ない自然言語処理」...

Engineering