neologdをどう使うと便利なのかークエリ拡張における活用ー
TRANSCRIPT
NEologdをどう使うと便利なのかー クエリ拡張における活用 ー
担当: @Quasi_quant2010
NEologd Casual Talks1
【NEologd Casual Talks】
概要- 計算を補正する言語資源としての利用例 -
Neologd使用用途
クエリSuggestにおける前処理エラーを補正
Suggestにおける複合語を補正
← 補正が必要な背景と対処法、応用例を示す
文書indexingにおける、クエリ拡張の動機
← 出来るだけ固有表現を加味した分かち書きを軸に、①Neologd②クエリ拡張③N-bestを用い、検索漏れを防ぐ注) 時間の都合上割愛
参考文献
NEologd Casual Talks2
Neologd使用用途①:前処理補正- クエリSuggestにおける前処理エラーを補正 -
事象
クエリSuggestモデル構築時に、ターサージール -> サージール(名詞)という前処理を実施
ターサージールはスポーツシューズの商品名
背景
複合名詞を細かく分割したい方針があり、前処理ではカタカナ二文字はトークンとして考えない
NEologd Casual Talks3
クエリSuggest
Neologdによる修正前 アシックス サージール
Neologdによる修正後 アシックス ターサージール
Neologd使用用途①:前処理補正- 応用例:Suggestと拡張を組み合わせる -
対処法
前処理エラーの補正ソースとしてNeologdを使用
応用例
Suggestしたクエリを拡張する
別途クエリ拡張用のモデルも作る([X.Wang, etc])
最終出力はNeologdで補正をする
NEologd Casual Talks4
クエリSuggest 拡張元KW 拡張後KW
Neologdなし 拡張なし アシックス サージール サージール ランニング
Neologdなし 拡張あり アシックス ランニング サージール ランニング
Neologdあり 拡張なし アシックス ターサージール ターサージール ランニング
Neologdあり 拡張あり アシックス ランニング ターサージール ランニング
Neologd使用用途②:複合語補正- 応用例:Suggestにおける複合語を補正 -
事象
クエリSuggestモデル構築時に、サッカーシューズ -> サッカー/シューズ(名詞)という前処理を実施
背景
複合名詞を細かく分割するという方針があり、かつ、前処理でカタカナ二文字をトークンとして考えない
カタカナ二文字を除外する理由は、複合名詞の修飾語を拡張するため
NEologd Casual Talks5
クエリSuggest
Neologdによる修正前 ナイキ ジュニア サッカー シューズ
Neologdによる修正後 ナイキ ジュニア サッカーシューズ
Neologd使用用途②:複合語補正- 応用例:Suggestと拡張を組み合わせる -
対処法
複合語の補正ソースとしてNeologdを使用
応用例
Suggestしたクエリを拡張する
別途クエリ拡張用のモデルも作る([X.Wang, etc])
最終出力はNeologdで補正をする
NEologd Casual Talks6
クエリSuggest 拡張元KW 拡張後KW
Neologdなし 拡張なし ナイキ ジュニア サッカー シューズ サッカー ランニング
Neologdなし 拡張あり ナイキ ジュニア ランニング シューズ サッカー ランニング
Neologdあり 拡張なし ナイキ ジュニア サッカーシューズ サッカー ランニング
Neologdあり 拡張あり ナイキ ジュニア ランニングシューズ サッカー ランニング
文書indexingにおけるクエリ拡張の動機- 検索漏れを防ぐ -
Neologdを使って実現したいこと
ユーザーの検索意図を保ちつつ、検索漏れを防ぐ
検索意図を保存する為の一つの手段として、固有表現を加味した分かち書きをする
ただし、 1トークンの文字列の長さが長くなる程、and演算で取得する文書数は減少
なので、クエリ拡張とN-best([M.oosuka, etc])も併用
NEologd Casual Talks7
indexing
Neologdなし + 拡張なし ナイキ | ジュニア | サッカー | シューズ
Neologdあり + 拡張なし ナイキ | ジュニア | サッカー | サッカーシューズ |シューズ
Neologdなし + 拡張あり ナイキ | ジュニア | ランニング | シューズ
Neologdあり + 拡張あり ナイキ | ジュニア |ランニング| ランニングシューズ |シューズ
注) Neologdありの場合は、N-bestも併用
附録
NEologd Casual Talks8
参考文献 Neologd
[T.Sato] Neologism dictionary based on the language resources on the Web for mecab-ipadic https://goo.gl/dTKn18 2015
[T.Sato] Solr / Elasticsearch Synonym mapping file for Japanese web documents using results of NEologd, https://goo.gl/Q1JNml 2015
分かち書き [A.Takeshi, etc] クックパッド特売情報における自然言語処理~固有表現抽出を利用した
検索システム~ http://goo.gl/CcPjdI YANS, 2015
[M.oosuka, etc] LuceneSolrでの形態素解析の課題とN-bestの提案http://goo.gl/mwYQ9N 第17回Lucene/Solr勉強会, 2015
クエリSuggest [X.Yan, etc] A Biterm Topic Model for Short Texts, WWW, 2013
クエリ拡張 [X.Wang, etc] Mining Term Association Patterns from Search Logs for
Effective Query Reformulation, CIKM, 2008
NEologd Casual Talks9