heady news headline abstraction through event pattern clustering

Enrique Alfonseca, Daniele Pighin, Guillermo GarridoACL2013

HEADY: News headline abstraction through event pattern clustering

id:skozawa

論文輪読会

Headline Generation

● 同じニュースが複数の媒体、複数の観点で書かれる○ 要約○ ヘッドライン

● 右の例の場合○ Carmelo Anthony … がヘッ

ドラインとして妥当

Goal

● 研究目的○ オープンドメインなヘッドライン生成

■ コストの高い学習データを必要としない教師なし手法○ 同じイベントを参照する類似表現を汎化○ 要約的なアプローチをとる

■ 抜粋的(extractive)■ 要約的(abstractive)

Headline Generation

● HEADY○ 入力：同じ話題のニュースコレクション○ 出力：ニュースコレクションのヘッドライン

○ パターン抽出■ 固有表現を1つ以上含む構文木

○ 学習■ Noisy-OR Baysian Network■ パターン(観測変数)、イベント(隠れ変数)

○ 推論■ パターン抽出■ 隠れイベント変数の事後確率推定■ ヘッドライン生成のために最尤のパターンを選択

Pattern Extraction (CollectionToPatterns)

● PreProcessData○ トークン化、文境界解析○ 形態素解析○ 構文解析○ 照応解析○ 固有表現抽出

■ Wikipedia, Freebase■ Freebaseのclassを付与

Pattern Extraction (CollectionToPatterns)

● GetRelevantEntities○ ニュースコレクションからよく言

及されている固有表現Eを取得

● Combinations○ 固有表現の組み合わせ○ 3単語以下

● ExtractPatterns○ 固有表現を含むイベントパ

ターンを抽出

Pattern Extraction (ExtractPatterns)

● タイトルと本文1文目のみ● GetMentionNodes

○ 固有表現であるノードMを識別

■ 固有表現を含むまない文は無視

● GetMinimumSpaningTree○ ノードMを含む最小の構文木

を取得

Pattern Extraction (ExtractPatterns)

● ApplyHeuristics○ 高い確率で構文木は非文法

的、もしくは、非有用

○ 例のe1とe2のペア(2)は良い概要ではない

○ 意味がわかる最小限の集合を

目的とした変換を後処理としておこなう■ rootや主部を含む■ conjunctionsを含む

● CombineEntityTypes○ e1, e2をclassに置き換えて個

別のパターンを生成

Training

● 抽出したパターンを使ってNosiy-ORで学習● パターンが1つ以上のイベントを活性化する確率を推定● 隠れ変数(イベント)と観測変数(パターン)● 全パターンにはノイズイベントがリンクされる

○ 言語背景によって生成されるイベント(ノイズ)を許容

● パターンが与えられたときのイベントeiの条件付確率

● 学習プロセスを100,000ニュースコレクションで初期化し、重みを40EMで最適化

qij = P(ei=1|pj=1) : パターンpjからイベントeiの確率qi0 : ノイズパターンからイベントeiの確率未観測パターンからのイベント生起

Inference (generation of news headlines)

● HEADY○ 入力：ニュースコレクションN○ 出力：ヘッドライン

● 仮定：NのヘッドラインはNに関連する固有表現Eの重要なイベントについて述べなければならない

● Nに関連する1つのイベント-パターン対 p* が必要● p*のプレースホルダーを、Nで観測された固有表現の表層形で

埋める

Inference (Inference(n, E))

● Inference(n, E)○ 基本的な推論アルゴリズムは2段階ランダムウォーク○ n: ニュース記事○ E: 固有表現集合

○ パターン抽出■ ExtractPatterns(n, E)

○ 観測変数の確率分布の取得■ 抽出したパターンの頻度を正規化

Inference (extraction of p*)

1. 固有表現サブセットEiの確率分布wiの計算○ ニュースコレクション内の固有表現Eから3つまで取得

○ サブセットEiに対して、Inference(n, Ei)を実行し、Eiを含むパターンの単語分布を計算

2. 確率分布wの計算○ 全ての固有表現のサブセットに対してInference(n, Ei)を実行

3. 確率分布wiの選択○ 全体の分布wと各固有表現のサブセットEiの分布wiを比較○ 最も類似するwiを選択

4. パターンp*の選択○ w*に最も大きい重みをつけるパターンを選択

Experiment settings

● 実験データ○ Noisy-ORモデルには大規模データが必要○ 2008年～2012年のWebデータをクロール

■ 時間とコサイン類似度を使ってクラスタリング■ 5文書以下のクラスタは削除■ 最大50文書以内に

○ 1700万文書集合、うち、数百万文書集合はテスト用

● Nosiy-OR○ 100,000の潜在イベント○ 40のEM

● パターン抽出○ CollectionToPatternsアルゴリズムにより2.3億のイベントパターンを

生成○ 同じコレクションから生成されたものをまとめると1700万

System Used (Method for picking one)

● Latest headline○ 最新の記事のタイトルを利用

● Most frequest headline○ ニュースコレクション内の最頻のタイトルを利用

● TopicSum○ 3層(background, content, doc-specific)のトピックモデル

○ コレクションのunigramモデルとのカルバックライブラー情報量が最小のタイトルを利用

System Used (Generate Headline)

● Multi-Sentence Compression (MSC)○ 1文書からの要約手法○ 単語グラフを生成○ 最短パスを取得

● Most frequest pattern○ 提案手法のNoisy-ORなしバージョン

■ Noisy-ORの有効性を示すためのベースライン○ 生成したパターンの中から最頻のパターンを利用

Results

● 8人の評価者により以下の指標をアノテーション○ Readability：文法的かを5段階評価○ Informativeness：情報量を5段階評価

● すべてのシステムがタイトルを生成できた50文書集合をランダムに取得

● HEADYとMSCは有意差あり● HEADYとMost freq. patternは有意差なし

Other Results

● 1つ目○ 噂を否定したニュース

● 2つ目○ HEADYがFrequent patternを改

善

● 3つ目○ HEADYがノイズの多いコレク

ションから正しくヘッドラインを生成

● 自動評価○ 従来はROUGE○ TopicSumが利用できるかも

Conclusion

● HEADY○ Noisy-OR Bayesian Network○ 要約的ヘッドライン生成手法

○ 人手のアノテーションデータは不要で、Webサイズのコーパスに効率的にスケールできる

● 従来手法(MSC)より高い性能

heady news headline abstraction through event pattern clustering

Technology