heady news headline abstraction through event pattern clustering
TRANSCRIPT
Enrique Alfonseca, Daniele Pighin, Guillermo GarridoACL2013
HEADY: News headline abstraction through event pattern clustering
id:skozawa
論文輪読会
Headline Generation
● 同じニュースが複数の媒体、複数の観点で書かれる○ 要約○ ヘッドライン
● 右の例の場合○ Carmelo Anthony … がヘッ
ドラインとして妥当
Goal
● 研究目的○ オープンドメインなヘッドライン生成
■ コストの高い学習データを必要としない教師なし手法○ 同じイベントを参照する類似表現を汎化○ 要約的なアプローチをとる
■ 抜粋的(extractive)■ 要約的(abstractive)
Headline Generation
● HEADY○ 入力:同じ話題のニュースコレクション○ 出力:ニュースコレクションのヘッドライン
○ パターン抽出■ 固有表現を1つ以上含む構文木
○ 学習■ Noisy-OR Baysian Network■ パターン(観測変数)、イベント(隠れ変数)
○ 推論■ パターン抽出■ 隠れイベント変数の事後確率推定■ ヘッドライン生成のために最尤のパターンを選択
Pattern Extraction (CollectionToPatterns)
● PreProcessData○ トークン化、文境界解析○ 形態素解析○ 構文解析○ 照応解析○ 固有表現抽出
■ Wikipedia, Freebase■ Freebaseのclassを付与
Pattern Extraction (CollectionToPatterns)
● GetRelevantEntities○ ニュースコレクションからよく言
及されている固有表現Eを取得
● Combinations○ 固有表現の組み合わせ○ 3単語以下
● ExtractPatterns○ 固有表現を含むイベントパ
ターンを抽出
Pattern Extraction (ExtractPatterns)
● タイトルと本文1文目のみ● GetMentionNodes
○ 固有表現であるノードMを識別
■ 固有表現を含むまない文は無視
● GetMinimumSpaningTree○ ノードMを含む最小の構文木
を取得
Pattern Extraction (ExtractPatterns)
● ApplyHeuristics○ 高い確率で構文木は非文法
的、もしくは、非有用
○ 例のe1とe2のペア(2)は良い概要ではない
○ 意味がわかる最小限の集合を
目的とした変換を後処理としておこなう■ rootや主部を含む■ conjunctionsを含む
● CombineEntityTypes○ e1, e2をclassに置き換えて個
別のパターンを生成
Training
● 抽出したパターンを使ってNosiy-ORで学習● パターンが1つ以上のイベントを活性化する確率を推定● 隠れ変数(イベント)と観測変数(パターン)● 全パターンにはノイズイベントがリンクされる
○ 言語背景によって生成されるイベント(ノイズ)を許容
● パターンが与えられたときのイベントeiの条件付確率
● 学習プロセスを100,000ニュースコレクションで初期化し、重みを40EMで最適化
qij = P(ei=1|pj=1) : パターンpjからイベントeiの確率qi0 : ノイズパターンからイベントeiの確率 未観測パターンからのイベント生起
Inference (generation of news headlines)
● HEADY○ 入力:ニュースコレクションN○ 出力:ヘッドライン
● 仮定:NのヘッドラインはNに関連する固有表現Eの重要なイベントについて述べなければならない
● Nに関連する1つのイベント-パターン対 p* が必要● p*のプレースホルダーを、Nで観測された固有表現の表層形で
埋める
Inference (Inference(n, E))
● Inference(n, E)○ 基本的な推論アルゴリズムは2段階ランダムウォーク○ n: ニュース記事○ E: 固有表現集合
○ パターン抽出■ ExtractPatterns(n, E)
○ 観測変数の確率分布の取得■ 抽出したパターンの頻度を正規化
Inference (extraction of p*)
1. 固有表現サブセットEiの確率分布wiの計算○ ニュースコレクション内の固有表現Eから3つまで取得
○ サブセットEiに対して、Inference(n, Ei)を実行し、Eiを含むパターンの単語分布を計算
2. 確率分布wの計算○ 全ての固有表現のサブセットに対してInference(n, Ei)を実行
3. 確率分布wiの選択○ 全体の分布wと各固有表現のサブセットEiの分布wiを比較○ 最も類似するwiを選択
4. パターンp*の選択○ w*に最も大きい重みをつけるパターンを選択
Experiment settings
● 実験データ○ Noisy-ORモデルには大規模データが必要○ 2008年~2012年のWebデータをクロール
■ 時間とコサイン類似度を使ってクラスタリング■ 5文書以下のクラスタは削除■ 最大50文書以内に
○ 1700万文書集合、うち、数百万文書集合はテスト用
● Nosiy-OR○ 100,000の潜在イベント○ 40のEM
● パターン抽出○ CollectionToPatternsアルゴリズムにより2.3億のイベントパターンを
生成○ 同じコレクションから生成されたものをまとめると1700万
System Used (Method for picking one)
● Latest headline○ 最新の記事のタイトルを利用
● Most frequest headline○ ニュースコレクション内の最頻のタイトルを利用
● TopicSum○ 3層(background, content, doc-specific)のトピックモデル
○ コレクションのunigramモデルとのカルバックライブラー情報量が最小のタイトルを利用
System Used (Generate Headline)
● Multi-Sentence Compression (MSC)○ 1文書からの要約手法○ 単語グラフを生成○ 最短パスを取得
● Most frequest pattern○ 提案手法のNoisy-ORなしバージョン
■ Noisy-ORの有効性を示すためのベースライン○ 生成したパターンの中から最頻のパターンを利用
Results
● 8人の評価者により以下の指標をアノテーション○ Readability:文法的かを5段階評価○ Informativeness:情報量を5段階評価
● すべてのシステムがタイトルを生成できた50文書集合をランダムに取得
● HEADYとMSCは有意差あり● HEADYとMost freq. patternは有意差なし
Other Results
● 1つ目○ 噂を否定したニュース
● 2つ目○ HEADYがFrequent patternを改
善
● 3つ目○ HEADYがノイズの多いコレク
ションから正しくヘッドラインを生成
● 自動評価○ 従来はROUGE○ TopicSumが利用できるかも
Conclusion
● HEADY○ Noisy-OR Bayesian Network○ 要約的ヘッドライン生成手法
○ 人手のアノテーションデータは不要で、Webサイズのコーパスに効率的にスケールできる
● 従来手法(MSC)より高い性能