acl2014:bilingual event extraction: a case study on trigger type determination

Post on 14-Jul-2015

96 Views

Category:

Engineering

5 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ACL読み会2014

@首都大学東京首都大学東京修士2年小町研究室 立花竜一

2014年8月1日

Bilingual Event Extraction: a Case Study

on Trigger Type Determination(Zhu Zhu,

Shoushan Li, Guodong Zhou, Rui Xia; In

Proceedings of ACL-2014, pp.842–847.)

を紹介します

Event Extractionとは文を定められた形式の一つとして分類することです

● triggerと呼ばれる文をよく表す単語を決定し、それをもとに文をタイプ別に分類していく(triggerがleaveであれば、Transport /

Movementという形式に分類される)

● この論文ではACE2005という分類指標を用いる

Event Extractionとは4つの主要なサブタスクで構成されています

1.named trigger identification

2.trigger type determination

3.argument identification

4.argument role determination

で構成されている(Chen and NG,

2012)

Event Extractionとは4つの主要なサブタスクで構成されています

1.named trigger identification

2.trigger type determination

3.argument identification

4.argument role determination

で構成されている(Chen and NG,

2012)

Trigger Type Determinationとはサブタスクの一つでtriggerをもとに文のタイプを決定するタスクです● triggerがleaveであれば、Transport /

Movementという形式に分類される● この論文ではACE2005という分類指標を用いる

Event Extractionにおいてdata

sparsenessが問題になっています

● 様々なカテゴリがあるためsparseになる→ACE2005では8つのタイプ、33のサブタイプが存在する。例えば、“Marry/Life” (subtype/type)

● “Nominate/Personnel”や“Convict/Justice”といったサブタイプでは英語と中国語のそれぞれのコーパスにおいてラベル付けされたサンプルが10未満だった。

Event Extractionにおけるdata

sparsenessを改善する方法の一つは二カ国語の情報を利用することです

● 具体的には二つの異なる言語から得られる訓練データを用いた二カ国語からのevent extractionを行う

二カ国語の情報を利用することはラベル付けされたデータが別の言語において同様の情報を高度に伝えられることに基づいています

二カ国語の情報を利用することはラベル付けされたデータが別の言語において同様の情報を高度に伝えられることに基づいています

本論文の目的は2つの異なる言語からのラベルが付けられたデータで訓練され、両方の言語からのテストデータを分類することができる分類器を設計することです。

本手法は言語間にあるギャップを取り除くためのテキスト表現とイベントタイプを決定するトリガーを決定する2

つのタスクで構成されています

● テキスト表現ではトリガーに関するラベル付けを行う

● トリガー決定は一カ国語と二カ国語両方の観点から行う

● 翻訳はGoogle Translateを用いる

テキスト表現のタスクではタイプ分けするための重要な特徴であるトリガーと固有表現を中心にタグ付けを行います● E3ではleftとSaddamは"Transport/Movement"の分類において重要なパラメータになり、E4の中にそれらがあることがわかることが重要となる

フロー:機械翻訳によって翻訳サンプルを得て、テキスト表現を通して二カ国語の素性を持ったサンプルを作成します● 一カ国語の分類のフロー

フロー:機械翻訳によって翻訳サンプルを得て、テキスト表現を通して二カ国語の素性を持ったサンプルを作成します● 二カ国語の分類のフロー

テキスト表現における具体的な素性

● それぞれの素性をxとしてまとめて表す

二カ国語に対応するためにxを拡張します● cは中国語、eは英語のテキストから生成された素性を示している

中国語のイベントを英語のものに翻訳する場合、目的は英語のトリガーTrieを得ることです。中国語のトリガーTricは与えられているものとします● 中国語のイベントをScと示す。

● 英語のイベントをSeと示す。

目的関数は以下のように与えられ、本論文では一カ国語と二カ国語の手法でそれぞれ考えます

一カ国語のみの手法での関数は以下のように示し、一カ国語のみの情報を用いて求められます

● Reと示される英語の訓練データを利用する

二カ国語の手法の関数は以下のように示し、翻訳されたテキストSeとSc,Tricを用います。

● アライメントをすれば良いと思われるが、アライメントを学習させるためには大規模なパラレルコーパスが必要になるため今回は不可

Tricを翻訳したものを用いることで確率を求めます

● 0.9はトリガーの翻訳が翻訳された文で見つかる場合、翻訳確率が支配的な要因になるようにする経験的な値

● αは1をSeで割った小さな値

最終的に一カ国語と二カ国語の確率によって値を求めます

● またl - kが3以下になるようにトリガーのを小さくすることで計算コストを下げている

データセット:タイプが8、サブタイプが33を含むACE2005を指標として利用し、サンプルの80%を訓練データに、残りをテストデータに用いました

二カ国語からの全ての素性を用いた分類器が一カ国語のものや二カ国語の一部の素性を用いたものと比べF値が良くなりました

Bilingual_locationにおいて、Chinese

Test Dataの方がF値が改善されたのは元々のデータセットの数が原因とされています

Bilingual_locationにおいて、Chinese

Test Dataの方がF値が改善されたのは元々のデータセットの数が原因とされています

Future Work:二カ国語を利用する手法をイベント抽出においての他のサブタスクに適応することを挙げています

感想

● short paperで既存の手法における部分的な改善が目的な論文だったので他の論文と比べ若干見劣りするが、手法のアイデア自体は面白いと思った。

top related