naist テキストコーパス : 述語項構造と共参照関係のアノテーション
DESCRIPTION
NAIST テキストコーパス : 述語項構造と共参照関係のアノテーション. 飯田龍 小町守 乾健太郎 松本裕治 奈良先端科学技術大学院大学 {ryu-i,mamoru-k,inui,matsu}@is.naist.jp 2007/1/26 (Fri) NL-177-10. はじめに. 述語項構造や共参照の解析の研究とともに タグ付与コーパスの作成の研究が盛ん 述語項構造解析・共参照解析の問題設定は自明ではない さまざまなタグ付与の仕様が提案されている - PowerPoint PPT PresentationTRANSCRIPT
NAIST テキストコーパス : 述語項構造と共参照関係のアノテーショ
ン
飯田龍 小町守 乾健太郎 松本裕治奈良先端科学技術大学院大学
{ryu-i,mamoru-k,inui,matsu}@is.naist.jp
2007/1/26 (Fri) NL-177-10
22007/1/26(Fri) NL-177-10
はじめに 述語項構造や共参照の解析の研究とともに
タグ付与コーパスの作成の研究が盛ん
述語項構造解析・共参照解析の問題設定は自明ではないさまざまなタグ付与の仕様が提案されている
述語項構造 : PropBank, 京都テキストコーパス 4.0,Global Document Annotation (GDA) コーパス , etc
共参照 : Message Understanding Task (MUC) Coreference (CO) task , Automatic Content Extraction (ACE) Entity Detection and Tracking (EDT) task, GNOME corpus, MATE corpus, etc
32007/1/26(Fri) NL-177-10
今回の取り組み 日本語を対象とした分析 / 評価 / 学習のための
大規模な述語項構造・共参照関係タグの作成既存のタグ付与の仕様を比較し,
各問題に対して暫定的に仕様を決定
タグ付与作業で出てきた問題について分析
タグ付与作業を行った成果NAIST Text Corpus 1.2β を公開
http://cl.naist.jp/nldata/corpus/
42007/1/26(Fri) NL-177-10
目次
1. はじめに2. 照応と共参照3. タグ付与の使用に関する先行研究と
NAIST テキストコーパスの仕様の比較4. 実際の作業結果の報告5. タグ付与の問題点6. おわりに
52007/1/26(Fri) NL-177-10
照応と共参照 照応関係 : ある表現が同一文章内の他の表現を指す関係 共参照関係 : 二つの表現が現実世界(もしくは仮想世
界)で同一実体を指す関係
村山首相は…彼は…
太郎は iPod を買った。次郎もそれを買った。
< 太郎の iPod>
< 次郎の iPod>
< 村山富市>
現実世界 ( 仮想世界 )
62007/1/26(Fri) NL-177-10
タグ付与の使用に関する先行研究とNAIST テキストコーパスの仕様の比較
タグ付与の種類 : 3 種の関係のタグ付与
共参照関係 Automatic Content Extraction (ACE)
Entity Detection and Tracking (EDT) task 京大コーパス 4.0, GDA コーパス
述語と項の関係
事態性名詞と項の関係
72007/1/26(Fri) NL-177-10
ACE Entity Detection and Tracking (EDT) Task
MUC Coreference (CO) task の後継MUC CO task (97, 98) , ACE EDT task (99 ~ )
対象言語English, Chinese and Arabic
最近の情報抽出タスクの gold standard
共参照解析のための 2 つの概念mention: 文章中に出現している表現そのものentity: mention が指す実体
82007/1/26(Fri) NL-177-10
ACE EDT Task (Cont’d)
mention と entity の区別
ジョンはリンゴを食べた。
彼はオレンジも食べた。
現実(仮想)世界
entity_iclass:specific_reference
共参照
文章
mention_aclass: namestype: Persons
mention_bclass: pronounstype: Persons
mention と entity にそれぞれ制約を強いている
現状では総称的な実体はタグ付与対象となっていない
92007/1/26(Fri) NL-177-10
共参照関係タグ付与コーパス(日本語) Global Document Annotation (GDA) コーパス
総称名詞間にタグが付与されている
京都コーパス 4.0ある実体とその役割の間に共参照相当のタグが付
与
村山 首相 は …
フロン対策急げ…フロンによる環境対策は…フロン=フロ
ン
村山=首相
102007/1/26(Fri) NL-177-10
NAIST テキストコーパスでの共参照関係 問題となる点
総称名詞なども共参照関係として認めるのか ?
総称名詞は照応詞,先行詞とみなさないタグ付与対象となる名詞句のクラスに制限を加える ?
名詞句のクラスに制約を加えずに共参照関係を認定
ACE のように名詞句のクラスを固有名などに制限するのはある種の問題(情報抽出)に特化さまざまな応用処理を対象にする場合,そのような制限は望ましくない
本 a は、書物の一種で、印刷・製本された出版物を指す。
図書館の本 b は借りることができる。 本 a ⊃ 本 b
112007/1/26(Fri) NL-177-10
述語と項の関係の先行研究 PropBank (Palmer, 05): CoNLL shared task (04, 05) 述語を含む文を対象に意味役割タグを付与
ARG0, ARG1, …, ARG5, AA, AM, AM-ADV, etc (35 種類 )
文内のみのタグ付与
ラベルの意味が不明瞭
122007/1/26(Fri) NL-177-10
述語と項の関係の先行研究 京都コーパス 4.0 ( 555 記事)
ガ / ヲ / ニ / カラ / ヘ / ト / ヨリ / マデなど表層レベルのタグ付与
日本語の場合はゼロ照応ため文を越えて付与する
ニツイテなども表層格とする
トム i は今日学校 j へ行った。帰っガ : トム i, ニ : 外界照応 , カラ : 学校 j てすぐに遊びに出かけた。
132007/1/26(Fri) NL-177-10
NAIST テキストコーパスでの述語と項の関係 深層格や表層格などどのレベルでタグを付与する ?
表層レベルからなんらかの情報を捨象することが応用分野に貢献するか否かが自明ではない
表層格,特に頻出するガ / ヲ / ニ格をまず対象に「誰が何を何に対してどうする」といった情報の
抽出を目的におく
述語の原型に対してタグ付与する私は彼にリンゴを食べさせる。
[ 述語 =“ 食べさせる” , ガ =“ 私” ヲ =“ リンゴ” ニ =“ 彼” ]京都コーパス 4.0
[ 述語 =“ 食べる” , ガ =“ 彼” ヲ =“ リンゴ” 追加格 ( させる )=“ 私” ]NAIST コーパス
142007/1/26(Fri) NL-177-10
事態性名詞の先行研究 事態性名詞
ある種のイベントを表す名詞 NomBank (Meyers et al., 04)
Penn Treebank II の約 5,000 名詞PropBank と同じタグセット (ARG0, …, ARGM-LOC な
ど )
京都コーパス 4.0
12% growth in dividends next year[REL=growth, ARG1=in dividends, ARGM-TMP=next year]
新民主連合所属議員の離党問題について「政権に影響を及ぼすことにはならない。…[離党ガ影響(する) ]
152007/1/26(Fri) NL-177-10
NAIST テキストコーパスでの事態性名詞 事態性名詞
事態性名詞そのものを認定する必要がある
対象を限定 :サ変名詞,和語動詞の名詞化 (例「動き」「走り」) (つまり「運動会」などは除く)
複合語の扱い構成的に分解可能 複合語の構成素にタグ付与
「紛争仲裁」 「紛争」「仲裁」にタグ付与する「フランス革命」 「革命」にはタグ付与しない
彼からの電話によると、私は彼の家に電話を忘れたらしい。
162007/1/26(Fri) NL-177-10
NAIST テキストコーパス仕様のまとめ 共参照関係
非総称名詞間の共参照関係にのみタグ付与名詞句のクラスに制約は加えない
述語と項の関係述語の原型を対象に表層ガ / ヲ / ニ格をタグ付与
事態性名詞と項の関係事態性名詞はサ変名詞もしくは和語動詞の名詞化構成的に分解可能な場合には複合名詞の構成素も
事態性名詞として解釈する述語と同様に表層ガ / ヲ / ニ格を付与
172007/1/26(Fri) NL-177-10
目次
1. はじめに2. 照応と共参照3. タグ付与の使用に関する先行研究と
NAIST テキストコーパスの仕様の比較4. 実際の作業結果の報告5. タグ付与の問題点6. おわりに
182007/1/26(Fri) NL-177-10
統計量
出現箇所 ガ格 ヲ格 ニ格述語106,628
同一文節内係り関係ゼロ照応 ( 文内 )ゼロ照応 ( 文間 )ゼロ照応 ( 文章外 )全体
177 (0.002)44,402 (0.419)32,270 (0.305)13,181 (0.124)15,885 (0.150)
105,915 (1.000)
60 (0.001)35,882 (0.835)
5,625 (0.131)1,307 (0.030)
96 (0.002)42,970 (1.000)
591 (0.027)18,912 (0.879)
1,417 (0.066)542 (0.025)45 (0.002)
21,507 (1.000)
事態性名詞28,569
同一文節内係り関係ゼロ照応 ( 文内 )ゼロ照応 ( 文間 )ゼロ照応 ( 文章外 )全体
2,195 (0.077)4,332 (0.152)9,222 (0.324)5,190 (0.183)7,525 (0.264)
28,464 (1.000)
5,574 (0.506)2,890 (0.263)1,645 (0.149)
854 (0.078)42 (0.004)
11,005 (1.000)
846 (0.436)298 (0.154)586 (0.302)201 (0.104)10 (0.005)
1,941 (1.000)
京都テキストコーパス 3.0 (2,929記事, 38,384 文 ) を対象に
192007/1/26(Fri) NL-177-10
統計量
出現箇所 ガ格 ヲ格 ニ格述語106,628
同一文節内係り関係ゼロ照応 ( 文内 )ゼロ照応 ( 文間 )ゼロ照応 ( 文章外 )全体
177 (0.002)44,402 (0.419)32,270 (0.305)13,181 (0.124)15,885 (0.150)
105,915 (1.000)
60 (0.001)35,882 (0.835)
5,625 (0.131)1,307 (0.030)
96 (0.002)42,970 (1.000)
591 (0.027)18,912 (0.879)
1,417 (0.066)542 (0.025)45 (0.002)
21,507 (1.000)
事態性名詞28,569
同一文節内係り関係ゼロ照応 ( 文内 )ゼロ照応 ( 文間 )ゼロ照応 ( 文章外 )全体
2,195 (0.077)4,332 (0.152)9,222 (0.324)5,190 (0.183)7,525 (0.264)
28,464 (1.000)
5,574 (0.506)2,890 (0.263)1,645 (0.149)
854 (0.078)42 (0.004)
11,005 (1.000)
846 (0.436)298 (0.154)586 (0.302)201 (0.104)10 (0.005)
1,941 (1.000)
京都テキストコーパス 3.0 (2,929記事, 38,384 文 ) を対象に 8 割以上が
係り関係にある約 6 割がゼロ照応関係にある
202007/1/26(Fri) NL-177-10
統計量
出現箇所 ガ格 ヲ格 ニ格述語106,628
同一文節内係り関係ゼロ照応 ( 文内 )ゼロ照応 ( 文間 )ゼロ照応 ( 文章外 )全体
177 (0.002)44,402 (0.419)32,270 (0.305)13,181 (0.124)15,885 (0.150)
105,915 (1.000)
60 (0.001)35,882 (0.835)
5,625 (0.131)1,307 (0.030)
96 (0.002)42,970 (1.000)
591 (0.027)18,912 (0.879)
1,417 (0.066)542 (0.025)45 (0.002)
21,507 (1.000)
事態性名詞28,569
同一文節内係り関係ゼロ照応 ( 文内 )ゼロ照応 ( 文間 )ゼロ照応 ( 文章外 )全体
2,195 (0.077)4,332 (0.152)9,222 (0.324)5,190 (0.183)7,525 (0.264)
28,464 (1.000)
5,574 (0.506)2,890 (0.263)1,645 (0.149)
854 (0.078)42 (0.004)
11,005 (1.000)
846 (0.436)298 (0.154)586 (0.302)201 (0.104)10 (0.005)
1,941 (1.000)
京都テキストコーパス 3.0 (2,929記事, 38,384 文 ) を対象に 8 割以上が
係り関係にある約 6 割がゼロ照応関係にある
同一文節内に最も多く出現約 8 割が
ゼロ照応の関係
212007/1/26(Fri) NL-177-10
タグの一致率
再現率 精度述語ガ格ヲ格ニ格
0.921 (806/875)0.823 (683/830)0.899 (329/366)0.724 (105/145)
0.944 (806/854)0.829 (683/824)0.954 (329/345)0.890 (105/118)
事態性名詞ガ格ヲ格ニ格
0.965 (247/256)0.735 (191/260)0.827 (86/104)0.389 (7/18)
0.792 (247/312)0.743 (191/257)0.869 (86/99)0.583 (7/12)
共参照 0.813 (126/155) 0.813 (126/155)
作業者 2人に 30記事を対象に作業を行ってもらった結果 一人の作業結果を正解,もう一人の結果をシステムの
出力として再現率,精度を求める
222007/1/26(Fri) NL-177-10
タグ付与の問題点
4 つ種の主要な問題について議論 共参照関係のタグ付与 述語のタグ付与 事態性名詞のタグ付与 述語と項の関係のタグ付与
232007/1/26(Fri) NL-177-10
共参照のタグ付与の問題点換喩のタグ付与
「ロシア側」という表現が異なる表現と共参照関係となり
実際に問題を解く際には非常に難しい問題設定となる
「ロシア」間で共参照関係を認定
グロズヌイからの報道によると三日、大統領官邸の北西一・五キロの鉄道駅付近でロシア軍部隊 i とチェチェン側部隊が衝突したが、ロシア側 i は中心部への進撃を阻まれて苦戦。 ... ロシア政府 j は三日、戦況に関する声明を発表し、大統領官邸を含む首都中心部は依然としてロシア側が支配していると強調した。しかし現地からのテレビ映像では、官邸はじめ中心部は依然としてドゥダエフ政権部隊の兵士が警戒に当たっており、ロシア側 j の発表と食い違いを見せている。
242007/1/26(Fri) NL-177-10
述語のタグ付与の問題点機能語相当表現との曖昧性
本動詞的な解釈 : 会社 A が会社 B を子会社とする機能語的な解釈 : “ ある一つの側面からの価値付け”
土屋ら (06): 機能語相当表現(複合辞)を対象に作業者間の一致度を評価
ある程度揺れなく作業できている
項を考慮しながら述語を認定する場合に困難になる 各表現ごとにどちらに解釈すべきかをあらかじめ
提示する
会社 A が会社 B を子会社として …
252007/1/26(Fri) NL-177-10
事態性名詞のタグ付与の問題点複合語の分割をどこまでやるのか ?
仕様 : 構成的に分割できる場合のみ複合語の中も タグ付与の対象とする
「投資率」のような複合語をどの程度構成的に分解するかの解釈が作業者間で揺れた
結果物はモノなのかコトなのか ?「契約」「規制」「投資」などの表現
料金規制当局と公共事業者が、一種の社会契約を結んだという考えに立つもので、経営効率化促進のための社会契約インセンティブ規制とも言われる。
事態性名詞についての細かな取り決めが必要
262007/1/26(Fri) NL-177-10
項のタグ付与の問題点 交替の現象ために起こる揺れ
例)( φ ガ)( φ ヲ)実現するagent ガ theme ヲ 実現するtheme ガ 実現する
他動詞的な解釈でタグを付与する 動作主性( agentivity )をどこまで認めるか ?
例)動詞 : 「しばる」の項「規制」規制( agent )ガ theme ヲ しばるagent ガ 規制( instrument )デ theme ヲ しばる
どちらの格パタンを優先するかを決める
272007/1/26(Fri) NL-177-10
おわりに 述語項構造・共参照関係のタグ付与の現状の仕様
を既存のコーパス作成の仕様と比較して紹介
問題点で述べた箇所を中心に今後もコーパスとその仕様を洗練する予定
282007/1/26(Fri) NL-177-10
公開情報NAIST Text Corpus 1.2β
ダウンロードhttp://cl.naist.jp/nldata/corpus/
タグ付与の仕様http://cl.naist.jp/~ryu-i/coreference_tag.html
292007/1/26(Fri) NL-177-10
302007/1/26(Fri) NL-177-10
述語と項の関係の先行研究 京都コーパス 4.0 ( 555 記事)
ガ / ヲ / ニ / カラ / ヘ / ト / ヨリ / マデなど表層レベルのタグ付与
日本語の場合はゼロ照応ため文を越えて付与する
ニツイテなども表層格とする Global Document Annotation コーパス ( 橋田 , 05)
ゼロ照応の場合でも同一文内に先行詞が出現している場合にはタグが付与されていない
学習手法の訓練事例として利用するには網羅性の点で問題となる
トム i は今日学校へ行った。帰っガ : トム i, ニ : 外界照応 てすぐに遊びに出かけた。
312007/1/26(Fri) NL-177-10
MUC Coreference Task
機械学習を用いた共参照解析の gold standard データ
情報抽出の部分問題としての共参照解析タスク 一般に共参照関係とはみなされない関係も
タグ付与の対象となっている
most, every のような量化表現を伴った名詞句Julius Caesar, the well-known emperor … のような
同格表現