第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides ›...

64
3⾃然⾔語処理への招待 3⾃然⾔語処理への招待 京都⼤学 学術情報メディアセンター ⼤規模テキストア カイブ研究室 ⼤規模テキストアカイブ研究室 森 信介 1

Upload: others

Post on 04-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

第3章 ⾃然⾔語処理への招待第3章 ⾃然⾔語処理への招待

京都⼤学 学術情報メディアセンター⼤規模テキストア カイブ研究室⼤規模テキストアーカイブ研究室

森 信介

1

Page 2: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

研究室 2016 Apr. 〜p

• 京都⼤学• 京都⼤学

学術情報メディアセンタ• 学術情報メディアセンター

⼤規模テキストア カイブ分野– ⼤規模テキストアーカイブ分野

情報学研究科 知能情報専攻(兼担)• 情報学研究科 知能情報専攻(兼担)

メディアアーカイブ分野– メディアアーカイブ分野

• 学部配属なし(⼤学院で希望して下さい)• 学部配属なし(⼤学院で希望して下さい)

Page 3: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

http://www.ar.media.kyoto-u.ac.jp/p y jp

3

Page 4: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

⾃⼰紹介• 使⽤⾔語 (今でも学習中)

⾃⼰紹介

– ⽇本語, Englis., França.., Itali..., Esp...., Po.......

• 研究経歴– 京都⼤学 学⼠ → 修⼠ → 博⼠京都⼤学 学⼠ 修⼠ 博⼠

• ⾃然⾔語処理

⽇本アイ ビ エム– ⽇本アイ・ビー・エム

• ⾳声認識・合成

– 京都⼤学学術情報メディアセンター

• ⾃然⾔語処理⾃然⾔語処理

• メディア融合 4

Page 5: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

統計的仮名漢字変換統計的仮名漢字変換• [情処論99] (第58回電気科学技術奨励賞)( )

– Google, Microsoft, Apple と⾃分が使っている (特許をとってれば…)

• [Coling-ACL06]• [Coling-ACL06]– ⼤規模テキストの部分⽂字列の列挙

• [EMNLP15]

5– ユーザーの変換ログからの⾔語知識の獲得

Page 6: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

⾃然⾔語処理研究者としての位置• 統計的⼿法統計的⼿法

– 卒論の1994年では先駆的, 現在は当然

• 基礎的な⾔語解析– 形態素解析・固有表現認識・係り受け解析

– 照応解析・意味解析・⽂法理論

応⽤課題の提案 解決 (デ タ作成 → モデル構築)• 応⽤課題の提案・解決 (データ作成 → モデル構築)

• 対象⾔語は主に⽇本語 (引⽤数が稼ぎにくいが…)– 論⽂発表

⾔語資源・ツールの公開

6

– ⾔語資源・ツールの公開

Page 7: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

⾃然⾔語 Natural Languageg g

• ⾃然発⽣した⾔語⾃然発⽣した⾔語– v.s. プログラミング⾔語

例 本語 英語 中国語 ト語例) ⽇本語・英語・中国語・エスペラント語?

• 計算機は数値として処理– ⽂字コード (ASCII, UTF8, EUC, SJIS): ⽂字と数字の対応

⽂字列は可変⻑の整数ベクトル– ⽂字列は可変⻑の整数ベクトル

• フォントにより⽂字コードをディスプレイ出⼒– 等幅フォント v.s. プロポーショナルフォント

– ビットマップフォント v.s. アウトラインフォント

7

Page 8: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

⽂字フォント

Page 9: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

アウトラインフォント• ⽂字の輪郭線の形状⽂字の輪郭線の形状

を関数曲線の情報として持つ– スプライン, etc.

– ラスタライズ– ラスタライズ

Page 10: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

アウトラインフォントの例

Page 11: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

⾃然⾔語の単位• ⽂字⽂字

– 表現の最⼩単位

• 単語, 形態素– ⽂字列

– 意味を持つ最⼩の単位

例) 始める 始め た start start ed例) 始める, 始め た, start, start ed

• ⽂– 単語列

• 段落(⽂章)11

• 段落(⽂章)

• 節・章・⽂書

Page 12: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

⾃然⾔語処理 Natural Language Processingg g g

• ⾃然⾔語を扱う計算機⾃然⾔語を扱う計算機– v.s. プログラミング⾔語

が⾃• ⽣成系: 出⼒が⾃然⾔語– 仮名漢字変換・⾳声認識・ビデオキャプショニング

• 解析系: ⼊⼒が⾃然⾔語形態素解析 意味理解 ⾳声合成– 形態素解析・意味理解・⾳声合成

• 両⽅– 機械翻訳・対話・⾃動要約

Cf 計算⾔語学 Computational Linguistics

12

Cf. 計算⾔語学 Computational Linguistics

– 計算的⼿法を使う⾔語学

Page 13: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

⾃然⾔語処理の利⽤例• 検索エンジン検索エンジン

– 全⽂検索・単語分割・ページランク

名 換 声• 仮名漢字変換・⾳声認識– 単語分割・読み推定・⾔語モデル

• ⾳声合成単語分割 品詞推定 読み推定 アクセント推定– 単語分割・品詞推定・読み推定・アクセント推定

• 機械翻訳

• 対話システム

質問応答13

• 質問応答

Page 14: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

仮名漢字変換デモ• SIMPLE (Statistical Input Method for Personal Learning and Education; 仮)SIMPLE (Statistical Input Method for Personal Learning and Education; 仮)

– http://www.ar.media.kyoto-u.ac.jp/mori/research/topics/KKC/

統計的仮名漢字変換の学習⽤– 統計的仮名漢字変換の学習⽤

– 単語と読みの組の1-gramモデルベースの変換エンジン

– かなり簡素で Perl で約230⾏

– 239⽂の学習コーパスで変換精度は92.2% (意外と⾼い)239⽂の学習コ パスで変換精度は92.2% (意外と⾼い)

14

Page 15: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

Front-end Processor (FEP)( )• ⼀般にはシステムの前処理(および後処理)を⾏う機構般にはシステムの前処理(および後処理)を⾏う機構

• 仮名漢字変換のエンジン以外の部分– アルファベット列から平仮名列への変換

– 変換領域の指定

– 変換エンジンへの平仮名列の受け渡し

変換候補の表⽰・列挙– 変換候補の表⽰・列挙

• ソフトウェアの成否は中⼼部分以外にも依存

15

Page 16: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

理解への逐次処理1. 単語分割・品詞推定・読み推定

彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

2. ⽤語認識/固有表現認識 (Opt.)彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

3. 係り受け解析彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

4. 共参照解析彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

16= ⾳⽻⼭清⽔寺= バラク・オバマ

Page 17: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

形態素解析 Morphological Analysisp g y

1. 単語分割 (形態素分割)( )2. 品詞推定3 他のタグ推定 (読み 原型 正規表記 意味タグ )3. 他のタグ推定 (読み, 原型, 正規表記, 意味タグ, …)

17隠れセミマルコフモデルに基づく教師なし完全形態素解析内海 慶, 塚原 裕史, 持橋 ⼤地, NLP2015

Page 18: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

形態素解析の⽅法• ⼈⼿記述の品詞接続コストの最⼩化 JUMAN⼈⼿記述の品詞接続コストの最⼩化 JUMAN

• 系列予測 (Sequence Labeling) MeCab

– argmax P(w1, w2, ..., wm|x1, x2, ..., xn)argmax P(w1, w2, ..., wm|x1, x2, ..., xn)

– CRF, 形態素 n-gram 確率

• 点予測 (Pointwise Classification) KyTea( ) y

1. 各⽂字間の単語境界の有無を推定 (SVM)

2 各単語の品詞を推定18

2. 各単語の品詞を推定

2. 原型やその他のタグを推定

Page 19: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

形態素解析⼿法の歴史• ⼈⼿設定の品詞接続コスト (JUMAN)

• 品詞 3-gram モデル [Nagata COLING94]– 未知語モデルあり

• 形態素 3-gram モデル [⾃然⾔語処理98]g– 未知語モデルあり

• CRF [Kudo+ EMNLP04] (MeCab)[ ] ( )– 未知語モデルなし → 辞書を充実する⽅針

• ⽂字単位の点予測 [Neubig+ LREC10][Neubig+ ACL11][IS11] (KyTea)– 未知語モデル不要 → 学習外ドメインに強い未知語モデル不要 → 学習外ドメインに強い– 必要最⼩限の曖昧性解消

Page 20: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

機械学習による形態素解析• 系列予測系列予測

– 形態素列をモデル化

• 点予測点予測– 問題を最⼩単位に分割

⽂字間の単語境界 (2値分類)• ⽂字間の単語境界 (2値分類)

• 単語の品詞・読み・原型・その他タグ (多値分類)

– 推定値を参照しない → 様々な⾔語資源に対応

20

Page 21: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

形態素解析の⽤途• 検索

• ⽂⽣成• ⽂⽣成– 機械翻訳, 動画の説明, 計算機の思考の⾔語化

• 品詞・読み不要!?– ⾳声認識, 仮名漢字変換

• 品詞不要!

• 後段の⾔語処理⾳声合成 係り受け解析

21

– ⾳声合成, 係り受け解析, …

Page 22: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

現在の⾃然⾔語処理• 機械学習によるアプローチ機械学習によるアプロ チ

1. アノテーション基準の策定2 ⾔語資源の構築 (⼈⼿によるアノテ ション)2. ⾔語資源の構築 (⼈⼿によるアノテーション)3. 分類器の学習・利⽤

• ⼀般分野での⾼い精度般分野での⾼い精度• ⼗分に⼤きなコーパスがあるから

•応⽤分野では不⼗分な精度 (Twitter, レシピ, 医療)• 「とにかく⾼い精度を実現しろ︕」という声が

Page 23: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

形態素解析の精度向上• ⼿法の改良

– 向上幅が⼩さい (例: 98.1% → 98.3%)

– 国際学会に通らなければ実装者は報われない国際学会に通らなければ実装者は報われない

• ⾔語資源追加 → 効果絶⼤– 95% → 98%!! (レシピの場合)

– 不要なアノテーションによる無意味なコスト増の回避

例) ⾔語モデル作成のための品詞付与例) ⾔語モデル作成のための品詞付与

– 副作⽤を避けつつ確実に問題となる誤解析を解消

23

例) リリカルなのは, この先⽣きのこれるか

Page 24: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

固有表現認識 Named Entity Recognitiony g

• 検索等の応⽤に有⽤な単語列とその種類検索等の応⽤に有⽤な単語列とその種類例) ⼈名・組織名・地名・⽇付・時間・⾦額・割合 (MUC の定義)

彼 名詞 と 助詞 清⽔ 名詞 寺 名詞 助詞 ⾏く 動詞

– 実世界に対応することが多い

彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞組織名

– 固有名詞に限定されない (Named Entity)

• 分野特有の定義– Bio NER

– レシピ, 将棋解説

24

Page 25: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

固有表現認識の⽅法• 系列予測 (Sequence Labeling)系列予測 (Sequence Labeling)

– ⼊⼒として単語列を仮定

各単語 対す タグ 推定– 各単語に対するBIO タグ (Begin, Intermediate, Other) の推定

– B, I は分類により詳細化 (B-Per, I-Per, B-Org, ...)• タグ数 = 分類数 x 2 + 1

• 変種– BIESO タグ (BIO, End, Single)

– 点予測によるタグと確率の推定 + 最尤経路探索

25

Page 26: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

固有表現認識• ⼀般分野般分野

– 新聞の情報検索のために定義

⼈名 組織名 地名 付 時間 ⾦額 割合 定義– ⼈名・組織名・地名・⽇付・時間・⾦額・割合 (MUC の定義)

– MUC + ⼈⼯物 (IREX の定義)

– 10,000⽂の学習コーパスで90%の精度

• 課題依存の定義例) 他社製品と⾃社製品を区別したい

– 3,000⽂で90% (レシピ, 将棋解説)

26

3,000⽂で90% (レシピ, 将棋解説)

– コストはかかるが役に⽴つ

Page 27: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

固有表現認識の周辺話題• 異なる単語列だが同⼀実体異なる単語列だが同 実体

例) 清⽔ 寺, 清⽔ さん

• 同⼀単語列だが異なる実体同 単語列 が異なる実体例) 京都市または加東市の 清⽔ 寺

ンテ テ リンキング– エンティティーリンキング• データベース (Wikipedia 等) への⾃動リンク

27

Page 28: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

Wikification

ti から Wiki di t への i•mention から Wikipedia entry への mapping•表層ゆれ解消+曖昧性解消(多対多)

清⽔の舞台なう清⽔の舞台なう

清⽔寺もいったし⼋坂さんもいったし、最⾼や

清⽔寺

⻄国三⼗三札所巡りもついに第25番清⽔寺

清⽔寺清⽔寺 (加東市)

⼋坂神社28

⼋坂神社

Page 29: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

Wikification の利点

観光ガイド

写真

位置

29

Page 30: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

データ・思考の⾃動解説

出⼒ 解説⼊⼒: 将棋の局⾯ 出⼒: 解説

戦型 は戦型 はSt/横歩取りに な っ た。

30• 東⼤ 鶴岡先⽣, ⻲甲君 (2014-2016 萌芽)

Page 31: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

利⽤可能な資源利⽤可能な資源

P iti d• Position and Commentary

• Junisen C1, C2– 2003〜2013– 3 786 match– 3,786 match– 212,066

sent.

31

Page 32: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

将棋解説コーパス [Mori+ LREC16]将棋解説コ パス [Mori+, LREC16]

• 2,508⽂と対応する局⾯,• ⼈⼿アノテーション

• 単語分割• 単語分割• ⽤語 (将棋固有表現)

• 21種• BIO タグ体系

• http://www.ar.media.kyoto-u.ac.jp/data/game/

32

Page 33: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

将棋局⾯の⾃動解説 [Kameko+ CIG15]将棋局⾯の⾃動解説 [Kameko+, CIG15]

1. 局⾯と⽤語の⾃動対応

St: 相振り⾶⾞

St: ⾓換わり

相振り⾶⾞

St: ⾓換わり

St: 横歩取り

Real World Expression

St: 横歩取り

Real World Expression

デ33

2. ⾔語モデルによる⽂⽣成 (n-gram, LSTM)

Page 34: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

将棋の解説⽂⽣成

コンピュータ将棋プログラム将棋︓強い⾔葉︓難しい

△1四⽟なら▲3五⾶成が好⼿という。以下△同⾺▲同⾓△3六⾶▲4三⾓で△3五⾶は▲2六⾦と押さえる△3五⾶は▲2六⾦と押さえる。

好⼿: 読みの結果評価値がよくなる?好⼿: 読みの結果評価値がよくなる?押さえる: どいういう⼿? ⼿順を追った局⾯での動作

/ 26 34

Page 35: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

構⽂解析• 係り受け解析係り受け解析

彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

• 句構造解析

彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

句構造解析⽂

名詞句 名詞句

後置詞句

動詞句

後置詞句

彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

名詞句 名詞句 動詞句

Page 36: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

構⽂による解釈の反映• 彼 と ⾏く (with him)彼 と ⾏く (with him)

彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

• 祇園 と 清⽔ 寺 (and Kiyomizu temple)

祇園/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞祇園/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

Page 37: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

句構造⽂法の⽣成規則• ⽂ → 後置詞句 後置詞句 動詞句 | 後置詞句 動詞⽂ 後置詞句 後置詞句 動詞句 | 後置詞句 動詞

• 後置詞句 → 名詞句 助詞or

• 名詞句 → 名詞 | 名詞 名詞 | 名詞句 と/助詞 名詞句

• 動詞句 → 動詞動詞句 → 動詞

後置詞句 後置詞句

彼 名詞 と 助詞 清⽔ 名詞 寺 名詞 助詞 ⾏く 動詞

名詞句 名詞句 動詞句

彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

Page 38: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

句構造⽂法の曖昧性• ⽂ → 後置詞句 後置詞句 動詞句 | 後置詞句 動詞⽂ 後置詞句 後置詞句 動詞句 | 後置詞句 動詞

• 後置詞句 → 名詞句 助詞or

• 名詞句 → 名詞 | 名詞 名詞 | 名詞句 と/助詞 名詞句

• 動詞句 → 動詞動詞句 → 動詞名詞句

彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

名詞句 名詞句

• ⽣成規則に確率を付与して解消

彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

– 確率値はコーパスから推定

Page 39: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

係り受け解析の⽅法• ⽇本語はほぼ係り受け解析のみ⽇本語はほぼ係り受け解析のみ

– ⽂節単位 (KNP, CaboCha) か単語単位 (EDA)

主• (主に) ⼈⼿記述の規則による⽅法 KNP

– 統計情報を取り込んでいっている

• Shift-reduce (Transition-based) CaboCha

⽂頭 単語から逐次読み込み– ⽂頭の単語から逐次読み込み• スタックに積むか

• 係り先を決めるか

• Maximum Spanning Tree (Graph-based) EDA

39– 各単語間の係り受け確率の完全グラフから最⼤全域⽊を算出

Page 40: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

係り受け解析の問題点• 学習データ作成のコストが⾼い学習デ タ作成のコストが⾼い

• 効果が少ない– 検索が少し良くなる!?検索が少し良くなる!?

– 機械翻訳は単語列の End-to-end に移⾏

• ⼀部の曖昧性のみ解消– 不必要な曖昧性も解消!?

構造は⼼内にあるのか?

40

– 構造は⼼内にあるのか?

Page 41: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

意味解析• 構⽂解析でも残る曖昧性を意味を⽤いて低減

– 語義曖昧性• Which マック, McDonaldʼs or Macintosh?

• 本で知った v.s. 本で殴った

– ⽂意の曖昧性C th i d ? (依頼 疑問)• Can you open the window? (依頼 or 疑問)

Page 42: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

深層格• 動詞に対する役割を定義

– 動作主格

– 道具格 電⾞で

– 対象格対象格

– ⽬標格

– 場所格 京都で

時間格– 時間格

Page 43: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

共参照解析• 複数⽂にまたがる参照関係の推定複数⽂にまたがる参照関係の推定

– 主に名詞句

昨 ⼤統領 が 来

– 指⽰代名詞の照応解析が典型

昨⽇ アメリカ の ⼤統領 が 来 た 。

彼 と 清⽔ 寺 に ⾏っ た 。

Page 44: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

その他の課題• 機械翻訳

– ある⾔語の単語列を他の⾔語の単語列に

– ニューラルネットで End-to-end

• 含意関係認識• 含意関係認識– ある記述がある命題の成⽴を意味するか

• 本で知った v.s. 本で殴った → 読んだ?

• ⾃動要約• ⾃動要約• 思考・データの⾔語化

Page 45: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

⼿順書の理解Procedural text• 実⽤性の⾼い1. 両⼿鍋で油を熱する。セロリと⻘ねぎとニンニクを加え、1分ほど炒める。

• 実⽤性の⾼い

• ⾔語理解の良い対象 1分ほど炒める。2. ブイヨンと⽔とマカロニと胡椒を加えて、パスタが柔らかくなるまで煮る。

3. 刻んだセージをまぶす。

⾔語理解の良い対象– 主観がない

– 時制・モダリティーがない

• 実世界との関連が強い

• 実⾏による理解の検証可能性

45

Page 46: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

⼿順書の理解・⽣成Procedural text Flow graph [Mori+, LREC14]

1. 両⼿鍋で油を熱する。セロリと⻘ねぎとニンニクを加え、1分ほど炒める

g p [ , ]

1分ほど炒める。2. ブイヨンと⽔とマカロニと胡椒を加えて、パスタが柔らかくなるまで煮る。

3. 刻んだセージをまぶす。

Intelligent search[Yamakata+ SocInfo13]

Smart kitchen[Hashimoto+ IPMU08]

Cooking robot[B lli i ISER13] [Yamakata+, SocInfo13][Hashimoto+, IPMU08][Bollini+, ISER13]

Cut garlicThen add it

46www.denso.co.jp

Page 47: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

⼿順書の理解1. Word segmentation1. 両⼿鍋で油を熱する。

(I D t h h t il )g

2. Concept identification3. Flow graph estimation

(In a Dutch oven, heat oil.)セロリと⻘ねぎとニンニクを加え、(Add celery, green onions, and garlic.)1分ほど炒める1分ほど炒める。(Cook for about 1 minute.)

2. ブイヨンと⽔とマカロニと胡椒を加えて、パスタが柔らかくなるまで煮る。パスタが柔らかくなるまで煮る。(Add broth, water, macaroni, and pepper,and simmer until the pasta is tender.)

3.刻んだセージをまぶす。3. 刻んだセ ジをまぶす。(Sprinkle the snipped sage.)

47

Page 48: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

Flow Graphp• Direct acyclic graph (DAG) representing work flow

48

Page 49: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

Vertex LabelsTag Meaning Remarks

F Food Eatables including intermediate products,

T Tool Knife, container, etc., ,

D Duration Duration for cooking

Q Q i Q i f f dQ Quantity Quantity of food

Ac Action by Verbs representing chef’s actions (stem chef only)

Af Action by Verbs representing food’s actions (stem food only)

Sf Food state Food’s initial or intermediate states

49St Tool state Tool’s initial or intermediate states

Page 50: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

Arc LabelsLabel Meaning RemarkAgent Action agent Relationship with actions (Ac or Af)Agent Action agent Relationship with actions (Ac or Af)Targ Action targetDest Action destinationT-comp Tool complement Tool used in an actionF-comp Food complement Food used as a toolF-eq Food equality Identical foodF-part-of Food part-of Refer to a part of a foodF t F d t R f t t f f dF-set Food set Refer to a set of foodsT-eq Tool equality Identical toolT-part-of Tool parf-of Refer to a part of a toolT part of Tool parf of Refer to a part of a toolA-eq Action equality Identical action (Ac, Af)V-tm Head verb for timing, etc.

50

other-mod Other relationships

Page 51: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

Procedural Text1 両⼿鍋で油を熱する1. 両⼿鍋で油を熱する。

(In a Dutch oven, heat oil.)

セロリと⻘ねぎと ン クを加え 1分ほど炒めるセロリと⻘ねぎとニンニクを加え、1分ほど炒める。(Add celery, green onions, and garlic. Cook for about 1 minute.)

2. ブイヨンと⽔とマカロニと胡椒を加えて、(Add broth, water, macaroni, and pepper,

パスタが柔らかくなるまで煮る。and simmer until the pasta is tender.)

3. 刻んだセージをまぶす。(Sprinkle the snipped sage.)

51

Page 52: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

Step 1. Word Segmentationp gResult:

1. 両⼿ 鍋 で 油 を 熱 する 。(In a Dutch oven, heat oil.)( , )

セロリ と ⻘ ねぎ と ニンニク を 加え 、 1 分 ほど 炒め る 。(Add celery green onions and garlic Cook for about 1 minute )(Add celery, green onions, and garlic. Cook for about 1 minute.)

2. ブイヨンと ⽔ と マカロニ と 胡椒 を 加え て 、(Add broth water macaroni and pepper(Add broth, water, macaroni, and pepper,

パスタ が 柔らか く な る まで 煮 る 。d i til th t i t d )and simmer until the pasta is tender.)

3. 刻 ん だ セージ を まぶ す 。

52

(Sprinkle the snipped sage.)

Page 53: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

Step 2. Concept Identificationp pResult:

1. /両⼿ 鍋/T で /油/F を /熱/Ac する 。(Dutch oven) (oil) (heat)

/セロリ/F と /⻘ ねぎ/F と /ニンニク/F を /加え/Ac 、(celery) (green onions) (garlic) (add)

/ 1 分 ほど/D /炒め/Ac る 。((about 1 minute) (cook)

2 /ブイヨン/F と /⽔/F と /マカロニ/F と /胡椒/F を /加え/A て2. /ブイヨン/F と /⽔/F と /マカロニ/F と /胡椒/F を /加え/Ac て 、(broth) (water) (macaroni) (pepper) (add)

/パスタ/F が /柔らか/Sf く /な/Af る まで /煮/Ac る 。/パスタ/F が /柔らか/Sf く /な/Af る まで /煮/Ac る 。(pasta) (tender) (is) (simmer)

3. /刻/Ac ん だ /セージ/F を /まぶ/Ac す 。(snipped) (sage) (sprinkle)

53

Page 54: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

Step 3. Flow Graph Estimationp pParsing of a document, not a sentenceg

Result:

Page 55: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

Step 3. Flow Graph Estimation

1 Maximum Spanning Tree search

p p

1. Maximum Spanning Tree search

Logistic regression (LR) scores– Logistic regression (LR) scores

– 1st order– 1 order

2 Arc addition2. Arc addition

DAG constrains– DAG constrains

– LR score ≶ penalty(n)55

LR score ≶ penalty(n)

Page 56: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

Text Parsing on a Raw TextgTask Input FWord segmentation (WS) Raw Recipe Texts 98.6Concept Identification (CI) Gold WS results 90.7Flow Graph Estimation (FGE) Gold WS/CI results 72.1WS + CI + FGE Raw Recipe Texts 51.6p• WS

• Enough high and well solvedg g• CI

• Less accurate than WSN d i• Needs improvement or more resource

• FGE• Least accurate most difficult

56

• Least accurate, most difficult• Needs more resource or more sophisticated techniques

Page 57: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

ApplicationsppProcedural text Flow graph [Mori+, LREC14]

1. 両⼿鍋で油を熱する。セロリと⻘ねぎとニンニクを加え、1分ほど炒める

g p [ , ]

1分ほど炒める。2. ブイヨンと⽔とマカロニと胡椒を加えて、パスタが柔らかくなるまで煮る。

3. 刻んだセージをまぶす。

Intelligent search[Yamakata+ SocInfo13]

Smart kitchen[Hashimoto+ IPMU08]

Cooking robot[B lli i ISER13] [Yamakata+, SocInfo13][Hashimoto+, IPMU08][Bollini+, ISER13]

Cut garlicThen add it

57www.denso.co.jp

Page 58: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

KUSK Dataset [Hashimoto+, CEA14][ , ]

• 20 recipes Recipe says; cut chicken into bite-size pieces

LEp• 40 cookging

videos

Then human will do …

EXA

MPL

videos E

58

Page 59: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

●REC

調理動画からのレシピの⾃動⽣成調理動画からのレシピの⾃動⽣成[Ushiku+ IJCNLP17][Ushiku+, IJCNLP17]

59

Page 60: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

出⼒の例調理者が参照したレシピ (オムレツのレシピ)ミンチをいためて、⾊がかわったら、他の野菜も⼊れていためて、⽕が通ったら⼩⻨粉をいれて、粘り気がすこしでるまでいためて 味をつける粘り気がすこしでるまでいためて、味をつける卵をといて、1をいれて、フライパンをクルってして、まく。お⽫にもりつけてできあがりぃ。

提案⼿法の結果フライパンに熱を⼊れ、炒めを炒める。ボウルを2つ⽤意。包丁ですを使、

提案⼿法の結果

包丁ですを使、油をしいて炒める挽⾁を炒める。お好みででる。(砂糖を使う⽅は ここで⼀緒に(砂糖を使う⽅は、ここで⼀緒に。好みでコショウを加える。お好みででをかけてもる。キャベツはざく切り。卵はほぐしておく

60

卵はほぐしておく。フライパンに⾖腐を⼊れ炒める。

Page 61: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

FINFIN

61

Page 62: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

基礎的⾔語処理を⾃前のツ ルでカバ⾃前のツールでカバー

1. 単語分割・品詞推定・読み推定 [LREC10, ACL11, IS11]彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

2. ⽤語認識/固有表現認識 [PACLING15, ACL16]彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

3. 係り受け解析 [IJCNLP11, NLP12, LREC14, IWPT15][ , , , ]彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

4. 共参照解析 [IJCNLP13, LREC16]彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞彼/名詞 と/助詞 清⽔/名詞 寺/名詞 に/助詞 ⾏く/動詞

62= ⾳⽻⼭清⽔寺= バラク・オバマ

Page 63: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

⾔語処理ツールの開発・公開1. 形態素解析(⽇本語・中国語)形 素解析( 本語 中国語)

– KyTeahttp://www.phontron.com/kytea/

2. 固有表現認識– PWNERhttp://www.ar.media.kyoto-u.ac.jp/tool/PWNER/home.html

3. 係り受け解析EDA– EDA

http://plata.ar.media.kyoto-u.ac.jp/tool/EDA/

4. 述語項構造解析, Wikification

Page 64: 第3章⾃然⾔語処理への招待 - 京都大学 › mori › research › public › slides › ... · 2018-01-29 · –単語と読みの組の1-gramモデルベースの変換エンジン

超短単位 SSUW• 基本的には短単位 (国語研 KOTONOHAプロジェクト)( )

• ⽣成&グラウンディングを意識した単位• ⽣成&グラウンディングを意識した単位• 活⽤語を語幹と語尾に分割 (|V|x5 v.s. |V|+5)

• 語幹: 内容に対応 (実世界・他⾔語)• 語尾: 純粋に⽂法的要素

ex.) 久しぶり | に | 会 | っ | た | 友達 | と | 飲み歩 | く

64