deview2013 naver labs_nsmt_외부공개버전_김준석

48
NSMT : 통계적 기계번역기 개발 김준석 부장 / SMT연구lab/Naver Labs [email protected]

Upload: naver-d2

Post on 04-Dec-2014

1.749 views

Category:

Documents


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Deview2013 naver labs_nsmt_외부공개버전_김준석

NSMT : 통계적 기계번역기 개발

김준석 부장 / SMT연구lab/Naver Labs [email protected]

Page 2: Deview2013 naver labs_nsmt_외부공개버전_김준석

CONTENTS 1. NSMT 소개

2. NSMT 서비스 현황

3. NSMT 개발 이야기

4. 검색에 번역기를 활용한 사례

5. 정리

Page 3: Deview2013 naver labs_nsmt_외부공개버전_김준석

1. NSMT 소개

Page 4: Deview2013 naver labs_nsmt_외부공개버전_김준석

NSMT 소개

Naver Statistical Machine Translation (NAVER에서 개발한 통계적인 방식의 기계번역기)

번역기 개발 시작 모바일 한일번역기 서비스화

영스번역기 한일 통역기

한일번역기 PC버전 서비스화

2011 2012 2013

Page 5: Deview2013 naver labs_nsmt_외부공개버전_김준석

2. NSMT 서비스 현황

Page 6: Deview2013 naver labs_nsmt_외부공개버전_김준석

NAVER (PC) 일본어사전

(단문번역기)

일본어사전 (웹번역기)

Page 7: Deview2013 naver labs_nsmt_외부공개버전_김준석

NAVER (Mobile) 모바일 일본어 단문번역기

모바일 일본어 웹번역기

모바일 일본어 통역기

Page 8: Deview2013 naver labs_nsmt_외부공개버전_김준석

LINE

LINE 번역봇 (한국어-일본어) (영어-스페인어)

LIVEDOOR 번역기

(한국어-일본어) (영어-스페인어)

Page 9: Deview2013 naver labs_nsmt_외부공개버전_김준석

3. NSMT 개발 이야기

Page 10: Deview2013 naver labs_nsmt_외부공개버전_김준석

Word-based SMT

He made conversation with Jessica

그는 제시카 와 대화 했다

He 그는 made 했다 conversation 대화 with 와 Jessica 제시카

Page 11: Deview2013 naver labs_nsmt_외부공개버전_김준석

Phrase-based SMT

He made conversation with Jessica

그는 제시카와 대화했다

He 그는 made conversation 대화했다 with Jessica 제시카와

Page 12: Deview2013 naver labs_nsmt_외부공개버전_김준석

Hierarchical Phrase-based SMT

He made conversation with Jessica

그는 제시카 와 대화했다

X1 X2

X3

X1 X2

X3

X3->(X1 made conversation with X2, X1 X2 와 대화했다)

Page 13: Deview2013 naver labs_nsmt_외부공개버전_김준석

SMT 시스템 구조

decoder tokenizer generator

Translation Model

Language Model

Jfff 21 Ieee 21

)|Pr( 11

IJ ef )Pr( 1

Ie

Bilingual Corpus

Mono-lingual Corpus

Alignment & Phrase extraction N-gram

Fundamental Equation of MT

)]()|([maxargˆ111IIJ

e ePefPe

Search task Translation model language model

Page 14: Deview2013 naver labs_nsmt_외부공개버전_김준석

SMT 시스템 개발 과정

decoder tokenizer generator

Translation Model

Language Model

Jfff 21 Ieee 21

)|Pr( 11

IJ ef )Pr( 1

Ie

Bilingual Corpus

Mono-lingual Corpus

Alignment & Phrase extraction N-gram

NAVER 자체 개발

Page 15: Deview2013 naver labs_nsmt_외부공개버전_김준석

Translation Model 학습

Bilingual Corpus GIZA++ (IBM Model)

K2J Word Alignment

J2K Word Alignment

Alignment Symmetrization

Bi-directional Word

Alignment

Phrase Extraction Heuristic Phrase-Table

Page 16: Deview2013 naver labs_nsmt_외부공개버전_김준석

학습된 Translation Model

Source Target Probability

for a long time 오랫동안 0.133 0.030 0.388 0.015

am afraid of X1 X1을 무서워하다 0.922 0.002 0.930 0.005

not only X1 but also X2 X1 뿐만 아니라 X2 0.136 0.001 0.105 0.020

X1 as well as X2 X2 뿐만 아니라 X1 0.901 0.002 0.041 0.002

Source Target Probability

아침/NOUN 은/JOSA 朝/NCA ご飯/NCC は/PC 0.750 0.116 0.050 0.001

아침/NOUN 은/JOSA 朝/NCA に/PS は/PC 0.045 0.229 0.017 0.026

아침/NOUN 은/JOSA 朝/NCA は/PC 0.333 0.229 0.517 0.415

PB

HPB

Page 17: Deview2013 naver labs_nsmt_외부공개버전_김준석

Decoding

Translation Options

Generate Target

Language

Tokenized Source

Language

Translation Model

Language Model

Hypothesis Expansion

Pruning

Hypothesis Recombination

Page 18: Deview2013 naver labs_nsmt_외부공개버전_김준석

Stack decoding

Translation

Options

Decoding 진행방향

Page 19: Deview2013 naver labs_nsmt_외부공개버전_김준석

Decoding by CYK 알고리즘

[1,1] [2,2] [3,3] [4,4] [5,5] [6,6] [7,7] [8,8]

[1,2] [2,3] [3,4] [4,5] [5,6] [6,7] [7,8]

[1,3] [2,4] [3,5] [4,6] [5,7] [6,8]

[1,4] [2,5] [3,6] [4,7] [5,8]

[1,5] [2,6] [3,7] [4,8]

[1,6] [2,7] [3,8]

[1,7] [2,8]

[1,8]

He

likes

no

t

on

ly

alco

ho

l

bu

t

also

tob

acco

not only X1 but also X2 X1 뿐만 아니라 X2도

Bottom-up Chart Parsing

Page 20: Deview2013 naver labs_nsmt_외부공개버전_김준석

Cube Pruning 1/3

1.0 3.0 5.4 8.0

1.0 2.5 5.0

1.1 2.4

3.5

4.0

Non-monotonic due to LM !!

(5,5) 술

(5,5) 알코올

(5,5) 주류 (8

,8) 담배

(8,8

) 타바코

(8,8

) 흡연

2.0 + 0.5

Trigram(술, 뿐만, 아니라) + Trigram(뿐만, 아니라, 담배) + Trigram(아니라, 담배, 도)

(5,5) 약주

(8,8

) 담배

Page 21: Deview2013 naver labs_nsmt_외부공개버전_김준석

Cube Pruning 2/3

1.0 3.0 5.4 8.0

1.0 2.5 5.0

1.1 2.4

3.5

4.0

1.0 3.0 5.4 8.0

1.0 2.5 5.0

1.1 2.4 5.5

3.5 5.1

4.0

Page 22: Deview2013 naver labs_nsmt_외부공개버전_김준석

Cube Pruning 3/3 1.0 3.0 5.4 8.0

1.0 2.5 5.0

1.1 2.4

3.5

4.0

1.0 3.0 5.4 8.0

1.0 2.5 5.0

1.1 2.4 5.5

3.5 5.1

4.0

1.0 3.0 5.4 8.0

1.0 2.5 5.0 7.2

1.1 2.4 5.5

3.5 5.1

4.0

Page 23: Deview2013 naver labs_nsmt_외부공개버전_김준석

Rule 축까지 고려 1/5

Page 24: Deview2013 naver labs_nsmt_외부공개버전_김준석

Rule 축까지 고려 2/5

Page 25: Deview2013 naver labs_nsmt_외부공개버전_김준석

Rule 축까지 고려 3/5

Page 26: Deview2013 naver labs_nsmt_외부공개버전_김준석

Rule 축까지 고려 4/5

Page 27: Deview2013 naver labs_nsmt_외부공개버전_김준석

Rule 축까지 고려 5/5

Page 28: Deview2013 naver labs_nsmt_외부공개버전_김준석

3. NSMT 개발 이야기

번역기 평가

Page 29: Deview2013 naver labs_nsmt_외부공개버전_김준석

번역기 품질 평가

정량적 평가(Automatic Evaluation) : BLEU

정성적 평가(Human Evaluation) : Blind Test (3점 척도)

평가 문장 설계

신문

13%

매뉴얼

15%

Wiki

8%

e-mail

8% 문학

6%

회화

8%

게시판

8%

SNS

15%

자막

13%

만화

6%

구어체(50%)

문어체(50%)

TESTSET 출처 분포

Page 30: Deview2013 naver labs_nsmt_외부공개버전_김준석

비교 평가 결과

2011년말 평가

BLEU평가(2400문장), Human Evaluation(200문장)

한일번역기 3개 경쟁사와 번역 품질 비교

41.95 40.7

33.74

41.71

0

10

20

30

40

50

A B C NSMT

KJ BLEU

45 46.75 40.25

50

0

20

40

60

A B C NSMT

KJ Human Eval.

42.94

34.41 38.8

41.43

0

10

20

30

40

50

A B C NSMT

JK BLEU

43 44 51.5 48.75

0

20

40

60

A B C NSMT

JK Human Eval.

Page 31: Deview2013 naver labs_nsmt_외부공개버전_김준석

SMT 개발 FLOW

리소스 확보

병렬데이터 품사 tagger

기본 실험

Decoding 방식 결정 parameter 튜닝 내부 모델간 경쟁

심화 실험

경쟁사와 비교실험 오류 분석

개선을 위한 노력

유지보수

오류 수정 customizing 기능 추가

Page 32: Deview2013 naver labs_nsmt_외부공개버전_김준석

3. NSMT 개발 이야기

심화 실험 사례

Page 33: Deview2013 naver labs_nsmt_외부공개버전_김준석

Pre-Reordering (영어->한국어)

영어의 어순을 Dependency-Parser결과와 Reordering Rule을 이용해서 수정

참고논문: Using a Dependency Parser to Improve SMT for Subject-Object-Verb Languages, Franz Och, ACL 2009

Page 34: Deview2013 naver labs_nsmt_외부공개버전_김준석

Pre-Reordering (영어->한국어)

10

40

35.14

46

0

5

10

15

20

25

30

35

40

45

50

PB PB.Re HPB HPB.Re

Human Evaluation

10.07

14.71 14.45

15.65

0

2

4

6

8

10

12

14

16

18

PB PB.Re HPB HPB.Re

BLEU

Page 35: Deview2013 naver labs_nsmt_외부공개버전_김준석

Pre-Reordering (영어->스페인어)

형용사/명사 열에서 영어/스페인 어순 다름

학습 및 입력 단계에서 어순을 수정 후 번역

Spanish JJ

soccer NN

player NN

I PRP

like VBP

the DT

jugador NC

de SP

fútbol NC

ME PP

gusta VMI

el DA

español AQ

player NN

soccer NN

Spanish JJ

I PRP

like VBP

the DT

jugador NC

de SP

fútbol NC

ME PP

gusta VMI

el DA

español AQ

Page 36: Deview2013 naver labs_nsmt_외부공개버전_김준석

Pre-Reordering (영어->스페인어)

28.5

29.8

25

26

27

28

29

30

31

32

PB PB.Re

BLEU

75.5

85.5

60

65

70

75

80

85

90

PB PB.Re

Human Evaluation

Page 37: Deview2013 naver labs_nsmt_외부공개버전_김준석

2-Step SMT (한국어->영어)

English에 대해서 parser를 이용한 Pre-Reordering

Intermediate English (IE) 생성 (한국어-IE, IE-English Translation Table학습)

한국어-IE 간의 번역 (Step 1)

IE-English간의 번역 (Step 2)

참고논문: Post-ordering in Statistical Machine Translation. Katsuhito Sudoh, MT Summit 2011

Page 38: Deview2013 naver labs_nsmt_외부공개버전_김준석

2-Step SMT (한국어->영어)

17.11

20.87

18.28

0

5

10

15

20

25

PB 2 STEP HPB

BLEU

21

29.12

37.4

0

5

10

15

20

25

30

35

40

PB 2 STEP HPB

Human Evaluation

Page 39: Deview2013 naver labs_nsmt_외부공개버전_김준석

3. NSMT 개발 이야기

유지 보수

Page 40: Deview2013 naver labs_nsmt_외부공개버전_김준석

NSMT 유지보수

사내 열혈 번역기 사용자 피드백

외부 번역기 사용자로부터 CS

사용자 만족도 평가 결과

Log 분석 작업 및 보완

번역기 관련 SNS 모니터링

Page 41: Deview2013 naver labs_nsmt_외부공개버전_김준석

한일번역기 관련 SNS 모니터링

Page 42: Deview2013 naver labs_nsmt_외부공개버전_김준석

4. 검색에 번역기를 활용한 사례

Page 43: Deview2013 naver labs_nsmt_외부공개버전_김준석

QR (Query Reformulation)

사용자가 넣은 쿼리가 사용자의 의도에 적합한 문서를 찾기에 최적이 아닌 경우, 더 나은 검색 결과를 찾기 위한 쿼리 변형 (query reformulation)

ぎょうざの皮

ぎょうざ の 皮

餃子

行者

tokenizer

<s> </s>

餃子 の 皮

ぎょうざ + の + 皮

Page 44: Deview2013 naver labs_nsmt_외부공개버전_김준석

Cross-Language IR

SMT

카라, 장근석 カラ, チャン・グンソク

IND

EX

ING

SEARCH

Page 45: Deview2013 naver labs_nsmt_외부공개버전_김준석

5. 정리

Page 46: Deview2013 naver labs_nsmt_외부공개버전_김준석

Summary

PB, HPB 방식의 SMT 자체 기술 개발

Naver 사전 서비스 및 LINE 번역봇에 솔루션 제공

한국어/일본어, 영어/스페인어 번역기 서비스화

유지보수에도 각별한 신경

검색에 번역기 기술 적용

Page 47: Deview2013 naver labs_nsmt_외부공개버전_김준석

Q&A

Page 48: Deview2013 naver labs_nsmt_외부공개버전_김준석

THANK YOU