deview2013 naver labs_nsmt_외부공개버전_김준석
DESCRIPTION
TRANSCRIPT
NSMT : 통계적 기계번역기 개발
김준석 부장 / SMT연구lab/Naver Labs [email protected]
CONTENTS 1. NSMT 소개
2. NSMT 서비스 현황
3. NSMT 개발 이야기
4. 검색에 번역기를 활용한 사례
5. 정리
1. NSMT 소개
NSMT 소개
Naver Statistical Machine Translation (NAVER에서 개발한 통계적인 방식의 기계번역기)
번역기 개발 시작 모바일 한일번역기 서비스화
영스번역기 한일 통역기
한일번역기 PC버전 서비스화
2011 2012 2013
2. NSMT 서비스 현황
NAVER (PC) 일본어사전
(단문번역기)
일본어사전 (웹번역기)
NAVER (Mobile) 모바일 일본어 단문번역기
모바일 일본어 웹번역기
모바일 일본어 통역기
LINE
LINE 번역봇 (한국어-일본어) (영어-스페인어)
LIVEDOOR 번역기
(한국어-일본어) (영어-스페인어)
3. NSMT 개발 이야기
Word-based SMT
He made conversation with Jessica
그는 제시카 와 대화 했다
He 그는 made 했다 conversation 대화 with 와 Jessica 제시카
Phrase-based SMT
He made conversation with Jessica
그는 제시카와 대화했다
He 그는 made conversation 대화했다 with Jessica 제시카와
Hierarchical Phrase-based SMT
He made conversation with Jessica
그는 제시카 와 대화했다
X1 X2
X3
X1 X2
X3
X3->(X1 made conversation with X2, X1 X2 와 대화했다)
SMT 시스템 구조
decoder tokenizer generator
Translation Model
Language Model
Jfff 21 Ieee 21
)|Pr( 11
IJ ef )Pr( 1
Ie
Bilingual Corpus
Mono-lingual Corpus
Alignment & Phrase extraction N-gram
Fundamental Equation of MT
)]()|([maxargˆ111IIJ
e ePefPe
Search task Translation model language model
SMT 시스템 개발 과정
decoder tokenizer generator
Translation Model
Language Model
Jfff 21 Ieee 21
)|Pr( 11
IJ ef )Pr( 1
Ie
Bilingual Corpus
Mono-lingual Corpus
Alignment & Phrase extraction N-gram
NAVER 자체 개발
Translation Model 학습
Bilingual Corpus GIZA++ (IBM Model)
K2J Word Alignment
J2K Word Alignment
Alignment Symmetrization
Bi-directional Word
Alignment
Phrase Extraction Heuristic Phrase-Table
학습된 Translation Model
Source Target Probability
for a long time 오랫동안 0.133 0.030 0.388 0.015
am afraid of X1 X1을 무서워하다 0.922 0.002 0.930 0.005
not only X1 but also X2 X1 뿐만 아니라 X2 0.136 0.001 0.105 0.020
X1 as well as X2 X2 뿐만 아니라 X1 0.901 0.002 0.041 0.002
Source Target Probability
아침/NOUN 은/JOSA 朝/NCA ご飯/NCC は/PC 0.750 0.116 0.050 0.001
아침/NOUN 은/JOSA 朝/NCA に/PS は/PC 0.045 0.229 0.017 0.026
아침/NOUN 은/JOSA 朝/NCA は/PC 0.333 0.229 0.517 0.415
PB
HPB
Decoding
Translation Options
Generate Target
Language
Tokenized Source
Language
Translation Model
Language Model
Hypothesis Expansion
Pruning
Hypothesis Recombination
Stack decoding
Translation
Options
Decoding 진행방향
Decoding by CYK 알고리즘
[1,1] [2,2] [3,3] [4,4] [5,5] [6,6] [7,7] [8,8]
[1,2] [2,3] [3,4] [4,5] [5,6] [6,7] [7,8]
[1,3] [2,4] [3,5] [4,6] [5,7] [6,8]
[1,4] [2,5] [3,6] [4,7] [5,8]
[1,5] [2,6] [3,7] [4,8]
[1,6] [2,7] [3,8]
[1,7] [2,8]
[1,8]
He
likes
no
t
on
ly
alco
ho
l
bu
t
also
tob
acco
not only X1 but also X2 X1 뿐만 아니라 X2도
Bottom-up Chart Parsing
Cube Pruning 1/3
1.0 3.0 5.4 8.0
1.0 2.5 5.0
1.1 2.4
3.5
4.0
Non-monotonic due to LM !!
(5,5) 술
(5,5) 알코올
(5,5) 주류 (8
,8) 담배
(8,8
) 타바코
(8,8
) 흡연
2.0 + 0.5
Trigram(술, 뿐만, 아니라) + Trigram(뿐만, 아니라, 담배) + Trigram(아니라, 담배, 도)
(5,5) 약주
(8,8
) 담배
향
Cube Pruning 2/3
1.0 3.0 5.4 8.0
1.0 2.5 5.0
1.1 2.4
3.5
4.0
1.0 3.0 5.4 8.0
1.0 2.5 5.0
1.1 2.4 5.5
3.5 5.1
4.0
Cube Pruning 3/3 1.0 3.0 5.4 8.0
1.0 2.5 5.0
1.1 2.4
3.5
4.0
1.0 3.0 5.4 8.0
1.0 2.5 5.0
1.1 2.4 5.5
3.5 5.1
4.0
1.0 3.0 5.4 8.0
1.0 2.5 5.0 7.2
1.1 2.4 5.5
3.5 5.1
4.0
Rule 축까지 고려 1/5
Rule 축까지 고려 2/5
Rule 축까지 고려 3/5
Rule 축까지 고려 4/5
Rule 축까지 고려 5/5
3. NSMT 개발 이야기
번역기 평가
번역기 품질 평가
정량적 평가(Automatic Evaluation) : BLEU
정성적 평가(Human Evaluation) : Blind Test (3점 척도)
평가 문장 설계
신문
13%
매뉴얼
15%
Wiki
8%
8% 문학
6%
회화
8%
게시판
8%
SNS
15%
자막
13%
만화
6%
구어체(50%)
문어체(50%)
TESTSET 출처 분포
비교 평가 결과
2011년말 평가
BLEU평가(2400문장), Human Evaluation(200문장)
한일번역기 3개 경쟁사와 번역 품질 비교
41.95 40.7
33.74
41.71
0
10
20
30
40
50
A B C NSMT
KJ BLEU
45 46.75 40.25
50
0
20
40
60
A B C NSMT
KJ Human Eval.
42.94
34.41 38.8
41.43
0
10
20
30
40
50
A B C NSMT
JK BLEU
43 44 51.5 48.75
0
20
40
60
A B C NSMT
JK Human Eval.
SMT 개발 FLOW
리소스 확보
병렬데이터 품사 tagger
기본 실험
Decoding 방식 결정 parameter 튜닝 내부 모델간 경쟁
심화 실험
경쟁사와 비교실험 오류 분석
개선을 위한 노력
유지보수
오류 수정 customizing 기능 추가
3. NSMT 개발 이야기
심화 실험 사례
Pre-Reordering (영어->한국어)
영어의 어순을 Dependency-Parser결과와 Reordering Rule을 이용해서 수정
참고논문: Using a Dependency Parser to Improve SMT for Subject-Object-Verb Languages, Franz Och, ACL 2009
Pre-Reordering (영어->한국어)
10
40
35.14
46
0
5
10
15
20
25
30
35
40
45
50
PB PB.Re HPB HPB.Re
Human Evaluation
10.07
14.71 14.45
15.65
0
2
4
6
8
10
12
14
16
18
PB PB.Re HPB HPB.Re
BLEU
Pre-Reordering (영어->스페인어)
형용사/명사 열에서 영어/스페인 어순 다름
학습 및 입력 단계에서 어순을 수정 후 번역
Spanish JJ
soccer NN
player NN
I PRP
like VBP
the DT
jugador NC
de SP
fútbol NC
ME PP
gusta VMI
el DA
español AQ
player NN
soccer NN
Spanish JJ
I PRP
like VBP
the DT
jugador NC
de SP
fútbol NC
ME PP
gusta VMI
el DA
español AQ
Pre-Reordering (영어->스페인어)
28.5
29.8
25
26
27
28
29
30
31
32
PB PB.Re
BLEU
75.5
85.5
60
65
70
75
80
85
90
PB PB.Re
Human Evaluation
2-Step SMT (한국어->영어)
English에 대해서 parser를 이용한 Pre-Reordering
Intermediate English (IE) 생성 (한국어-IE, IE-English Translation Table학습)
한국어-IE 간의 번역 (Step 1)
IE-English간의 번역 (Step 2)
참고논문: Post-ordering in Statistical Machine Translation. Katsuhito Sudoh, MT Summit 2011
2-Step SMT (한국어->영어)
17.11
20.87
18.28
0
5
10
15
20
25
PB 2 STEP HPB
BLEU
21
29.12
37.4
0
5
10
15
20
25
30
35
40
PB 2 STEP HPB
Human Evaluation
3. NSMT 개발 이야기
유지 보수
NSMT 유지보수
사내 열혈 번역기 사용자 피드백
외부 번역기 사용자로부터 CS
사용자 만족도 평가 결과
Log 분석 작업 및 보완
번역기 관련 SNS 모니터링
한일번역기 관련 SNS 모니터링
4. 검색에 번역기를 활용한 사례
QR (Query Reformulation)
사용자가 넣은 쿼리가 사용자의 의도에 적합한 문서를 찾기에 최적이 아닌 경우, 더 나은 검색 결과를 찾기 위한 쿼리 변형 (query reformulation)
ぎょうざの皮
ぎょうざ の 皮
餃子
行者
革
tokenizer
<s> </s>
餃子 の 皮
ぎょうざ + の + 皮
Cross-Language IR
SMT
카라, 장근석 カラ, チャン・グンソク
IND
EX
ING
SEARCH
5. 정리
Summary
PB, HPB 방식의 SMT 자체 기술 개발
Naver 사전 서비스 및 LINE 번역봇에 솔루션 제공
한국어/일본어, 영어/스페인어 번역기 서비스화
유지보수에도 각별한 신경
검색에 번역기 기술 적용
Q&A
THANK YOU