structural svms 및 pegasos 알고리즘을 이용한...

61
자연어처리 소개

Upload: others

Post on 15-Feb-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

자연어처리 소개

Page 2: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

차례

• 자연어처리 소개

• 자연어처리 역사

Page 3: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

자연어처리

• 자연언어– 인공언어에 대응되는 개념

• 인공언어: 특정 목적을 위해 인위적으로 만든 언어 (ex. 프로그래밍 언어)– 자연언어에 비해 엄격한 구문을 가짐

– 특정 집단에서 사용되는 모국어의 집합

• 한국어, 영어, 불어, 독일어, 스페인어, 일본어, 중국어 등

• 자연언어처리 (Natural Language Processing)

– 컴퓨터를 통하여 인간의 언어를 이해하고 처리하는 학문 분야

– 기계번역, 자동통역, 정보검색, 질의응답, 문서요약, 철자오류 수정 등• Google, Naver, IBM Watson, Apple Siri, …

Page 4: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

IBM Waston

• http://www.youtube.com/watch?v=RepnuF8I_I0

• 왓슨(Waston)은 자연어 형식으로 된 질문들에 답할 수 있는 인공지능 컴퓨터 시스템이며, 시험 책임자 데이비드 페루치가 주도한 IBM의 DeepQA 프로젝트를 통해 개발되었다

• 2011년 기능 시험으로서 왓슨은 퀴즈 쇼 제퍼디!에 참가하였으며, 이는 이제까지도 유일한 인간 대 컴퓨터 대결이었다

• 2월 14일부터 16일까지 세 개의 제퍼디! 에피소드의 방송에서 왓슨은 금액기준 사상 최대 우승자 브레드 러터, 가장 긴 챔피언십(74번 연속 승리)의기록 보유자 켄 제닝스와 대결하였다. 첫 상금에서 켄 제닝스와 브레드 러터가 각각 300,000 달러와 200,000 달러를 받는 사이 왓슨은 100만 달러를 거머쥐었다.

제1장 자연언어처리의 개념 4

Page 5: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

5

Page 6: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

자연언어 분석 단계

6

형태소 분석(Morphological Analysis)

구문 분석(Syntax Analysis)

의미 분석(Semantic Analysis)

화용 분석(Pragmatic Analysis)

분석 결과

자연언어문장

S

NP VP

N N V

나는 사과를 먹었다

• 형태소분석: “감기는”의 결과 감기(명사:cold) + 는(조사) 감(동사 어간) + 기(명사화 어미) + 는(조사) 감(동사 어간) + 기는(어미)

나는 사과를 먹었다

sub

obj

• 구문분석: Structural Ambiguities

Time flies like light 2가지 이상 tree A man see a woman with a telescope 2가지 이

상 tree

• 의미분석: “말이 많다” 말: horse or speech ?

• 화용분석: “A씨는… B씨는 … 그는 …” 그: A or B ?

Page 7: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

형태론적 다양성

• 첨가어– 한국어, 일본어, 터키어 등– 다수의 형태소가 결합하여 어절 형성– 터키어는 평균 7개의 형태소가 결합

• 굴절어– 라틴어 (영어, 불어 등은 첨가어와 굴절어의 특징이 모두 있음)– 어간이 변함 (영어의 예 : run, ran, run)

• 스와히리어– 수(number)를 위한 형태소가 문두에 붙음– (예) 사람 : m+tu (단수), wa+tu (복수)

나무 : m+ti (단수), mi+ti (복수)• 아랍어

– 자음이 어간이고 모음이 시제, 수 등을 표현– (예) ktb(쓰다) kAtAb(능동) KUtIb(수동)

kttb(쓰게하다) kAttAb(능동) KUttIb(수동)

제1장 자연언어처리의 개념 7

Page 8: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

통사적 다양성

• Postfix 언어 (Head-Final Languages)

– 동사가 문장의 뒤에 위치

– 한국어, 일본어 등

• Infix 언어

– 동사가 문장의 중간에 위치

– 영어, 불어 등

• Prefix 언어

– 동사가 문장의 처음에 위치

– 아일랜드어

제1장 자연언어처리의 개념 8

Page 9: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

형태소 분석 (Morphological Analysis)

• 어절

• 양쪽에 공백을 갖는 띄어쓰기 단위의 문자열

• 단어 / 형태소

• 단일 품사를 갖는 단위 / 사전에 등록되어 있는 색인어의 집합

• 형태소 분석

• 입력된 문자열을 분석하여 형태소(morpheme)라는 최소 의미 단위로 분리

• 사전 정보와 형태소 결합 정보 이용

• 정규 문법(Regular Grammar)으로 분석 가능

• 언어에 따라 난이도가 다름

– 영어, 불어 : 쉬움

– 한국어, 일본어, 아랍어, 터키어 : 어려움

제1장 자연언어처리의 개념 9

“나는”:나 + 는날다 + 는나다 + 는

Page 10: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

형태소 분석의 어려운 점

• 중의성 (ambiguity)– “감기는”의 분석 결과

감기(명사:cold) + 는(조사)

감(동사 어간) + 기(명사화 어미) + 는 (조사)

감(동사 어간) + 기는(어미)

• 접두사, 접미사 처리

• 고유명사, 사전에 등록되지 않은 단어 처리

– 한국어, 독일어처럼 복합명사 내의 명사를 띄우지 않거나, 일본어처럼띄어쓰기가 없으면 더욱 어려워짐

• 한국어 형태소 결합의 예 (“친구에게서였었다라고”)

친구(명사) + 에게(조사) + 서(조사) + 이(서술격조사) + 었(과거시제어미) + 었(회상어미) + 다(어말어미) + 라고(인용격조사)

제1장 자연언어처리의 개념 10

Page 11: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

형식 문법과 자연언어

• Chomsky의 형식 문법 분류

• 자연언어의 구문이 Context-Free Grammar로 표현 가능한지 아닌지에 대해서는 결론이 내려지지않고 있다.

제1장 자연언어처리의 개념 11

Type Format of Productions Remarks

0 A Unrestricted Substitution Rules

(Contracting)

1A ,

S Context-Sensitive Grammar

2A ,

S Context-Free Grammar

3

A aB, A a

S Right Linear

Regular

GrammarA Ba, A a

S Left Linear

Page 12: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

문법, 구문 분석

• 문법 (Grammar) :

– 문장의 구조적 성질을 규칙으로 표현한 것

• 구문 분석기 (Parser) :

– 문법을 이용하여 문장의 구조를 찾아내는 process

– 문장의 구문 구조는 Tree 형태로 표현할 수 있다. 즉, 몇 개의 형태소들이 모여서 구문 요소(구: phrase)를 이루고, 그 구문 요소들간의 결합구조를 Tree형태로써 구문 구조를 이루게 된다.

S

NP

VP

N

V ART

John ate the apple

NP

N

John ate the apple

subject

object

det

Page 13: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

문법 (Grammars)

• Grammar : a set of rewrite rules

• Context Free Grammar (CFG) :

– 각 rule의 LHS(Left-Hand side)가 하나의 symbol로 이루어진 문법 규칙

• Grammar Rule 을 이용해서 문장(sentence)을 생성할 수도 있고(sentence generation), 분석할 수도 있다(sentence parsing).

(ex) S NP VPNP ART NNP NVP V NP

Page 14: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

Sentence Generation

(ex) By rewrite rule

S NP VP

N VP

John VP

John V NP

John ate ART N

John ate the N

John ate the apple.

Page 15: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

Bottom-up Parsing

(ex) John ate the apple.

N V ART N

NP V ART N

NP V NP

NP VP

S

S

NP

VP

N

V ART

John ate the apple

NP

N

Page 16: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

구문 분석 - Structural Ambiguities

• Structural Ambiguities

– Time flies like light. 2가지 이상의 구조로 분석됨• flies (noun or verb), like(verb or preposition)

– A man see a woman with a telescope on the hill. 5가지 이상

제1장 자연언어처리의 개념 16

S

NP VP

V NP

like light

NP NP

Time flies

S

NP VP

V PP

Time flies

like

IN NP

light

Page 17: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

의미 분석 (Semantic Analysis)

• 통사 분석 결과에 해석을 가하여 문장이 가진 의미를 분석

• 형태소가 가진 의미를 표현하는 지식 표현 기법이 요구됨

• 통사적으로 옳으나 의미적으로 틀린 문장이 있을 수 있음

– 돌이 걸어간다 (cf. 사람이 걸어간다)

– 바람이 달린다 (cf. 말이 달린다)

• Ambiguity

– 말이 많다 (horse, speech)

제1장 자연언어처리의 개념 17

Page 18: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

의미 분석 – cont’d

• 문법적으로는 맞지만 의미적으로 틀린 문장들

– 사람이 사과를 먹는다. (o)

– 사람이 비행기를 먹는다. (x)

– 비행기가 사과를 먹는다. (x)

구문 구조 의미적 제약S

NP VP

N V N

사람비행기

먹다 사과비행기

[먹다[ agent : 먹을수 있는 주체object : 먹을 수 있는 대상....]]

Page 19: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

의미역 결정 (Semantic Role Labeling)

Page 20: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

한국어 의미역 결정 (SRL)

• 서술어 인식(PIC)

– 그는 르노가 3월말까지 인수제의 시한을 [갖고]갖.1 있다고 [덧붙였다]덧붙.1

• 논항 인식(AIC)

– 그는 [르노가]ARG0 [3월말까지]ARGM-TMP 인수제의 [시한을]ARG1 [갖고]갖.1 [있다고]AUX 덧붙였다

– [그는]ARG0 르노가 3월말까지 인수제의 시한을 갖고 [있다고]ARG1 [덧붙였다]

덧붙.1

의존 구문 분석

의미역 결정

Page 21: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

화용 분석 (Pragmatic Analysis)

• 문장이 실세계(real world)와 가지는 연관관계 분석

• 실세계 지식과 상식의 표현이 요구됨

• 지시(anaphora), 간접화법(indirect speech act) 등의 분석

– Anaphora : 대명사의 지시 대상

The city councilmen refused the women a permit because(1) they feared violence.(2) they advocated revolution.

– Speech Act : 상대방에게 행동을 요구하는 언어 행위

Can you give me a salt?

Would you mind opening the window?

제1장 자연언어처리의 개념 21

Page 22: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

한국어 상호참조해결

상호참조 (Coreference)

문서 내에서 이미 언급된 객체에 대하여 표현이 다른 단어로 다시 언급하는 것

Mention: 상호참조해결의 대상이 되는 모든 명사구(즉, 명사, 복합명사, 수식절을포함한 명사구 등)를 의미

Entity: 상호참조가 해결된 Mention들의 집합

Mention Detection 예제

[[고양]에서 발생한 용오름]은 [토네이도]와 같은 것으로 [[[지상]의 뜨거운 공기]가 [[상층]의 찬 공기]와 갑자기 섞일 때] 발생합니다.

[뜨거운 공기]가 빠르게 상승하고 [찬 공기]는 하강하면서 [[길다란 기둥] 모양의구름]이 생겨나고 [[그] 안]에서 격렬한 [회오리바람]이 부는 겁니다.

Entity 예제

[지상의 뜨거운 공기], [뜨거운 공기]

[상층의 찬 공기], [찬 공기]

[길다란 기둥 모양의 구름], [그]

Page 23: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

자연어처리 특징

• Natural languages are ambiguous– Rule Classification (Maximum Entropy,

SVM) Deep Learning

• NLP datasets are high dimensional– One-hot representation Continuous

representation (Word Embedding)

• Many NLP problems can be viewed as sequence labeling tasks– Hidden Markov Model(HMM)

Conditional Random Fields (CRF) Deep Learning (RNN)

• Many NLP problems can be posed as sequence-to-sequence tasks– Rule Statistical Machine Translation

Neural MT

• “감기는” 감기(명사) or 감다(동사) + 기• “말이 많다” 말 = horse or speech ?• “A씨는… B씨는 … 그는 …” 그: A or B ?

• Ex. [0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0]• Dimensionality

• 50K (PTB) – 500K (big vocab) – 3M …

Page 24: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

차례

• 자연어처리 소개

• 자연어처리 역사

Page 25: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

Early History (1)

• 최초의 시도

– Warren Weaver : 기계번역 제안(1949)

– Idea: Translation is a process of dictionary lookup, plus substitution, plus grammatical reordering.

– Example

I must go home

Ich muss nach hause gehen

• 초기 기계번역 연구

– W.Weaver and A.D.Booth : 영어-불어 (Early 1950)

– George Town Univ.와 IBM : 러시아어-영어 (1954)

25

Page 26: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

Early History (2) - 초기 기계번역의 교훈 -

• Translation is really not possible without understanding.– Example (English Russian English)

The spirit is willing but flesh is weakThe vodka is strong but the meat is rotten.

• A great amount of world knowledge was needed, a program had to understand what was being said in order to be able to translate it properly.

The pen is in the box. The box is in the pen.

• Syntactic AmbiguitiesThey are flying planes.Time flies like an arrow.He saw a man on the hill with a telescope.

• Give a great deal of impetus to work on syntactic theories.

26

Page 27: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

Early History (3) - 정보 검색 -

• IBM

– 1950년대말 대량의 연구 논문을 대상으로 한 정보검

색 연구 시작

– 1964년에 의학문헌의 정보검색 시스템 MEDLARS 서

비스 개시

27

Page 28: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

Early History (4) - 기타 관련 연구 -

• Automata Theory– 1950년대말부터 1960년대에 여러 Automata 모델 제안

– 계산 이론의 기초일 뿐만 아니라, 언어 분석 모델로서 중요한역할

• Introduction of the idea of heuristic search– Newell and Simon (1956)

• Introduction of the LISP programming language– John McCarthy (1960)

28

Page 29: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

Early History (5) - 언어학 이론 -

• Chomsky– Syntactic Structure(1957), Aspect of the Theory of

Syntax(1965)

– 변형 생성 문법• 구구조 개념, 변형 개념

• 문장의 기본은 구구조이며, 문장은 구구조의 변형이다.

• C. Hockett

– Grammar for the Hearer(1961)

– 인간의 언어 이해는 문장을 끝까지 다 들은 후, 구문분석을시도하는 것이 아니고, 문장을 들으면서 그 때까지의 구문구조를 이해하고 있으며, 다음에 어떤 어구, 문장의 구조가발화되는지 예상하면서 듣는다.

29

Page 30: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

1960년대의 자연언어처리

• Ideas

– The use of limited domains for language-understanding

systems

– The use of key words to trigger certain actions

– The translation of English into formal languages

• Some Systems

– Key-word systems : ELIZA, DOCTOR, PARRY, etc.

– Translating English into a Formal System : STUDENT

– Data-base Question Answering : BASEBALL

30

Page 31: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

BASEBALL (1)

• Bert F. Green, Jr., Alice K. Wolf, Carol Chomsky,

and Kenneth Laughery (1963)

• Database Question Answering system

– Database query generation from English

– 미국 프로야구 자료를 자연언어로 검색하는 시스템

31

Page 32: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

BASEBALL (2)

• BASEBALL’S database

• Question: “Who did the Yankees play on July 7?”

• After Query Generator(OR (July 7 – Yankees/– ?ANSWER/–

(July 7 – ?ANSWER/– Yankees – ) )

• Answer : “Red Sox”

32

MONTH PLACE DAY GAME WINNER/SCORE LOSER/SCORE

July

July

July

Cleveland

Boston

Detroit

6

7

7

95

96

97

White Sox/2

Red Sox/5

Tigers/10

Indians/0

Yankees/3

Athletics/2

Page 33: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

ELIZA (1)

• Joseph Weizenbaum (at MIT), 1966

• 인간과 컴퓨터간의 대화 시스템

– Key-word에 의한 패턴 비교 기법 이용

– 상당한 지적 능력을 가진 시스템처럼 보여짐

33

Pattern Respond

(* computers *)

(* mother *)

(* I believe that *)

<nothing matched>

Do computers frighten you?

Tell me more about your family.

How long have you believe that .

Please go on.

Page 34: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

ELIZA (2)User : Men are all alike.Eliza : In what way?User : They’re always bugging us about something or other.Eliza : Can you think of a specific example?User : Well, my boyfriend made me come here.Eliza : Your boyfriend made you come here.User : He says I’m depressed much of the time.Eliza : I am sorry to hear you are depressed.User : It’s true. I am unhappy.Eliza : Do you think coming here will help you not to be

unhappy?User : I need some help; that much seems certain.Eliza : What would it mean to you if you got some help?User : Perhaps I could learn to get along with my mother.Eliza : Tell me more about your family.

34

Page 35: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

STUDENT

• Developed by Daniel Bobrow, 1968.

• Translates algebra problems into a set of linear

equations

– John’s age now is two times Mary’s age. JA = 2 * MA

– In three years John will be 6 years older than Mary. JA + 3 = MA + 6

• 패턴 비교 기법 이용

– 패턴의 빈자리(slot)에 필요한 요소를 끼워넣는 방법

– 단순한 패턴 비교와 소수의 경험적 규칙만으로도 문장의 분석이가능하다는 것을 보여준 프로그램

35

Page 36: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

격문법 (Case Grammar)• C. Fillmore (1968)

• 문장의 각 주요 명사구가 술어 동사에 대해 어떤 격으로 역할하는가에 주목

• 격관계를 의미적으로 해석

• 행위자격(agent), 대상격(object), 도구격(instrument) 등

• 다음 두 문장의 표면구조는 다르나 심층격은 동일He opened the door by the key.A key opened the door

• 기계적으로 처리하기 매우 어려움– 하나 하나의 개별 동사에 대해 그 동사가 어떤 의미의 격(명사구)를 요구

하는지 상세하게 사전에 기술해야 함– 의미소라는 것을 수십 내지 수 백개 설정

36

Page 37: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

1970년대의 자연언어처리

• The flowering of Semantic Information

Processing and Seeds of Cognitive Science

• Systems

– SHRDLU (1972)

– LUNAR (1972)

– MARGIE (1973)

– NLPQ (1974)

37

Page 38: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

SHRDLU• Terry Winograd (1972)

• Transform sentences into programs (in Block-world domain)– Carry out various tasks(e.g., moving blocks on a table), or search

for information in SHRDLU’s database, or generate an answer for its user.

• Can handle sentences exhibiting a wide variety of linguistic phenomena– Interpreted declarative sentences as database updates,

interrogative sentences as database searches, and imperative sentences as specifications for goals; these goals were achieved

• Linguistic coverage was very broad compared to previous programs– Can handle quantifications, generate natural-sounding dialogue,

and answer questions about the history of its dialogue and plan execution.

38

Page 39: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

LUNAR• Woods, Kaplan, and Nash-Webber (1972)

• A Natural Language Front-end for a database

containing moon rock sample analysis

• Use ATNs (Augmented Transition Networks)

• Very general notion of quantification based

on predicate calculus

• Use sophisticated techniques to translate

questions into database queries.

39

Page 40: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

SHRDLU and LUNAR

• Use relatively unconstrained language

• Work in very narrow domain

– SHRDLU : Block-world

– LUNAR : Moon-rock sample analysis

• Have complete, privileged knowledge of their

work

40

Page 41: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

MARGIE (1)

• Shank, Goldman, Rieger, and Riesbeck (1973)

• Deal with much more unconstrained language, particularly language about human actions

• Based on Conceptual Dependency Theory (by Shank)

– Every EVENT has :an ACTORan ACTION performed by that actoran OBJECT that the action is performed upona DIRECTION in which that action is oriented

– CD primitive actionsATRANS MTRANS SPEAK INGESTPTRANS MBUILD GRASP EXPELPROPEL ATTEND MOVE

41

Page 42: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

MARGIE (2)

(e.g.) John gave Mary a book.

actor Johnaction ATRANS /* transfer possession */object bookdirection FROM John TO Mary

42

John ATRANS bookP O R Mary

John

Page 43: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

1970년대의 교훈

• Knowledge Representation

– Central importance to all natural processing

– Issues

• How should items in memory be indexed and accessed

• How should context be represented

• How should memory be updated

• How can programs deal with inconsistency

• Common Sense

– Knowledge of the outside world

(e.g.) The city councilmen refused the women a permit because

they feared violence // they : city councilmen

they advocated revolution // they : women

43

Page 44: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

FRAMES

• Minskey, 1975

• Structures consisting of a core and slots

• Each slot corresponding to

– Either a facet or participant of a concept embodied

in the frame or a space for a pointer to a related

concept

• Provide a neat explanation for “default

reasoning”

44

Page 45: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

SCRIPTS

• Roger Shank and his collaborators at Yale (1977)

• (e.g.) Track : Coffee Shop

Props : Table Roles : S – Customers

Manu W – Waiters

F – Food C – Cook

Check M – Cashier

Money O – Owner

45

Page 46: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

Unification-based Grammar Formalisms

• Grammatical Theories– LFG (Lexical Functional Grammar) : Bresnan (1982)

– GPSP (Generalized Phrase Structure Grammar) : Gazdar(1985)

– HPSG (Head-driven Phrase Structure Grammar) : Pollard (1985)

• Grammatical Tools

– DCG (Definite Clause Grammar) : Pereira & Warren (1980)

– FUG (Functional Unification Grammar) : Kay (1983)

– PATR-II : Shieber et al. (1983)

46

Page 47: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

Unification-based Grammar Formalisms

• Augmented Phrase Structure Grammar

– Context-Free based grammar rules

– Use feature structures instead of simple grammar symbols

• Feature structure

– Complex-feature-based informational elements

– Associations between features and values

• Unification

– Information-combining operation

– main operation in unification-based grammar formalisms

47

Page 48: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

Feature Structure• 명사 “철수”와 동사 “먹다”의 자질 구조 (HPSG의 예)

48

LEX

N MAJ HEAD LOC SYN

철수"" PHON

LEX

OBJ GR

N MAJ HEAD|LOC|SYN

SUBJ GR

N MAJ HEAD|LOC|SYN

SUBCAT

V MAJ HEAD

LOC SYN

"먹다" PHON

Page 49: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

Unification

49

)2( third:person

singular:number:agreement FS

)1( NP:cat FS

)3(

third:person

singular:number:agreement

NP:cat

2 1 FSFSFS

Page 50: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

Unification

)3(

third:person

singular :number : agreement

NP :cat

FS

50

)4(

plural :number : agreement

NP :cat FS

FailednUnificatioFSFS 4 3

Unification of FS3 and FS4 is failed because the values of “agreement :

number” feature of them are not the same (conflict)

Page 51: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

최근 자연언어처리 연구동향

• 문법 규칙의 단순화, 사전의 대용량화– 각종 대용량 분석 사전, 시소러스 등

• Corpus에 기반한 언어처리

– 원시 Corpus, Tagged Corpus

– 문법, 어휘 정보 등 각종 언어 정보 추출

– 통계 기반 언어 처리 기계학습 기반 언어처리

• 실용 수준의 자연언어처리 시스템 개발

– 상용 기계번역 시스템

– 정보 검색 시스템

– 문서 분류, 요약 시스템 등

• 딥 러닝 (Deep Learning) 기술의 발달– 이미지 인식, 음성 인식 분야에서 딥 러닝 기술이 최고의 성능을 보여줌

– 자연어처리 분야에도 최근 딥 러닝 기술이 많은 응용 분야에서 최고 성능을 보여주고있음

51

Page 52: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

기계 번역의 역사 (1)

• GAT

– 1952년에 시작하여 1965년에 완성

– 소련어-영어 번역 시스템

– 번역 대상 : 물리학 분야 논문

– 단어 대 단어에 숙어 처리 가미

– 번역의 질은 매우 떨어졌으나, 1979년까지 미국 원자

에너지국에서 사용

52

Page 53: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

기계 번역의 역사 (2)

• CETA

– 1967년에 완성되어 1971년까지 사용

– 프랑스 Grenoble 대학에서 시작

– 언어학 이론에 기반한 번역

– Interlingua 방식 (Pivot approach)

• Interlingua : 개별 언어와 독립적 표현

• GETA

– CETA의 후속 시스템

– CETA의 실패를 거울 삼아 변환 방식(transfer approach) 채택

53

Page 54: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

기계 번역의 역사 (3)

• TAUM

– 일기예보 대상

– 영어-불어 번역 시스템

– 순수한 변환 방식

• METEO

– TAUM을 확장한 완전 자동 번역 시스템

– 번역 성공률이 90-95% 수준

• 실패하는 경우도 대부분 철자 오류 등임

54

Page 55: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

기계 번역의 역사 (4)

• SYSTRAN

– 최초로 상품화된 기계번역 시스템

– 1970년 미국 연방 정부 FTD 사용 (러시아-영어)

– 1974년 NASA 사용 (러시아-영어)

– 1976년 EC 사용 (영어-불어)

– 1978년 불어-영어

– 1979년 영어-이태리어

– 1985년 불어-독어, 영어-독어

55

Page 56: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

기계 번역의 역사 (5)

• METAL

– 1982년에 개발된 독어-영어 양방향 기계 번역 시스템

– GPSG를 이용한 영어 분석

• EUROTRA

– 유럽 공동체의 9개 언어 번역을 시도

– 1992년 1단계 연구 종료 : 시스템 개발에는 실패

– 유럽 공동체 예산의 40% 정도가 번역 비용으로 드는

만큼, 연구 개발이 계속될 전망

56

Page 57: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

기계 번역의 역사 (6)

• 일본의 연구

– 1964년 교토대학 Nagao 교수에 의해 시작

– 1990년 현재 20여개 시스템이 상품화

– 기계 번역 연구를 가장 활발히 진행하는 국가 중 하나임

• 한국의 연구

– 1980년 정도부터 대학 및 연구소에서 연구 시작

– 현재 영-한, 일-한, 한-일 번역 시스템 상품화

– 대학, 기업체 중심으로 연구 개발

57

Page 58: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

기계 번역의 역사 (7)

• Statistical Machine Translation (SMT)

– 구글 번역기, …

– Word based model

• GIZA++ (IBM model 1~6)

– Phrase based model

• Moses

• Parallel corpus (sentence aligned corpus) word alignment (GIZA++) phrase extraction reordering model language model (SRILM) decoding

58

Page 59: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

SMT: example

59

Page 60: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

기계 번역의 역사 (8)

• Neural Machine Translation (NMT)– 딥 러닝을 이용한 end-to-end 기

계번역 시스템

– Word-based Recurrent Neural Network (RNN) encoder + RNN decoder로 구성됨• Parallel corpus (sentence aligned

corpus) NMT training RNN decoding

– 최근에는 Attention Mechanism을도입하여 더욱 높은 성능을 보임

– Phrase-based MT, Hierarchical Phrase-based MT 보다 높은 성능을 보임

60

Page 61: Structural SVMs 및 Pegasos 알고리즘을 이용한 …cs.kangwon.ac.kr/~leeck/NLP2/01_intro_NLP.pdf자연어처리 • 자연언어 –인공언어에대응되는개념 • 인공언어:

NMT example

61