음성인식기술을 이용한 일본드라마 감성분석

27
한한한한한한 한한한 한한한한한 한한 한한한 한한한한 한한한 한한한 한한 한한한 한한 한한 (Analysis of Japanese Drama using Emotional Speech Recognition) 2011. 6. 10( 금 ). 금금금 금금금금금 금금금금금

Upload: cyberemotion

Post on 14-Jun-2015

1.125 views

Category:

Education


4 download

TRANSCRIPT

Page 1: 음성인식기술을 이용한 일본드라마  감성분석

한국연구재단 학제간 융합연구팀 주최 세미나

음성인식 기술을 이용한 일본 드라마 감성 분석

(Analysis of Japanese Drama using Emotional Speech Recognition)

2011. 6. 10( 금 ).

김성호

영남대학교 전자공학과

Page 2: 음성인식기술을 이용한 일본드라마  감성분석

Outline

Introduction of emotional speech recognition Related works and current status Standard emotional recognition system

MFCC feature Classification by SVM

Experimental results Concusions

2

Page 3: 음성인식기술을 이용한 일본드라마  감성분석

Introduction

Speech A sequence of elementary acoustic symbols

Information in speech Gender information, age, accent, speaker’s identity, health, and

emotion

Application of emotional speech recognition Recently, increased attention in this area 융합과제 : 반한 감정에 대한 정량적 분석에 도움 . Human-Robot interaction Smart call-centers Computer tutoring system

3

Page 4: 음성인식기술을 이용한 일본드라마  감성분석

Related Works (2007-2008)

[J. Sidorova, 2007] Feature: pitch, intensity, formant, harmonicity 116 dim. Classifier: MLP (neural-network) Number of emotions: 7 types (neutral, angry, disgusted, fear, joy,

surprise, sad) Test DB: EMO-DB (Deutch) 80.67%

[T. Danisman, 2008] Feature: MFCC, energy Classifier: SVM (Support Vector Machine) Number of emotions: 5 types (angry, happy, neutral, sad,

surprise) Test DB: DES-DB (Denmark) 67.6%

4

Page 5: 음성인식기술을 이용한 일본드라마  감성분석

Related Works (2009-2011)

[M. Vondra, 2009] Feature: F0, Intensity, MFCC Classifier: GMM (Gaussian Mixture Model) Number of emotions: 7 types Test DB: EMO-DB (Deutch) 71.63%

[M. El Ayadi, 2011] Survey Feature

Best feature is unknown. Classifier

• HMM, GMM• SVM, Neural Net, k-NN

Current performance Speaker independent: around 50% Speaker dependent: over 90%

5

Page 6: 음성인식기술을 이용한 일본드라마  감성분석

Standard Method of Emotional Speech Recognition

Key algorithm Feature extractor: MFCC Classifier: SVM

6

Recognized emotions

MFCCSVM orNearest class mean classifier

MFCC

Training acoustic files

Testing acoustic files

Page 7: 음성인식기술을 이용한 일본드라마  감성분석

Feature for Emotional Speech Recognition

Mel Frequency Cepstral Coefficients (MFCC) Convey information of short time energy in frequency domain

7

Signal

Fourier transform (frequency domain)

Mapping the power spectrum onto the mel scale

Take Log of powers at each mel frequency

Final MFCC: Amplitude of resulting spectrum

Mel scale: 사람이 차이를 느끼는

주파수 간격

Mel

Sca

le

Hertz ScaleTake discrete Cosine transform

Page 8: 음성인식기술을 이용한 일본드라마  감성분석

Classifier: Support Vector Machine

8

Feature space Learning: Finding optimal classifier

Recognition: Performed by the learned classifier

Ex. y=ax+b

Original SVM basically binary class classifier Multiclass SVM use multiple SVMs and voting

Page 9: 음성인식기술을 이용한 일본드라마  감성분석

Classifier: Nearest Class Mean

9

Feature space

Learning: Finding class means

Recognition: Finding nearest class

Page 10: 음성인식기술을 이용한 일본드라마  감성분석

Exp.1 on EMO Database

EMO DB 7 types (happy, angry, anxious, fearful, bored, disgusted, neutral) 10 kinds of sentences 10 people (male 5, female 5) Language: Deutch

10

anger

happy

boredom

Page 11: 음성인식기술을 이용한 일본드라마  감성분석

Recognition using Nearest Class Mean Classifier

Learning: 150 (randomly selected), test: 150

11

Recognition rate: 47.0%

Page 12: 음성인식기술을 이용한 일본드라마  감성분석

Recognition using SVM

Recognition rate: 38.0%

12

SVM 보다 Nearest Class Mean Classifier 가 우수함 .

Page 13: 음성인식기술을 이용한 일본드라마  감성분석

Exp2. 독일어로 학습 일본어 테스트 놀람

13

슬픔

기쁨

독일어와 일본어의 차이로 인해 인식이 불안정함 .

Page 14: 음성인식기술을 이용한 일본드라마  감성분석

Exp3. 일본어로 학습 일본어로 테스트

14

'neutral

'anger’

'happy’

‘surprise’

'sad'

DB 구성 : 5 개 감정 , 57 개 음성클립( 언덕 위의 구름 4 화만 활용 )

Page 15: 음성인식기술을 이용한 일본드라마  감성분석

인식결과 : Nearest Class Mean Classifier 이용

15

56.7%

surprise

happy

anger

neutral

sad

Page 16: 음성인식기술을 이용한 일본드라마  감성분석

인식결과 : SVM 이용

16

86.6%

SVM 인식 기법이 더 우수함 .

surprise

happy

anger

neutral

sad

Page 17: 음성인식기술을 이용한 일본드라마  감성분석

Exp.4 확장 실험

학습 : 158 음성 클립 (1-4 화 , 2 초 / 클립 ) 26,635x20dim 10 회 반복 (cross-validation, random sampling, 5000 개

feature, 16ms/feature) 평균인식률 : 92.85

17

surprise

happy

anger

neutral

sad

Page 18: 음성인식기술을 이용한 일본드라마  감성분석

제 1 화 전체 음성 파일 분석 결과

세 주인공의 유년시절 나레이션 많음 . 배경 음악 자주 있음 .

18

surprisehappy

anger

neutral

sad

surprise

불꽃놀이 헤어짐 영어수업

순양함 감탄

Page 19: 음성인식기술을 이용한 일본드라마  감성분석

제 2 화 전체 음성 파일 분석 결과

세 주인공의 학창시절 나레이션 많음 . 배경 음악 자주 있음 .

19surprise

해군 훈련

Page 20: 음성인식기술을 이용한 일본드라마  감성분석

제 3 화 전체 음성 파일 분석 결과

청일전쟁 직전 나레이션 많음 . 배경 음악 자주 있음 .

20surprise

부친상 , 회상 , 나레이션

조선군대 파병 관련 관료 대화

Page 21: 음성인식기술을 이용한 일본드라마  감성분석

제 4 화 전체 음성 파일 분석 결과

청일전쟁 나레이션 많음 . 배경 음악 자주 있음 .

21

육상전쟁 해상전쟁 종군기자나레이션

Page 22: 음성인식기술을 이용한 일본드라마  감성분석

제 5 화 전체 음성 파일 분석 결과

청일전 승리 얘기 미국 방문 나레이션 많음 .

22

민비시해사건소개 ( 놀람 )

미국 무도회 나이아가라폭포관광 ( 놀람 )

Page 23: 음성인식기술을 이용한 일본드라마  감성분석

제 6 화 전체 음성 파일 분석 결과

23

Page 24: 음성인식기술을 이용한 일본드라마  감성분석

제 7 화 전체 음성 파일 분석 결과

24

해군교육(anger)

문학인죽음(sad)

장례식(sad)

Page 25: 음성인식기술을 이용한 일본드라마  감성분석

제 8 화 전체 음성 파일 분석 결과

25

Page 26: 음성인식기술을 이용한 일본드라마  감성분석

제 9 화 전체 음성 파일 분석 결과

26

출항 , 헤어짐(sad)

전투(anger)

전투(anger)

Page 27: 음성인식기술을 이용한 일본드라마  감성분석

결론

감성 언어 인식 기법 결론 MFCC 특징량 추출 및 인식기 (SVM, Nearest mean class

classifier) 개발 독일어 7 종 감정 인식 성능은 최대 47% 임 . 독일어 학습 일본어 감정 인식 성능은 매우 안좋음 . 일본어 5 종 감정 학습 일본어 감정 인식 최대 성능은 92.85%

임 .

‘ 언덕위의 구름’ 전체 음성 분석 결과 1-9 화 전체 음성 파일에 적용 및 통계적 분석 결과 특정 장면에서

감정이 일부 상관 관계가 있었지만 , 배경 음악 , 나레이션 등에 의해 무의미한 부분이 많음 .

반한 감정 관련 음성학적으로 특이 사항을 발견하기 어려웠음 .

27