[2016 데이터 그랜드 컨퍼런스] 4 2(인공지능). 위세아이텍...

Post on 17-Jan-2017

96 Views

Category:

Technology

10 Downloads

Preview:

Click to see full reader

TRANSCRIPT

머신러닝플랫폼기반의철도사고위험예측

2016 데이터그랜드컨퍼런스2016. 11. 04

1. 철도 안전 소개2. 철도 사고위험예측3. WISE ADVISOR4. WISE 제품과 머신러닝

최근잇단열차탈선사고로인해철도안전의중요성대두

10593

81 7566

135115 113 112

46

235207

182178

104

0

50

100

150

200

250

2011년 2012년 2013년 2014년 2015년

단위: 건, 명

한국철도공사, 사상사고 발생현황

사망 사상자 사고건수

철도안전의중요성철도 안전 소개

철도사고위험분석

철도사고위험예측

선로이상위험예측프로세스

1. 데이터엔지니어링

2. 예측모델링

예측정보생성

데이터가공

예측모델생성

비교검증모델선정

3. 운용적용

철도사고위험예측

분석범위: 경부고속선

일반선경부고속선경부고속선 일반선 경부고속선

주의 /위험 주의 /위험

분석대상: KTX와 KTX-산천

분석데이터수집기간: 2011년~2015년

*월 1회 / 분기 1회정기점검으로결함정보부족

선로구간별정기점검정보

선로구간별기상정보

선로구간별유지보수정보

데이터수집및통합

철도사고위험예측

평 균 5 0 5 . 7 9 6 7

• 다양한종속변수를사용하여모델을생성하고테스트한결과를바탕으로설정

• 구간별로발생하는결함들의평균결함면적으로설정

• 평균결함면적은결함횟수와결함면적을동시에고려할수있음

• 0.1%의이상치제거한데이터의평균을기준으로 주의 (0) / 위험(1) 이항종속변수생성

평균 548

데이터가공모델생성

검증

종속변수데이터가공

철도사고위험예측

평 균 5 0 5 . 7 9 6 7

• 이전점검일사이의유지보수관련정보가공

이전 점검일 해당 점검일

• 연속적기상상태의중요성 (기온, 풍속, 강수량)3일/ 7일/ 30일 –평균/최고/최저 기상상태

독립변수데이터가공

철도사고위험예측

로지스틱회귀분석

• 결함면적을• 결함면적을

• 독립변수(x) –연속형 / 범주형포함 : 121 개

기상정보 선로정보 시계열정보

• 다중공선성 분석

1 6 2 7 3 10 4 18 5 22 6 25 7 27 8 31 9 35 10 36 11 39 12 40 13 43 14 45 15 47 16 49 17 50 18 51 19 52 20 53 21 54 22 55 23 56 24 58 25 59 26 60 27 61 28 62 29 63 30 65 31 66 32 67 33 68 34 70 35 71 36 72 37 73 38 74 39 75 40 76 41 77 42 78 43 80 44 81 45 82 46 83 47 85 48 86 49 87 50 88 51 90 52 91 53 92 54 93 55 94 56 95 57 96 58 97 59 98 60 101 61 103 62 104 63 105 64 106 65 107 66 108 67 109 68 120 69 121

121 중 61개의독립변수채택

• CONFUSION-MATRIX / ROC 분석(Receiver-Operating Characteristic curve)

실제위험수준 정확도와 오분류의 관계설명

예측 정확도 : 70%

Reference

Prediction 위험 주의

위험 1067 327

주의 263 359

철도사고위험예측

• 결함면적을 • 결함면적을

기상정보선로정보 시계열정보

Train data: 800개

• 독립변수(x) –연속형 / 범주형포함 : 41 개

Reference

Prediction 위험 주의

위험 235 77

주의 166 322

예측정확도 : 69.75%

Reference

Pre

dic

tio

n

위험

위험 주의

주의

서포트벡터머신

철도사고위험예측

• 결함면적을

• 결함면적을

• 결함면적을

예측정확도 : 80.25%

모델A

모델B

예측정확도 : 71.25%

실제예측 주의 위험

주의 0 -10

위험 -2 0

실제예측 주의 위험

주의 343 101

위험 57 299

실제예측 주의 위험

주의 238 68

위험 162 332

예측정확도 비용-이득

모델 A 80.25% -1,124

모델 B 71.25% -1,004

• 실제로주의인데주의로예측한경우와위험인데위험으로예측한경우, 비용과이득을 0으로봄

• 실제로주의인데위험으로예측한경우과도한비용이소요될수있어비용을 -2로측정함

• 실제로위험인데주의로예측한경우추가비용이발생될수있어비용을 -10으로보다높게측정함

• 모델 A가예측정확도 80%로모델 B보다높지만, 오분류결과는비용발생으로이어지기때문에비용-이득계산결과가낮은모델 B를채택하였음

비교검증및모델선정

철도사고위험예측

TM

TM

TM

통계 분석, 빅데이터, 웹 포털구축

AS-IS 분석TO-BE 모델

링AS-IS/TO-BE 테이블 매핑

이관 개발

이관 검증 이관 테스트 이관 리허설 실제 이관

WISE DQ™

머신러닝

머신러닝

http://data.gg.go.kr

top related