데이터야놀자 - 170918 hjk datayanolja v1.0.1....datayanolja2017 machinelearning연구 30...

36
오픈소스 및 머신러닝 도입 이야기 모 금융회사

Upload: others

Post on 01-Jan-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

오픈소스및머신러닝도입이야기

모금융회사

김 형 준

Page 2: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

2

3

0 발표자 소개

1 인터넷 폐쇄망에서분석시스템구축 (feat.�엔지니어가 없을 때)

2 분석 보고서 자동화

Machine�Learning�삽질기 (분석 & 개발)

Page 3: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

3

3

0 발표자 소개

1 인터넷 폐쇄망에서분석시스템구축 (feat.�엔지니어가 없을 때)

2 분석 보고서 자동화하기

Machine�Learning�삽질기 (분석 & 개발)

Page 4: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

4

이미지 출처: http://news.donga.com/more29/3/all/20160107/75770659/1

삽질의시작

(2005.3~2012.8)�심리학 / 인류학

Page 5: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

5나는왜?

1999.2

Page 6: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

6그러나... 취미생활

2009 ~ 2010

2014 ~ 2015

Page 7: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

7삽질의진화

(2012.9~2015.2)�인지과학

We use empirical methods and formal tools to uncover the mechanisms of human learning and inference.

이미지 출처: http://cocosci.mit.edu/ (좌), http://www.research.ed.ac.uk/portal/files/10482724/crftut_fnt.pdf (우)

Page 8: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

8삽질의진화

(2015)�MINDSCALE: 데이터분석 온라인 교육 사이트 컨텐츠 제작http://mindscale.kr/

(2015)�R�User�Conference�in�Korea�2015: R을 이용한 텍스트 감정분석- 여론과 감성 발견하기

Page 9: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

9삽질의진화

출처 :http://goos.wiki/index.php?title=%EB%82%98%EB%8A%94_%ED%96%89%EB%B3%B5%ED%95%A9%EB%8B%88%EB%8B%A4 (상)https://en.wikipedia.org/wiki/Cognitive_science (하)

출처 :https://m.blog.naver.com/PostView.nhn?blogId=nile_parents&logNo=220510088317&categoryNo=46&proxyReferer=&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F

학부: 사회과학석사: 공학

Page 10: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

10

3

0 발표자 소개

1 인터넷 폐쇄망에서분석시스템구축 (feat.�엔지니어가 없을 때)

2 분석 보고서 자동화

Machine�Learning�삽질기 (분석 & 개발)

Page 11: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

11SQL, EXCEL,�SAS

이미지 출처: https://namu.wiki/w/%EC%82%BC%EB%8C%80%EC%9E%A5

Page 12: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

12R과 Python을하고싶어요..

R과Python을하고싶어요..

Page 13: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

13R과 Python을하고싶어요..

miniCRAN 이용R

• 모든 패키지 다운로드

• https://github.com/qinwf/awesome-R

- 크롤링

- miniCRAN 이용 의존성 패키지 목록 추출

- 관련 패키지 다운로드

Page 14: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

14R과 Python을하고싶어요..

conda 이용pip 이용

Python

• pip�show 이용 (의존성 패키지 추출)

• pip�download�이용 (패키지 다운로드)

• http://www.lfd.uci.edu/~gohlke/pythonlibs/

- windows�binary�다운로드

• conda의 경우 R 연동 문제로..

Page 15: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

15버전업데이트는요???

서버를주신다면..

동기화를해서…

관리는누가해요??

Nobody knows…

R은 3.2.x

Python은 3.5.x

ODBC / JDBC

Page 16: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

16

3

0 발표자 소개

1 인터넷 폐쇄망에서분석시스템구축 (feat.�엔지니어가 없을 때)

2 분석 보고서 자동화

Machine�Learning�삽질기 (분석 & 개발)

Page 17: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

17보고서자동화

이미지 출처: https://www.slideshare.net/SungYongLee4/pycon2017-dances-with-the-last-samurai

Page 18: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

18SQL, EXCEL,�SAS

이미지 출처: https://namu.wiki/w/%EC%82%BC%EB%8C%80%EC%9E%A5

Page 19: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

19SQL, EXCEL, (R�or�Python)

이미지 출처: https://namu.wiki/w/%EC%82%BC%EB%8C%80%EC%9E%A5

Page 20: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

20보고서자동화

이미지 출처:http://blog.naver.com/PostView.nhn?blogId=djfdma8&logNo=220124054628&parentCategoryNo=&categoryNo=&viewDate=&isShowPopularPosts=false&from=postView

Page 21: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

21보고서자동화

- 내가 엑셀 파일을 열면 문서보안에 걸려요

- 상사가 문서보안 걸린 파일을 줘요

“An eye for an eye and a tooth for a tooth”

- COM�Object를 활용하자

- 엑셀을 열어서 정보를 얻자

- :�excel.link :�xlwings

- 엑셀 작업 시 보안이 안걸리게 할 수도 있음 (비밀)

Page 22: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

22보고서자동화

이미지 출처: http://hashcode.co.kr/questions/1975/%EC%9B%B9%ED%81%AC%EB%A1%A4%EB%A7%81-%ED%95%9C%EA%B8%80-%EA%B9%A8%EC%A7%90-%EC%A7%88%EB%AC%B8%EC%9D%B4%EC%9A%94

한글이..

Page 23: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

23보고서자동화

Page 24: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

24보고서자동화

Page 25: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

25보고서자동화

Page 26: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

26보고서자동화

Page 27: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

27보고서자동화

Page 28: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

28

3

0 발표자 소개

1 인터넷 폐쇄망에서분석시스템구축 (feat.�엔지니어가 없을 때)

2 분석 보고서 자동화

Machine�Learning�삽질기 (연구 & 개발)

Page 29: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

29Machine�Learning 연구

VS

많은기능이지원되는 caret에

새로운 알고리즘 추가

별도 라이브러리생성

장점:

- 타 알고리즘 비교 가능

- 병렬처리 등 다양한 기능 구현 쉬움

단점:

- 기능 구현 시간이 느려

- 라이센스 이슈 (GPL)

장점:

- Tech�덜 신경

- 특정 알고리즘에 맞는 아키텍쳐

단점:

- 알고리즘 일반화가 어려움

Page 30: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

30Machine�Learning 연구

데이터이슈및고려점들

- 머신러닝에 적합한 데이터 형태(Input)

: 6개월내, 3개월내, 1개월내à거래별, 월별

- 그럼에도 불구하고 기존 방법론 대비 변별력 향상

- 머신러닝 시 경계할 점들

: 상관 높은 변수들이 많이 선택될 위험성

시간이 지남에 따라 변별력이 낮아짐 (과거와 미래의 패턴이 달라짐)

계산 시간을 어떻게 줄일 것인가(하드웨어 VS�소프트웨어)

Page 31: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

31Machine�Learning 개발

Page 32: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

32Machine�Learning 개발및배포

- 알고리즘 확장성

- 오류처리

- 라이센스

- 호환성

- 세션 처리

- 웹프레임웍

- 가상Windows�미지원

- 서버 좀 …

Page 33: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

33Machine�Learning 개발

장점:

- 라이센스에 비교적 자유로움

- 개발 관련 지원 라이브러리들

단점:

- 언어 진입장벽

- Only�Python만의 한계

- 혼자서 개발이 가능한가?

Page 34: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

34Machine�Learning

이미지 출처: https://twitter.com/ibeis_org/status/808591224873558017

Page 35: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

Datayanolja 2017

35Machine�Learning

- Machine�Learning�솔루션 개발은 바람직한가?

- 알고리즘 연구도 중요하지만 데이터 형태가 더 중요할 수도

- 설명 가능한 모형 VS�예측에만 중점인 모형

- 서로 장·단이 존재하는 모형을 어떻게 활용할 것인가?

- 변별력이 높은 모형이 과연 좋은 모형인가?

- 모형 연구와 솔루션 개발은 꼭 분리되어야 하는가?

더생각해볼문제들

Page 36: 데이터야놀자 - 170918 hjk datayanolja v1.0.1....Datayanolja2017 MachineLearning연구 30 데이터이슈및고려점들-머신러닝에적합한데이터형태(Input):6개월내,3개월내,1개월내à거래별,월별-그럼에도불구하고기존방법론대비변별력향상-머신러닝시경계할점들

THANK YOU FOR WATCHING