데이터야놀자 - 170918 hjk datayanolja v1.0.1....datayanolja2017 machinelearning연구 30...
Post on 01-Jan-2020
5 Views
Preview:
TRANSCRIPT
오픈소스및머신러닝도입이야기
모금융회사
김 형 준
Datayanolja 2017
2
3
0 발표자 소개
1 인터넷 폐쇄망에서분석시스템구축 (feat.�엔지니어가 없을 때)
2 분석 보고서 자동화
Machine�Learning�삽질기 (분석 & 개발)
Datayanolja 2017
3
3
0 발표자 소개
1 인터넷 폐쇄망에서분석시스템구축 (feat.�엔지니어가 없을 때)
2 분석 보고서 자동화하기
Machine�Learning�삽질기 (분석 & 개발)
Datayanolja 2017
4
이미지 출처: http://news.donga.com/more29/3/all/20160107/75770659/1
삽질의시작
(2005.3~2012.8)�심리학 / 인류학
Datayanolja 2017
5나는왜?
…
1999.2
Datayanolja 2017
6그러나... 취미생활
2009 ~ 2010
2014 ~ 2015
Datayanolja 2017
7삽질의진화
(2012.9~2015.2)�인지과학
We use empirical methods and formal tools to uncover the mechanisms of human learning and inference.
이미지 출처: http://cocosci.mit.edu/ (좌), http://www.research.ed.ac.uk/portal/files/10482724/crftut_fnt.pdf (우)
Datayanolja 2017
8삽질의진화
(2015)�MINDSCALE: 데이터분석 온라인 교육 사이트 컨텐츠 제작http://mindscale.kr/
(2015)�R�User�Conference�in�Korea�2015: R을 이용한 텍스트 감정분석- 여론과 감성 발견하기
Datayanolja 2017
9삽질의진화
출처 :http://goos.wiki/index.php?title=%EB%82%98%EB%8A%94_%ED%96%89%EB%B3%B5%ED%95%A9%EB%8B%88%EB%8B%A4 (상)https://en.wikipedia.org/wiki/Cognitive_science (하)
출처 :https://m.blog.naver.com/PostView.nhn?blogId=nile_parents&logNo=220510088317&categoryNo=46&proxyReferer=&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F
학부: 사회과학석사: 공학
Datayanolja 2017
10
3
0 발표자 소개
1 인터넷 폐쇄망에서분석시스템구축 (feat.�엔지니어가 없을 때)
2 분석 보고서 자동화
Machine�Learning�삽질기 (분석 & 개발)
Datayanolja 2017
11SQL, EXCEL,�SAS
이미지 출처: https://namu.wiki/w/%EC%82%BC%EB%8C%80%EC%9E%A5
Datayanolja 2017
12R과 Python을하고싶어요..
R과Python을하고싶어요..
Datayanolja 2017
13R과 Python을하고싶어요..
miniCRAN 이용R
• 모든 패키지 다운로드
• https://github.com/qinwf/awesome-R
- 크롤링
- miniCRAN 이용 의존성 패키지 목록 추출
- 관련 패키지 다운로드
Datayanolja 2017
14R과 Python을하고싶어요..
conda 이용pip 이용
Python
• pip�show 이용 (의존성 패키지 추출)
• pip�download�이용 (패키지 다운로드)
• http://www.lfd.uci.edu/~gohlke/pythonlibs/
- windows�binary�다운로드
• conda의 경우 R 연동 문제로..
Datayanolja 2017
15버전업데이트는요???
서버를주신다면..
동기화를해서…
관리는누가해요??
Nobody knows…
R은 3.2.x
Python은 3.5.x
ODBC / JDBC
Datayanolja 2017
16
3
0 발표자 소개
1 인터넷 폐쇄망에서분석시스템구축 (feat.�엔지니어가 없을 때)
2 분석 보고서 자동화
Machine�Learning�삽질기 (분석 & 개발)
Datayanolja 2017
17보고서자동화
이미지 출처: https://www.slideshare.net/SungYongLee4/pycon2017-dances-with-the-last-samurai
Datayanolja 2017
18SQL, EXCEL,�SAS
이미지 출처: https://namu.wiki/w/%EC%82%BC%EB%8C%80%EC%9E%A5
Datayanolja 2017
19SQL, EXCEL, (R�or�Python)
이미지 출처: https://namu.wiki/w/%EC%82%BC%EB%8C%80%EC%9E%A5
Datayanolja 2017
20보고서자동화
이미지 출처:http://blog.naver.com/PostView.nhn?blogId=djfdma8&logNo=220124054628&parentCategoryNo=&categoryNo=&viewDate=&isShowPopularPosts=false&from=postView
Datayanolja 2017
21보고서자동화
- 내가 엑셀 파일을 열면 문서보안에 걸려요
- 상사가 문서보안 걸린 파일을 줘요
“An eye for an eye and a tooth for a tooth”
- COM�Object를 활용하자
- 엑셀을 열어서 정보를 얻자
- :�excel.link :�xlwings
- 엑셀 작업 시 보안이 안걸리게 할 수도 있음 (비밀)
Datayanolja 2017
22보고서자동화
이미지 출처: http://hashcode.co.kr/questions/1975/%EC%9B%B9%ED%81%AC%EB%A1%A4%EB%A7%81-%ED%95%9C%EA%B8%80-%EA%B9%A8%EC%A7%90-%EC%A7%88%EB%AC%B8%EC%9D%B4%EC%9A%94
한글이..
Datayanolja 2017
23보고서자동화
Datayanolja 2017
24보고서자동화
Datayanolja 2017
25보고서자동화
Datayanolja 2017
26보고서자동화
Datayanolja 2017
27보고서자동화
Datayanolja 2017
28
3
0 발표자 소개
1 인터넷 폐쇄망에서분석시스템구축 (feat.�엔지니어가 없을 때)
2 분석 보고서 자동화
Machine�Learning�삽질기 (연구 & 개발)
Datayanolja 2017
29Machine�Learning 연구
VS
많은기능이지원되는 caret에
새로운 알고리즘 추가
별도 라이브러리생성
장점:
- 타 알고리즘 비교 가능
- 병렬처리 등 다양한 기능 구현 쉬움
단점:
- 기능 구현 시간이 느려
- 라이센스 이슈 (GPL)
장점:
- Tech�덜 신경
- 특정 알고리즘에 맞는 아키텍쳐
단점:
- 알고리즘 일반화가 어려움
Datayanolja 2017
30Machine�Learning 연구
데이터이슈및고려점들
- 머신러닝에 적합한 데이터 형태(Input)
: 6개월내, 3개월내, 1개월내à거래별, 월별
- 그럼에도 불구하고 기존 방법론 대비 변별력 향상
- 머신러닝 시 경계할 점들
: 상관 높은 변수들이 많이 선택될 위험성
시간이 지남에 따라 변별력이 낮아짐 (과거와 미래의 패턴이 달라짐)
계산 시간을 어떻게 줄일 것인가(하드웨어 VS�소프트웨어)
Datayanolja 2017
31Machine�Learning 개발
Datayanolja 2017
32Machine�Learning 개발및배포
- 알고리즘 확장성
- 오류처리
- 라이센스
- 호환성
- 세션 처리
- 웹프레임웍
- 가상Windows�미지원
- 서버 좀 …
Datayanolja 2017
33Machine�Learning 개발
장점:
- 라이센스에 비교적 자유로움
- 개발 관련 지원 라이브러리들
단점:
- 언어 진입장벽
- Only�Python만의 한계
- 혼자서 개발이 가능한가?
Datayanolja 2017
34Machine�Learning
이미지 출처: https://twitter.com/ibeis_org/status/808591224873558017
Datayanolja 2017
35Machine�Learning
- Machine�Learning�솔루션 개발은 바람직한가?
- 알고리즘 연구도 중요하지만 데이터 형태가 더 중요할 수도
- 설명 가능한 모형 VS�예측에만 중점인 모형
- 서로 장·단이 존재하는 모형을 어떻게 활용할 것인가?
- 변별력이 높은 모형이 과연 좋은 모형인가?
- 모형 연구와 솔루션 개발은 꼭 분리되어야 하는가?
더생각해볼문제들
THANK YOU FOR WATCHING
top related