[h3 2012] 로그속 사용자 발자국 들여다보기
Post on 24-May-2015
1.631 Views
Preview:
DESCRIPTION
TRANSCRIPT
로그 속에 있는
사용자 발자국 들여다 보기
DAISY I 김남미
공간분석
분석을좋아 합니다.
전문분야는 공간 분석(GIS)입니다.
PD(Point Detector)
공간분석사례
공간분석사례-홍수범람
홍수 범람 예측분석을 통해
재해 발생시 싞속히 대피하고
조치하기 위함
공간분석사례
공간분석사례-홍수범람
<그림 3-14> 서울시 주요하천별 범람예상지도
1.측선생성 2. TIN 생성 3. GRID 생성
4. DEM에의한 침수심 계산 5. 범람지역생성
공간분석사례-서울시장선거분석
10월 26일 서울시장선거 분석
박원순 시장 VS 나경원 지지율 비교
공간분석사례
공간분석사례-서울시장선거분석
나경원지지율 지역용산, 서초,강남, 송파
공간분석사례
공간분석사례-야구관중지도
Korea Baseball Map
(2000~2011,야구데이터기준)
공간분석사례
공간분석사례-야구관중지도
공간분석사례
공간분석사례-카페,음식점분석(서울)
서울지역카페,음식점
Proportion Map
공간분석사례
공간분석사례-카페,음식점분석(서울)
서울지역카페,음식점
Density Map
공간분석사례
공간분석사례-카페,음식점분석(부산)
부산지역카페,음식점
Proportion Map
공간분석사례-카페,음식점분석(부산)
부산지역카페,음식점
Proportion Map
부산지역카페,음식점
Density Map
오늘 할 발표 시작
공간분석에 대한 발표는 아닙니다.
사용자 로그 분석에 대해 이야기 합니다.
현실의 나
까만 콩 들여다 보기
이름 : 김남미
나이 : 30대
성별 : 여
다니는 회사: KTH
대학전공: 지리학과(사회과학대), 문과 출신
GIS 개발자로 일해 왔으며, 현재는 데이터지능팀에서 서비스 분석 파트에서 일하고 있음.
30대 평범한 직장인
30대 평범한 직장인인 김남미는 서비스
로그 속에서는 어떤 User 일까요?
난 누구?
난 누구?
서비스 앆에서는 어떤 User 일까요?
Twitter 로그 속 나
@naami79
기본 통계총 Twitter 수 : 895건Follower수/Following수 310여명
Twitter 로그 속 나
웃긴 사진을 좋아하는사용자
쌍용차 해고자,대한문, 빆소
공지영, 대한문
조국,4대강,로봇물고기, 붕어빵 틀
Twitter 로그 속 성향 분석
정치 성향
중도 진보보수
Follower성향
중도 진보보수
Twitter 성향
전달자 연설자관찰자
Twitter 로그 속 성향 분석
민간인사찰 대상자
데이터 분석가
빅데이터 Data Scientist
Data Analysis통계전문가
Hadoop
Data Analysts
R, Hive, pig
오픈 Source
데이터분석가가미래에많이 필요할것이다.
데이터는많은데이를제대로 해석하지
못한다면가치가떨어질것이다. -Gartner
로그 속에 있는 사용자 발자국 들여다 보기
Episode#1 로그 속 사용자 발자국 찾기
Episode#2 사용자가 말해주는 서비스 라이프 타임
Episode#3통계의 짂실 혹은 거짓
로그 속에 있는 사용자 발자국 들여다 보기
Episode#1 로그 속 사용자 발자국 찾기
Episode #1 로그 속 사용자 발자국 찾기
로그 속 사용자 발자국 찾기 위해
손 분석 얶제까지 할 꺼야~
DAISY (Data Intelligence System)
Data를 수집/정제/분석을 위한 인프라 및
서비스 분석 플랫폼
Episode#1 로그 속 사용자 발자국 찾기
데이지 꽃말 희망, 평화
서비스로그수집
정제/적재 분석서비스
제공
서비스 분석 첫걸음 By DAISY
서비스분석 Process
Episode#1 로그 속 사용자 발자국 찾기
DAISY 플랫폼 기술 스택
Episode#1 로그 속 사용자 발자국 찾기
Data Source(서비스 로그, 데이터)
DBMSHDFS
LogCollector
Kafka Cluster
Hive/pigSqoop
R/ Chart Mahout
CEPBatch
Map Reduce
Esper
수집 /정제 분석/추천
Visualization
데이터통합
적재
실시간이벤트처리
DAISY (Data Intelligence System) 플랫폼 구성 기술 설명
Episode#1 로그 속 사용자 발자국 찾기
데이터 수집
분산파일시스템
데이터 분석/추천
데이터 통합
Visualization
분야 사용기술 설명
Kafka Cluster
HIVE, Pig, RMahout
Sqoop
Chart, R
Hadoop
Data Agent, Data Collector 구성
앆정적인 로그 수집을 위한 로그데이터 Queue 유연한 허브 역할
Hive 기반 (SQL-like) 데이터 조회, 분석
Pig script를 이용한 데이터 조회
R을 통한 데이터 분석
Mahout 을 이용한 데이터 마이닝 및 사용자 추천
분석결과를 RDBMS로 저장
RDBMS의 데이터를 실시갂으로 HDFS 및 HIVE로 이젂할 수 있음
반대의 경우도 가능
분석 Data를 차트와 그래프 형태로 시각화
원본 로그 데이터를 저장하고 분석을 위한
Map reduce기반의 병렬 처리 플랫폼 제공
실시갂 이벤트 처리(CEP)
Esper Real-Time Event process 처리
EPL(Event Processing Language)제공
Episode#1 로그 속 사용자 발자국 찾기
DAISY 플랫폼 로그 수집 현황
로그 수집
서비스제공
DAISY 플랫폼
추천결과 개선사항사용자성향분류
영향도분석
로그 속 사용자 발자국 찾기 위한
시스템 적인 관점에서의 데이터 분석을 위한
플랫폼인 DAISY를 살펴 보았습니다.
Episode#1 로그 속 사용자 발자국 찾기
서비스 속 사용자 스타일 파악
서비스 사용자 스타일 그룹화
로그 속 사용자 발자국 분석은
로그 속 사용자 발자국 분석
Episode #2 사용자가 말해주는 서비스 라이프 타임
서비스 라이프 시갂 아는 것은 기본이지!
기본이어서 놓치고 있던 사용자 시갂!
Episode #2 사용자가 말해주는 서비스 라이프 타임
실제 서비스 분석 사례를 통한 에피소드 방출
생활 정보 형 APP ‚114젂국젂화‛
생활에 유용한 정보 제공
병원(굿닥제휴)배달음식 정보(중국집, 치킨)먹거리근처 은행영화관
위치기반으로 검색결과를 제공한다.
114 젂국젂화 서비스 소개
Episode #2 사용자가 말해주는 서비스 라이프 타임
사용자맞춤테마를제공하고싶다!
114 젂국젂화 서비스 라이프 타임
Episode #2 사용자가 말해주는 서비스 라이프 타임
Peak => 12시
Peak => 18시
사용자 라이프 타임 그룹화 조건
Peak시갂 분류, 평일, 주말, 시즌 구분
114 젂국젂화 시갂 그룹화
Episode #2 사용자가 말해주는 서비스 라이프 타임
시간쪼개고 그룹화 하여사용자 맞춤 조건 코드생성
DAY
TIME
SEASON
D F W
P1 P2 S1 S2 S3 S4
SP SU FA WI
BatchJob#2(Condition Keywords State)
BatchJob#3(Condition Keywords State)
BatchJob#1(Condition Keywords State)
DataMiningProcess
HIVE State Table
Result File
114전국전화수집로그
HIVE log Table
Sqoop
114 젂국젂화
DBMS
분석결과 DB로 sync
조건코드별데이터마이닝결과를
114전국전화서비스에제공
114 젂국젂화 데이터 마이닝 Process
Episode #2 사용자가 말해주는 서비스 라이프 타임
114 젂국젂화 라이프 타임 서비스 적용
Episode #2 사용자가 말해주는 서비스 라이프 타임
AS-IS 4개 타임으로 구성된 메뉴기획자가 그때 그때 ~적용한 메뉴
TO-BE(맞춤메뉴 적용)11월 적용 예정시갂그룹 18개 타임 구성분석결과 기준으로 맞춤테마 제공
114 젂국젂화 라이프 타임 서비스 적용
Episode #2 사용자가 말해주는 서비스 라이프 타임
사용자생활패턴에맞춰테마제공편리하고~
기획자는테마를어떻게설정할까?
고민을덜어주고~
Episode #2 사용자가 말해주는 서비스 라이프 타임
글로벌 사짂 기반 SNS ‚Pudding.to‛
글로벌 사짂 기반 SNS 라이프타임은?
인기사진에 선정이 되면
다른 사용자들의 관심이 한꺼번에 ~
푸딩.투 - 인기사짂
Episode #2 사용자가 말해주는 서비스 라이프 타임
인기사진에선정이되면
Like 증가 99% ~
Follower 증가 76%~
궁금해~?
24%는 왜 Follower증가가 없었을까?
Episode #2 사용자가 말해주는 서비스 라이프 타임
푸딩.투 – 라이프 타임 그래프
24% Follower 미 증가구간
새벽 2시~8시
푸딩.투 – 인기사짂 선정 배치타임
Episode #2 사용자가 말해주는 서비스 라이프 타임
푸딩.투배치서버시간 사용자대부분잠자는시간
인기사진선정
푸딩.투 – 인기사짂 선정 배치타임
Episode #2 사용자가 말해주는 서비스 라이프 타임
푸딩.투배치서버시간 사용자대부분잠자는시간
인기사진선정
Follower 증가가 없었던 이유는 단순
배치시간, 사용자 시간, 지리적 시간 차이
인기사진 선정 시 배치시간 고려
UTC ASIA/Seoul LA New York GMT
00 09 17 20 00
03 12 20 23 03
06 15 23 02 06
09 18 02 05 09
12 21 05 08 12
15 00 08 11 15
18 03 11 14 18
21 06 14 17 21
아직은 가난한 나라
동티모르 사짂 업로드 빆도수가 높은 까닭은?
우리나라와 같은 타임존(UTC + 9)
사진업로드 Device가 모두
앆드로이드임에주목!
범인은 LG 옵OOO~!
푸딩.투 – 동티모르 에피소드
Episode #2 사용자가 말해주는 서비스 라이프 타임
서비스 분석을 통해 살펴본
에피소드는 여기까지 입니다.
Episode #2 사용자가 말해주는 서비스 라이프 타임
Episode #3 통계속진실혹은거짓
이번서비스 업데이트 기능은
‘감’이 확 온다구요~!
Episode #3 통계 속 진실 혹은 거짓
‘감’은 그냥 드시고!
사용자데이터 ‘분석’ 통한 진실을 찾으세요~!
Episode #3 통계 속 진실 혹은 거짓
맞아서, 부딪혀서 ‘멍’이 들었을때
바르는유유제약연고이야기
멍~지효말고~!
Episode #3 통계 속 진실 혹은 거짓
멍에 바르는 연고의 경쟁 제품은?
VS
유유제약 ‘멍 연고’
현대 ‘물 파스’
유한양행 ‘앆티푸라민’
정확히 틀렸습니다. ~
Episode #3 통계 속 진실 혹은 거짓
멍 연고의 실제 경쟁제품?
VS
유유제약 ‘멍 연고’민갂요법 ‘달걀’, 소고기, 찜질
26억 건 데이터 분석을 통해 알게 된
짂짜 경쟁대상
Episode #3 통계 속 진실 혹은 거짓
그래서 유유제약은?
젂통적 영업방식 대싞
어떻게? 빅데이터 분석 결과 활용
고객분석, 경쟁 분석, 커뮤니케이션 기획 등 분석결과 활용
진짜 사용자를 찾고, 민간요법의 부작용 홍보
Episode #3 통계 속 진실 혹은 거짓
그래서 유유제약은?
한국모델협회와
공동마케팅
응답하라 1997 4화페어플레이 에피소드
Episode #3 통계 속 진실 혹은 거짓
축구완전집중잘못배달해온호돌이치킨옆집통닭먹기역쉬~ ^^ 축구볼때는통닭
114 젂국젂화 서비스에도 대한민국 축구응원 열기 발견
Episode #3 통계 속 진실 혹은 거짓
7월 14일대한민국 VS 뉴질랜드
7월 20일대한민국 VS 세네갈
7월 26일대한민국 VS 멕시코
8월 5일대한민국 VS 영국
열대야 영향 분석 앆에서 찾은
축구경기와의 114젂국젂화 관계
Episode #3 통계 속 진실 혹은 거짓
축구 경기가 있었던 날은 ‚치킨‛ 검색어 상승
축구 보실 때 치킨은
‘114 젂국젂화’ 이용
‘치킨’ 검색어 비율 평일 대비 25%이상 증가 (평일 8%)
데이터 분석 앆에서 찾은 또 다른
에피소드는 여기까지 입니다.
Episode #3 통계 속 진실 혹은 거짓
느낀 점
데이터 분석을 통해서 얻을 수 있는
가장 큰 것은 ‘새로운 기회’라고 생각합니다.
서비스 로그를 수집하고 분석 꼭 하세요!
사용자의 만족도가 올라가면
서비스의 가치를 높아질 거에요.
마무리
빅 데이터 분석 젂문가가 없다고
서비스 분석 플랫폼이 없다고 망설이시나요??
마무리
개발자 이잖아요~ ! 도젂하세요!
감사합니다.데이터지능팀/ 김남미
naami79@kthcorp.com
@naami79
top related