스마트 빅 데이터 분석: 서울시 지하철 승객...

54
Last Comment 1. Boosted Trees, SVM 모델에 대한 이해 2. 다른 역들과 차별되는 패턴을 지닌 역의 유무 3. Flow에서 Data 가 부족하다면 어썸션을 통해 구할 수 있는지

Upload: others

Post on 26-Sep-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

Last Comment

• 1. Boosted Trees, SVM 모델에 대한 이해

• 2. 다른 역들과 차별되는 패턴을 지닌 역의 유무

• 3. Flow에서 Data 가 부족하다면 어썸션을 통해 구할 수 있는지

1-1) What is Boosted Trees?

• Boosted Trees 학습 법은 몇몇 입력 변수를 바탕으로목표 변수의 값을 예측하는 모델을 생성하는 것을 목표로 한다.

• 좌측 그림은 그러한 예측 모델의 한 예로 타이타닉호탑승객의 생존 여부를 나타내는 결정트리이다.

각 내부 노드들은 하나의 입력 변수

자녀 노드들로 이어지는 가지들은 입력 변수의 가능한 값에 대응

잎 노드는 각 입력 변수들이 루트 노드로부터 잎 노드로 이어지는 경로에 해당되는 값들을 가질 때의 목표 변수 값에 해당

잎 아래의 숫자는 각각 생존 확률과 탑승객이 그 잎에 해당될확률

1-1) What is Boosted Trees?

• 좌측 그림은 날씨, 지하철 데이터를 입력했을 때의 Boosted Tree의 예시이다. Total 은 사람 수 그룹을 500명 단위로 끊었을때 클래스를 의미한다.(ex. Total 3 =1000~1500)

잎의 점수 합이 최소가 되는 모델을 찾는다.

• Model : K개의 Tree를 갖는다고 가정할 때다음과 같은 식을 갖는다.

f_k는 각각의 잎에서의 점수를 의미한다.

잎의 점수는 발생 확률이 적을수록 높다.

따라서 y_i가 가장 적은 값을 갖도록 하는 모델을 찾는다.

Regression tree Ensemble을 기초로 한 모델을만든다. (다른 줄기의 같은 잎의 점수 합을 구한다.)

1-1) What is Boosted Trees?

• Objective : l : Training loss, Omega : Tree의 Complexity

0부터 Additive Training을 통해 최적화된Objective를 구해서 f_k 값을 찾는다.

Square loss를 고려하면 다음을 구할 수 있다.

1-1) What is Boosted Trees?

• 잎의 f를 weight에 mapping하고 w를weight, q를 잎의 구조라고 하면 다음과같은 식을 구할 수 있다.

• 잎 안에 들어가는 Target의 집합을 I라고정의하고, 라 하자.이 때, 앞에서구한 Objective식에 대입하고 정리해보면 Gain을 구할 수 있다.

• 이 식을 통해 최적화된 줄기를 찾게 된다. Training loss 와 regularization 사이에 trade off가 발생한다.

1-1) What is Boosted Trees?

2호선 승차인원의 Boosted Trees 2호선 하차인원의 Boosted Trees

1-2) What is SVM?

• SVM 구현 과정

1) 주어진 학습용 데이터를 다음과 같이 정의한다.

2) 데이터 집합을 분리하는 것을 초평면이라 하며

을 만족하는 점 X의 집합으로 표현한다.

3) Support Vector(X+,X-)를 정의한다.

4) 초평면의 마진을 최대로 하는 모델을 찾는다.

1-2) What is SVM?

• H3은 두 클래스의 점들을 제대로 분류하고 있지 않고 있는 모델이다.

• H1과 H2는 두 클래스의 점들을 제대로 분류하는데, H2가 H1보다 더 큰 마진을 갖고 분류하는 것을 확인할 수 있다.

• H2가 최적화된 모델임을 알 수 있다.

1-3) Why Boosted Trees?

• Boosted Trees method는 다른 데이터 마이닝 기법과 비교했을때 다음과 같은 장점을 가진다. 결과를 해석하고 이해하기 쉽다.

자료를 가공할 필요가 거의 없다.

수치 자료와 범주 자료 모두에 적용할 수 있다.

안정적이다.

대규모의 데이터 셋에서도 잘 동작한다.

2) 차별되는 패턴을 지닌 역

•다른 역들과 차별되는 패턴을 지닌 역 선택 강남역 - 가장 이용객이 많음

사당역 - 시외버스(수도권)가 많이 들어오고, 2/4 호선 환승역

종합운동장 역 – 야구장이 있음

고속터미널역 - 시외버스(전국)가 많음

명동역 - 관광객이 많음

•기간 선택 1월과 7월이 다른 기간에 비해 특이패턴을 뚜렷하게 보였다.

2-1) 전체 역 평균

•학생들이 학교에 다니는 시기(3~6월, 9~12월)이 다른 시기보다 이용자 수가 많다.

•직장인들의 출,퇴근 시간과 학생들의 등,하교 시간에 이용자수가 많다.

0

100000000

200000000

300000000

400000000

0 5 10 15 20 25

사람수

시간

시간대 별

2-2) 강남역

•모든 지하철 역 중 가장 이용객이 많다.

•다른 역들에 비해 출근 시간에 하차인원이 승차 인원보다많다.

0

5000

10000

15000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

2호선 강남역 1월 승/하차 인원

승차 하차

0

5000

10000

15000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

2호선 강남역 7월 승/하차 인원

승차 하차

2-2) 강남역 모델 결과 비교

0

5000

10000

15000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

Model 강남역 1월 승/하차 인원

승차 하차

0

5000

10000

15000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23사람수

시간

Model 강남역 7월 승/하차 인원

승차 하차

0

5000

10000

15000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

2호선 강남역 1월 승/하차 인원

승차 하차

0

5000

10000

15000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

2호선 강남역 7월 승/하차 인원

승차 하차

2-3) 사당역

•시외버스(수도권)가 많이 들어오고, 2/4 호선 환승역이다.

•다른 역들에 비해 출근 시간에 승차인원이 승차 인원보다많다.

0

2000

4000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

4호선 사당역 7월 승/하차 인원

승차 하차

0

2000

4000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

4호선 사당역 1월 승/하차 인원

승차 하차

2-3) 사당역 모델 결과 비교

0

2000

4000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

Model 사당역 1월 승/하차 인원

승차 하차

0

2000

4000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

Model 사당역 7월 승/하차 인원

승차 하차

0

2000

4000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

4호선 사당역 1월 승/하차 인원

승차 하차

0

2000

4000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

4호선 사당역 7월 승/하차 인원

승차 하차

2-4) 종합운동장 역

•역 근처에 야구장이 있다.

•야구 경기가 있는 시기에 승,하차 인원이 2배 가까이 증가한다.

•야구 경기 시작 시간에는 하차인원이, 경기 종료 시간에는승차인원이 많다.

0

500

1000

1500

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

2호선 종합운동장역 1월 승/하차 인원

승차 하차

0

1000

2000

3000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

2호선 종합운동장역 7월 승/하차 인원

승차 하차

2-4) 종합운동장 역 모델 결과 비교

0

500

1000

1500

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

Model 종합운동장역 1월 승/하차 인원

승차 하차

0

1000

2000

3000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

Model 종합운동장역 7월 승/하차 인원

승차 하차

0

500

1000

1500

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

2호선 종합운동장역 1월 승/하차 인원

승차 하차

0

1000

2000

3000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

2호선 종합운동장역 7월 승/하차 인원

승차 하차

2-5) 고속터미널역

•시외버스(전국)가 많다.

•대부분의 역이 출, 퇴근시간에승차인원이 많은 반면, 저녁시간(18시)까지 승객이 계속 증가한다.

0

2000

4000

6000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

3호선 고속터미널역 1월 승/하차 인원

승차 하차

0

2000

4000

6000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

3호선 고속터미널역 7월 승/하차 인원

승차 하차

2-5) 고속터미널역 모델 결과 비교

0

2000

4000

6000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

Model 고속터미널역 1월 승/하차 인원

승차 하차

0

2000

4000

6000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

Model 고속터미널역 7월 승/하차 인원

승차 하차

0

2000

4000

6000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

3호선 고속터미널역 1월 승/하차 인원

승차 하차

0

2000

4000

6000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

3호선 고속터미널역 7월 승/하차 인원

승차 하차

2-6) 명동역

•관광객이 많다.

•출,퇴근 시간 외에 오후에도승,하차 인원이 많다.

0

2000

4000

6000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

4호선 명동역 1월 승/하차 인원

승차 하차

0

2000

4000

6000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

4호선 명동역 7월 승/하차 인원

승차 하차

2-6) 명동역 모델 결과 비교

0

2000

4000

6000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

Model 명동역 1월 승/하차 인원

승차 하차

0

2000

4000

6000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

Model 명동역 7월 승/하차 인원

승차 하차

0

2000

4000

6000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

4호선 명동역 1월 승/하차 인원

승차 하차

0

2000

4000

6000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

사람수

시간

4호선 명동역 7월 승/하차 인원

승차 하차

3-1) 가설 설정

• 1~4호선 데이터의 경우 시간당 역 별 승,하차 인원을 제공하고있음지하철이 시간표대로 운행될 때, 환승인원을 고려하지 않고 승, 하차 인원을 대입해서 계산하면 지하철 한 량에 타고 있는 승객 수를 예측 가능

1~4호선은 10량 편성이고, 승객이 균일하게 탑승한다고 가정

승객이 승차한 역에서 하차하지 않는다고 가정

3-2) 가설의 문제점

• 1~4호선 데이터의 경우 시간당 역 별 승,하차 인원을 제공하고 있음 지하철이 시간표대로 운행될 때, 환승인원을 고려하지 않고 승, 하차 인원을 대입해서 계산하면 지하철 한 량에 타고 있는 승객 수를 예측 가능

환승 인원이 많은 역의 경우 하루 평균 330000명 정도 환승하기에 고려하지 않을 수 없음

1~4호선은 10량 편성이고, 승객이 균일하게 탑승한다고 가정

대부분의 열차에 탑승한 승객은 양 끝에 상대적으로 적은 수의 승객이 탑승하고, 빠른 환승과 약 냉방칸을 고려하면 지하철 량 별로 큰 차이를 보임

• 5~8호선 데이터의 경우 시간당 역 별 승,하차 인원의 합을 제공하고 있음승, 하차 인원의 차이가 크기 때문에 유의미한 결과를 얻기 힘듦

스마트빅데이터분석: 서울시지하철승객예측

2006-11862 정준

2012-11413 장영균

Motivation

“오늘 비가 많이 오는데 지하철 타지 말고 버스나 택시 탈까?”

Motivation (2)

“일기예보처럼 대중교통 정보에 대한 예보는 없을까?”

왜 날씨와 지하철인가

•날씨: 매일 영향을 받는 것

• “비가 오니 차가 막히겠다”

• “주말에 가족과 놀러 나가려고 했는데 너무 덥고 습해서 집에 있었다”

• “우천 예보로 오늘 행사가 취소되었습니다”

왜 날씨와 지하철인가

•대중교통 이용률에 영향을 주는 것

• 스포츠, 공연 등의 이벤트

• 노선의 변동 혹은 신설

• 도로교통량

• 날씨

프로젝트의 목적

• Machine Learning: 날씨와지하철의승객수와의관계모델학습

• 어떤요소가승객수에영향을미치는가

• 기상요소: 기온, 습도, 체감온도, 강수량등

• 기상외의요소: 요일, 시간대

• Application: 날씨를기반으로현재또는앞으로의승객수를예측

하여사용자에게제공

• iPhone application 의형태

관련 연구 (1)

•강우와 서울시 대중교통 승차인원과의 분석(이광섭 외, 2014 한국철도학회 춘계학술대회 논문집)• 강우량과 대중교통 승차인원간의 상관관계를 분석

• 날씨정보 – 기상청승차인원 – 스마트카드 데이터(서울시 공개) 이용

• 강수일에 따라 연령별, 노선별, 요일별, 지역별 이용감소율 분석

• 강우일에 이용량 평균 10% 감소

관련 연구 (2)

•기상조건이 대중교통수요에 미치는 영향에 관한 연구(최상기 외, Journal of the Korean Society of Civil Engineers, 2013)• 기상조건에 따른 대중교통수요를 통계적으로 분석

• 시간당 강수량, 강설량, 불쾌지수, 체감온도의 4가지 기상조건 – 기상청버스수요 – 서울시교통정보센터지하철수요 – 서울메트로, 서울도시철도공사

• 버스가 지하철보다 영향을 크게 받음, 주말이 평일보다 영향을 크게 받음강우와 체감온도에서 상관관계 발견

관련 연구 (3)

• Bus arrival time prediction at bus stop with multiple routes (B Yu외, Transportation Research Part C: Emerging , 2011)• Bus arrival time을 SVM, artificial neural network (ANN), k nearest

neighbours algorithm (k-NN), linear regression (LR) 을 이용해서 예측했다.

• 이 연구를 통해 SVM이 vehicle의 travel time을 예측하는데 효용성이높음을 밝혔다.

관련 연구 (4)

• Development of a real-time bus arrival prediction system for Indian traffic conditions (R.P.S. Padmanaban 외, IET Intelligent Transport Systems, 2010)• accuracy of Bus Traveler Information Systems (BTIS)은 input data,

speed of data transfer, data quality control and performance of the prediction schem에 의해 정확도가 결정된다. 이에 heterogeneoustraffic condition에 따른 bus travel time delay가 얼마나 발생하는지ANN과 SVM을 이용해서 분석하였다.

데이터정보

•지하철, 날씨데이터출처 : 서울열린데이터광장 (2013)http://data.seoul.go.kr/

• 1~4호선역별, 시간대별, 일승하차인원Data size : 13,504kb / Cardinality : 86876

• 5~8호선역별, 시간대별, 일승하차인원Data size: 64,409kb / Cardinality : 13388

•날씨데이터Data size: 1,934kb / Cardinality : 9072

지하철 Data

1~4호선 Data 5~8호선 Data

날짜 월 요일 호선 역명 구분 00~01 01~02 02~03 03~04 04~05 05~06 06~07 07~08

CHK_DATE

MONTH DAY_WK LINE_NM STN_NM SH_GBNFROM00TO01

FROM01TO02

FROM02TO03

FROM03TO04

FROM04TO05

FROM05TO06

FROM06TO07

FROM07TO08

2013-01-01 00:00:00.0

1 공 1호선동대문(155)

승차 3 0 0 0 13 117 104 166

2013-01-02 00:00:00.0

1 수 1호선동대문(155)

승차 26 0 0 0 7 167 253 566

2013-01-03 00:00:00.0

1 목 1호선동대문(155)

하차 146 1 0 0 0 64 223 420

2013-01-04 00:00:00.0

1 금 1호선동대문(155)

하차 208 0 0 0 0 52 267 431

역코드 역명 일자 승차합계 승차05시 승차06시 승차07시 승차08시 승차09시

STATIONSTAT_NAME

INCOME_DATE

ON_TOT ON_05 ON_06 ON_07 ON_08 ON_09

2511 방화2013-12-31 00:00:00.0

8626 165 431 1280 1064 556

2512 개화산2013-12-31 00:00:00.0

7133 143 286 966 855 364

2513 김포공항(5)2013-12-31 00:00:00.0

10230 26 64 213 221 194

2514 송정2013-12-31 00:00:00.0

12627 156 368 1237 1512 712

2515 마곡2013-12-31 00:00:00.0

1223 13 39 185 158 49

날씨 Data

관측분야 지상

조회기간임의기간(시별): 2013-01-01 00시 ~

2013-01-31 23시

관측지점 서울(108)

출력기후요소 기온,시간강수량,풍속,습도,일사,일조,운량,적설,신적설,풍향

지점번호 지점 일시 기온 (℃)시간강수량 (mm)

풍향 (deg)

풍속 (m/s)

습도 (%)전운량(1/10)

일사 (MJ/m²)

일조 (hr)

108서울2013-01-01 00 -8.3 50.0 3.6 56 3

108서울2013-01-01 01 -8.5 50.0 4 57

Flow의 계산

•알고자 하는 것: 각 지하철 구간을 이용하는 승객의 수

•서울시에서 수집 가능한 데이터• 교통카드별 승하차 정보 (승차위치 및 시간, 하차위치 및 시간)

•계산해 내야 할 정보• 각 역에서 지하철에 승하차하는 승객의 수

• 역별 지하철 시간표 및 승하차 인원 수로부터 계산할 수 있다.

• 환승역에서 갈아타는 승객의 (환승방향별) 수• 각 승객의 경로를 예상하여 계산할 수 있다.

Flow의 계산 – 예시

•서울대입구역 출발, 시계방향 운행하는 2호선 열차 이용객 수• 최초의 승객은 0

• 앞의 열차와의 시간간격 동안 쌓인 승차 승객의 수가 추가됨

• 각 역마다 하차인원 및 승차인원 계산 가능-> 각 구간별 승객 수 계산 가능

Flow의 계산 – 예시 : 문제점

•서울대입구역 출발, 시계방향 운행하는 2호선 열차 이용객 수• 최초의 승객은 0

• 앞의 열차와의 시간간격 동안 쌓인 승차 승객의 수가 추가됨

• 각 역마다 하차인원 및 승차인원 계산 가능-> 각 구간별 승객 수 계산 가능

• 승, 하차 인원이 내선순환 방향, 외선순환 방향 중 어느 것을 탈지 알수 없다.

• 환승역의 경우 해다 역의 승하차 인원과는 무관하게 환승 인원에 해당하는 승차 인원과 하차 인원이 발생한다.

Flow의 계산 – 예시 : 문제점

역1승차 1하차 1

역4승차 1하차 1

역2승차 1하차 1

역3승차 1하차 1

Flow의 계산 – 예시 : 문제점

역1승차 1하차 1

역4승차 1하차 1

역2승차 1하차 1

역3승차 1하차 1

Flow의 계산 – 예시 : 문제점

역1-2승차 1하차 1

환승역승차 1하차 1

역1-4승차 1하차 1

역1-1승차 1하차 1

역1-5승차 1하차 1

역2-2승차 1하차 1

역2-4승차 1하차 1

역2-1승차 1하차 1

역2-5승차 1하차 1

Flow의 계산 - 한계점

•알고자 하는 것: 각 지하철 구간을 이용하는 승객의 수

•서울시에서 수집 가능한 데이터 <- Flow 계산에 필요한 정보• 교통카드별 승하차 정보 (승차위치 및 시간, 하차위치 및 시간)

•계산해 내야 할 정보• 각 역에서 지하철에 승하차하는 승객의 수

• 역별 지하철 시간표 및 승하차 인원 수로부터 계산할 수 있다.

• 환승역에서 갈아타는 승객의 (환승방향별) 수• 각 승객의 경로를 예상하여 계산할 수 있다.

•현재 공개되어 있는 데이터• 각 역별, 시간대별 개찰구 통과 인원 총합

-> 이동 방향별 인원을 계산할 수 없다.

Machine Learning

1. Multiclass SVM2. Boosted Trees

Data 학습

- 지하철 승객 수(구간)- 평일/주말 여부, 시간대- 기온, 습도, 체감온도, 풍

속, 강수량 등

Machine Learning

1. Multiclass SVM2. Boosted Trees

Data Input

- 평일/주말 여부, 시간대- 기온, 습도, 체감온도, 풍

속, 강수량 등

Output

- 지하철 승객 수 (구간)

Application Flow

User App Client Server KMA Server (기상청)

App StartRequest Forecasts

(Open API)

Response Weather Data

Button ActionSend Weather Data

Calculate

Res. Subway Data

Show Data

Select UI

CalculateServer

Client App

KMA Server

- 기상청 Open API

GraphLabBoosted Trees

DB with Big Data- 1년간의 시간대별, 호선별 지

하철 이용객 수- 1년간의 날씨 정보

Model 학습

날씨예보 정보 전송

호선별 지하철 이용객예측 정보

현재날씨, 단기예보정보 요청

성분별 날씨정보

- Machine Learning수행

- 학습된 모델 이용예측 수행

SW 구현 (1) –홈화면

-앱실행시나오는화면-기상청에서날씨정보를받아표시-하단의두버튼을통해다음화면으로넘어감

SW 구현 (2) -실황

-메인화면에서 [현재지하철] 버튼클릭시나오는화면

-서버에날씨정보를보내계산된예상승객수를표시-예상승객수가평균해당요일과시간대비어느수준인지표시-하단의버튼을통해 1~8호선정보선택가능

-중간의버튼을통해비교대상선택가능-(1) 해당월평일/주말승객수대비-(2) 해당월의평균승객수대비-(3) 해당주간의평균승객수대비

SW구현 (3) -내일

-메인화면에서 [내일지하철] 버튼클릭시나오는화면

-기상청에서제공하는다음날의날씨(3시간단위)를제공-해당날씨및시간대마다호선별예상승객수를평균과대비하여표시-상단버튼을통해 1~8호선선택가능

성능 측정 (1) – 인구수 label 변화시킬 때

성능 측정 (2) – 인구수 label 16000 일 때

91.20%

51.40%

74.70% 73.80% 73.40%

85.80%

69.80%

95.20%

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

1호선 2호선 3호선 4호선 5호선 6호선 7호선 8호선

Perc

enta

ge

Line number

호선 별 정확도

Originality

•기존의 지하철 application 에서 제공하는 단순한 지하철 승하차 시간 정보 외에 지하철을 이용하고 있는 승객의 수를 알려줌으로서 이용자가 더 편리하게 지하철을 이용할 수 있도록 돕는다.

•지하철을 이용하는 사용자가 지하철 정보와 내일의 날씨 정보까지 한꺼번에 알 수 있는 장점이 있다.

한계

•정확도의 문제• 연휴/징검다리 연휴/이벤트 등 큰 영향을 주는 일시적 사건들의 고려

•부분적 노선이 아닌 호선별 분석의 효용성