[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

23
인트렌치 - 엑셀을 활용한 데이터 분석 64 [기초 통계] 통계를 왜 알아야 하는가? 통계는 과학적으로 모든 분야에서 “인과관계 규명"하고 “예측"을 하여 의사결정에 도움을 줍니다. 경제학, 경영학, 사회과학, 인문과학, 법학, 의학, 공학, 자연과학 등 모든 분야에서 필요 10% 담뱃값 인상이 청소년층의 흡연을 어느 정도 줄이나? 직업훈련은 취업률을 높이는가? 임금률에 미치는 효과는? 외국인 직접투자가 늘면 경제성장률이 제고되는가? 특정 광고가 매출증가 효과를 가져왔는가? 노동시장에서 여성에 대한 차별이 존재하는가? 64

Upload: min-kyu-lee

Post on 11-Apr-2017

971 views

Category:

Education


7 download

TRANSCRIPT

Page 1: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

64[기초 통계] 통계를 왜 알아야 하는가?

통계는 과학적으로 모든 분야에서 “인과관계 규명"하고 “예측"을 하여 의사결정에 도움을 줍니다.

경제학, 경영학, 사회과학, 인문과학, 법학, 의학, 공학, 자연과학 등 모든 분야에서 필요

• 10% 담뱃값 인상이 청소년층의 흡연을 어느 정도 줄이나?

• 직업훈련은 재 취업률을 높이는가? 임금률에 미치는 효과는?

• 외국인 직접투자가 늘면 경제성장률이 제고되는가?

• 특정 광고가 매출증가 효과를 가져왔는가?

• 노동시장에서 여성에 대한 차별이 존재하는가?

64

Page 2: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

65[기초 통계] 통계의 분류

통계는 크게 기술통계학과 추측통계학으로 분류될 수 있습니다.

자료 수집

자료 정리, 요약 및 시각화

자료 해석

기술통계학

* 모집단/표본의 특성을 요약하여 집단의 특성을 수치로 요약하는 것

모집단 특성 해석

표본자료 경우

통계적 추론

추측통계학

모집단 특성 추정

모집단 or 표본자료

* 모집단의 특성을 추론하고, 모집단의 결과로 일반화 하는 것

65

Page 3: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

76[기초 통계-상관분석] 상관 분석이란

A 상품은 가격을 내리면 판매량이 증가하는가? (가격탄력성)

자사의 가격을 내리면 경쟁사의 판매량이 감소하는가?

유입수가 올라가면 거래수가 많아지는가?

우리 브랜드의 경쟁 브랜드는 어떤 브랜드일까?

기온이 올라가면 아이스크림 판매량이 높아지는가?

어느 마을에 흑사병에 의해 월별 사망자 수가 증가하고 있다. 이 당시 시간이지남에 따라 월별 태양의 흑점수 또한 지속적으로 증가하였다.

흑사병으로 인한 사망자 수와 태양의 흑점수는 지속적으로 증가하여둘 간의 강한 양의 상관관계를 보임. 따라서 태양의 흑점수 증가가월별 사망자 수 증가에 영향을 준다.

일반화 사실의 오류를 주의해야 함

두 변수간의 선형 관계 이해

두 변수간 상관관계의 이해관계 정도를 보기 위한 것으로 연관성을 살펴볼 수 있으나, 일반화 사실 상의 관계를 고려하여 연관성여부를 결정할 필요가 있습니다.

76

Page 4: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

80

0

5

10

15

20

25

30

35

0 5 10 15 20

Y (월 별 A 판매량, 단위: 백개)

X (월 별 A 가격, 단위:백원)0

5

10

15

20

25

30

35

0 5 10 15 20

r = -0.87 r = -0.42

Y (월 별 B 판매량, 단위: 백개)

X (월 별 B 가격, 단위:백원)

• A제품 판매량이 B제품 판매량 보다 가격 변화에 더 민감하다고 말할 수 있습니다. 그러나 A제품이 B제품 보다 더 가격 탄력적이다 라고 의미하는

것은 아닙니다.

[기초 통계-상관분석] 상관계수 비교 예시

A,B 두 제품간 상관계수 비교

상관계수는 다른 대상 과도 비교하여 평가되어 질 수 있습니다.

80

Page 5: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

82[엑셀 그래프] 산점도 (Scatter Plot)

82

Page 6: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

83[엑셀 데이터 분석] 분석 기능 설치 (1)

1

2

엑셀에 있는 통계 데이터 분석을 활용하기 위하여 옵션에서 분석 도구를 추가할 수 있습니다. (파일-> 옵션 ->추가기능)

엑셀 데이터 분석 기능 추가

3

4

5

6

83

Page 7: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

84

87

엑셀에 있는 통계 데이터 분석을 통해 기초통계분석부터 가설검정 그리고 상관 및 회귀분석 등이 가능합니다. 기초 통계량은 엑셀기본 통계 함수를 이용하여 계산될 수 있습니다.

엑셀 데이터 분석 기능 엑셀 통계 함수

[엑셀 데이터 분석] 분석 기능 설치 (2)

84

Page 8: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

85

상관계수는 산업 인더스트리마다 기준이 다르나 일반적으로 0.6이상이면 높은 양의 상관, 04-0.6이면 상관이 있는 정도, 0.4미만이면상관이 없음을 나타냅니다. (음의 경우도 동일)

거래수는 세션수와 0.68, 회원가입수와 0.69로 세션수와회원가입수가 많을 수록 거래수도 많아 질 수 있음을 시사합니다.

데이터 분석을 통한 상관분석 예시

• 여러 변수 간 상관계수가 아닌 두 변수간 상관계수는 엑셀 통계함수에서Correl 함수를 이용하여 직접 계산이 가능합니다.

[엑셀 데이터 분석] 상관분석 예시

85

Page 9: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

89[Pivot Table] 데이터 준비하기

엑셀 Pivot을 하는 방법은 Pivot을 하고자 하는 범위를 지정 후에 삽입 항목에서 피벗테이블을 선택합니다.

1

2

3

범위지정

4

89

Page 10: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

93[Pivot Table] 활용하기-조건부 합계 비율 계산

엑셀 Pivot에서는 값 필드 설정을 통해 그룹 후 조건부 합계 비율 또한 계산이 가능합니다.

2012년 1Q를100%로 한 1월

비중

2012년을100%로한 1Q 비중

엑셀에서 연도별 월별 조건부 비중(%)

93

Page 11: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

95[Pivot Table] 활용하기-Graph

엑셀 Pivot을 통해 그래프도 표현이 가능하며, Pivot Table 변화에 따라 Graph 도 자동으로 변경됩니다.

2012년 비 선택 시 Pivot Table뿐만 아니라 모든 차트에서제외됨. (피벗 Table 변경 원인)

95

Page 12: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

96[그래프] 엑셀 상의 추가 Graph-스파크라인/조건부 서식

엑셀에서는 스파크라인과 조건부 서식을 통하여 세부적 이기 보다 개괄적인 추세나 특징을 검토하기 위해 사용될 수 있습니다.

스파크라인

조건부서식

Example

96

Page 13: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

120축(지표)의 수에 의한 Size 표현 예시

정량적 시각화는 데이터를 특정 지표로 수치화하여 그것을 시각적인 Size로 나타내는 것입니다. 데이터에 따라서는 그 지표(축)가 복수가 되는 경우도 있으나 이러한 지표는 항상 독립된 것이어야 하며, 애매한 분석으로 지표(축)만

늘려서 사용하는 것은 자제해야 합니다.

주) :Radar Chart의 지표는 순환형으로 보입니다. 따라서 근접하는 지표는 각각 독립적이면서도 특성적으로는 반대편쪽의 지표보다 유사할 필요가 있습니다.

< 1 축 > < 2 축 > < 3 축 이상 >

120

Page 14: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

121눈금 사용한 의미 전달하기

데이터의 수치를 상세하게 기입한 도표는, 상황에 따라서 상대의 주의를 보고의 취지에서 빗나가게 할 경우도 있습니다. 따라서 표형식의 보고서가 아니라면 눈금을 이용하여 복잡한 수치를 생략하는 것은 메시지 전달에 있어서 유효한 수단일 수 있습니다.

< 눈금의 수치> < 눈금의 절단 > < 눈금의 생략 > < 복수 눈금 >

최대치, 최소치 및기준치를 명기한 후,그 사이를 3 - 5 등분함.

원칙적으로는 절단하지 않음.통계 데이터의 9할은, 통상의눈금으로 맞춤

일부 데이터의 수치가다른 것과 현저하게승리되어 있는 경우에 사용함.

* 지수 눈금으로 정리하여 표현하는 방법도 추가적으로 고려해 볼 필요가 있음

각각의 데이터와 눈금의대응을 한 눈에 알아보게 함.

1,000

800

600

400

200

0

5.0

2.5

0

-2.5

-5.0 80

100

120

130

120

110

100

0

400

300

200

100

0

(831)60

40

20

0

20

15

10

5

140

121

Page 15: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

122정량 / 정성적 도표 시각화의 적용 예시

정성적 표현에 사용되는 도표 작성 요소로서는, 도형, 선질, 농담(색채), 마크, 기호 등이 고려될 수 있습니다. 데이터를 각각의 특성에따라 구분하여 같은 그룹에 속하는 데이터는 한 개의 도표작성요소로 통일하여 구별(서열 등) 할 필요가 있습니다.

< 정 량 화 > < 정 성 화 > < 정량화와 정성화 >

x

x

AA

BB

BA

Y

X

122

Page 16: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

123소구점 강조하기

강조는 정성적 표현의 하나이며, 도표의 메시지를 보다 신속, 명료하게 전달하기 위한 수단으로, 도표의 직독성, 유도성을 높이기 위해필요합니다. 그러나, 하나의 도표에 너무 많은 강조 수단을 사용하면 복잡하게 되어, 오히려 효과를 잃어버리게 될 수 있으니 이점을고려하여 활용해야 합니다.

< Dot / Mark > < Line > < Surface >

v

v

v

vv

vv v

v

v

v

< Color / Shade >

123

Page 17: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

124영역 표현 하기

영역의 표현은, 도표 디자인 측면에서 보면, 데이터의 Layout과 정량/정성적 시각화의 결과로서 부수적으로 표현될 경우와보충적으로 부가되는 경우가 있습니다. 영역을 보충할 때는 이미 사용하고 있는 표현수단과의 혼동을 피해서 시인성을 확보할 필요가있습니다.

< MECE > < 부 분 > < 부분적 중복 >

부수적

보충적

124

Page 18: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

128표현 목적에 따른 그래프 예시

엑셀 제공 차트 요인의 크기/양의 차이표시

적은 요인의 비율

시간축에 따른 요소 변화

시간축에 따른 총량 변화

요인 간의 관계성

평균, 최대값, 최소값 등표시

표준값에 대한 차이를다각도로 표시

시간축에 따른 요인변화및 크기 관계

요인 변화 영향도 표시

막대형

원형(파레토)

꺽은선형

영역형

분산형

오차막대, 상자수염

방사형

콤보(이중축)

폭포형

그래프는 크게 수치의 크기를 정리한 양적 유형, 수치의 추이를 나타내는 변화유형 그리고 수치의 차이를 나타내는 분포 유형이있습니다.

128

Page 19: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

155[결과 설명] 엑셀 데이터 분석을 통한 회귀분석 (3)

잔차에 대한 이상치 여부를 검토하여, 특수 상황이나 어떤 문제가 있다면 제외를 한 후 회귀 모형을 다시 프로세스 하여독립변수들의 계수를 재 계산 합니다.

30000

40000

50000

60000

70000

80000

90000

100000

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70

예측 생수 판매량 실제 생수 판매량

실제 판매량과 회귀모형을 통한 추정 판매량

표준잔차가 +-3 이상이면이상치로 제외하거나 보정을 한 후 모형 재 수립하는 것을 추천합니다.

잔차 출력

155

Page 20: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

158[실습] 엑셀 다중회귀 분석 – 판매량 모형 수립

결과에 대해 유의 한지 검정값들을 확인하고 만일 유의 하지 않다면, 변수를 추가하거나 이상치들을 확인하여 제외한 후 회귀분석을다시 돌려봅니다.

158

Page 21: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

159[실습] 엑셀 다중회귀 분석 – 판매량 모형 수립

다중상관계수:0.9687 (설명력 96.9%)

잔차 출력

실제 판매량과 회귀모형을 통한 추정 판매량

실제 값과 모형을 통해 추정된 값 간의 선형(여기서는 시간 개념이므로) 그래프를 통하여 확인을 해봅니다.

159

Page 22: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

175[비선형 회귀] 비선형성 관계 잔차 및 모형 검토

잔차 검토를 통해 모형의 유의성을 판단할 수 있습니다. 여기서 결과값이 영향을 주는 이상값이 발견된다면 이상값이 무엇인지정확한 판단 후에 제외를 할지 여부를 결정하고, 제외한다면 본래의 자료값에서 이상치 제거 후 다시 회귀모형을 구합니다.

다소 이상치가 보이나, 표준화 오차 상 매우 심각한 이상치로 보이지는않습니다. 때로는 결과값에 기반하여 주관적으로 판단 할 필요도 있습니다.

175

Page 23: [파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해

인트렌치 - 엑셀을 활용한 데이터 분석

231[곡선 추정] 엑셀 상의 추세선을 이용한 모형 추정 (2)

최적 모형을 선택하기 위하여 다음과 같은 오차에 대한 지표들을 계산하고 비교할 수 있습니다.

y = 2128.2x + 6214.3

R² = 0.7933

y = -48.04x2 + 3281.2x + 1410.3

R² = 0.8074

y = 9.9661x3 - 406.82x2 + 6799.2x - 6363.3

R² = 0.8278

y = 17207ln(x) - 6854.6

R² = 0.7699

-20000

0

20000

40000

60000

80000

100000

0 5 10 15 20 25 30 35

평균절대편차 평균절대백분율오차

선형함수 5,708 32

2차모형 5,009 23

3차모형 5,055 26

로그모형 5,784 36

231