chương 6: phân tích dữ li ệu · 2015. 8. 30. · 6 1. xử lý dữ li ệu (tt) hi ệu ch...

60
Chương 6: Phân tích dliu ThS. Trn Trí Dũng

Upload: others

Post on 31-Jan-2021

8 views

Category:

Documents


0 download

TRANSCRIPT

  • Chương 6: Phân tích d ữ liệu

    ThS. Trần Trí Dũng

  • 2

    Nội dung

    1. Xử lý dữ liệu2. Phân tích đơn biến3. Phân tích nhị biến4. Tổng quát về phân tích đa biến

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 3

    1. Xử lý dữ liệu

    � Hiệu chỉnh� Mã hóa� Tạo tập tin dữ liệu

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 4

    1. Xử lý dữ liệu (tt)

    � Hiệu chỉnh:– Mục đích nhằm đảm bảo:

    � Đúng thủ tục/đối tượng phỏng vấn (legibility)� Xử lý các phỏng vấn/trả lời không hoàn chỉnh

    (completeness)� Tính nhất quán của các trả lời (consistency)� Sự chính xác của các trả lời (accuracy)� Sự rõ ràng của các trả lời (clarification)

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 5

    1. Xử lý dữ liệu (tt)

    � Hiệu chỉnh (tt):– Quá trình:

    � Hiệu chỉnh sơ bộ (field editing): – Thực hiện bởi interviewer– Càng sớm càng tốt sau khi phỏng vấn xong

    � Hiệu chỉnh cuối cùng (office editing):– Thực hiện bởi editor– Sau khi thu thập xong data– Đòi hỏi người hiệu chỉnh phải có nhiều kinh nghiệm, kiến

    thức.

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 6

    1. Xử lý dữ liệu (tt)

    � Hiệu chỉnh (tt):– Xử lý khi phát hiện lỗi:

    � Liên lạc trở lại để bổ sung hoặc làm rõ� Hiệu chỉnh, làm rõ hoặc bổ sung theo trí nhớ hoặc các

    cứ liệu/suy luận khác� Hủy bỏ một số câu trả lời (missing value)� Hủy hoàn toàn cuộc phỏng vấn/questionnaire

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 7

    1. Xử lý dữ liệu (tt)

    � Mã hóa:– Khái niệm:

    � Là quá trình gán mã số (số hoặc nhãn) cho các biến và các trả lời.

    � Thang đo của biến tùy thuộc vào cách hỏi và bản chất của biến được hỏi.

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 8

    1. Xử lý dữ liệu (tt)

    � Mã hóa (tt):– Các bước mã hoá:

    � Đặt tên biến cho các câu hỏi:– Câu hỏi 1 chọn lựa– Câu hỏi nhiều chọn lựa

    � Chuyển tập các chọn lựa trả lời của mỗi câu hỏi thành tập các số/nhãn phù hợp, có ý nghĩa.

    – Câu hỏi đóng– Câu hỏi mở– Câu hỏi có chọn lựa: “Khác”

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 9

    1. Xử lý dữ liệu (tt)

    � Mã hóa (tt):– Bốn nguyên tắc khi mã hóa:

    � Tính phù hợp (appropriateness): Cách phân loại/nhóm phải phù hợp với vấn đề/mục tiêu nghiên cứu.

    – TD: Thông tin cá nhân hoặc doanh nghiệp.– Tuổi

  • 10

    1. Xử lý dữ liệu (tt)

    � Mã hóa (tt):– Bốn nguyên tắc khi mã hóa (tt):

    � Tính toàn diện (exhaustiveness): Các mã số cần thể hiện các loại cần NC.

    – Loại “trả lời khác” nên chiếm tỉ lệ nhỏ nhất.– TD: Tuổi 30 ??

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 11

    1. Xử lý dữ liệu (tt)

    � Mã hóa (tt):– Bốn nguyên tắc khi mã hóa (tt):

    � Tính loại trừ nhau (mutual exclusivity): Mỗi trả lời chỉ tương ứng với một mã số.

    – TD: quốc doanh, tư nhân, TNHH, cổ phần ??

    � Tính đơn nguyên (unidimensionality): Mỗi câu trả lời ứng với một thứ nguyên duy nhất.

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 12

    1. Xử lý dữ liệu (tt)

    � Tạo tập tin dữ liệu:– Nhập dữ liệu vào file (SPSS)– Cải biến tập dữ liệu– Tạo biến mới, biến trung gian, v.v.– Xử lý missing value

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 13

    2. Phân tích đơn biến

    � Tổng quan về phân tích dữ liệu:– Mục tiêu phân tích chỉ là mô tả hay suy đóan tổng

    thể – Chọn phương pháp tùy thuộc vào:

    � Có bao nhiêu biến được phân tích đồng thời� Các biến được đo bằng thước đo gì: chỉ danh, thứ tự,

    khỏang hay tỷ lệ

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 14

    2. Phân tích đơn biến (tt)

    � Tổng quan về phân tích dữ liệu (tt):– Các phương pháp phân tích dữ liệu:

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 15

    2. Phân tích đơn biến (tt)

    � Phân tích đơn biến:

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 16

    2. Phân tích đơn biến (tt)

    � Thống kê mô tả:– Biến chỉ danh, thứ tự

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 17

    2. Phân tích đơn biến (tt)

    � Thống kê mô tả (tt):– Biến chỉ

    danh, thứ tự (tt)

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 18

    2. Phân tích đơn biến (tt)

    � Thống kê mô tả (tt):– Lợi ích:

    � Trình bày phân phối dữ liệu của một biến có thang đo nominal hoặc ordinal.

    � Phát hiện một số dạng sai sót khi mã hoá.� So sánh với các phân phối/dữ liệu có liên quan.� Đề nghị những phương pháp biến đổi các biến � Kiểm tra sampling.

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 19

    2. Phân tích đơn biến (tt)

    � Thống kê mô tả (tt):– Biến khỏang (interval):

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 20

    2. Phân tích đơn biến (tt)

    � Kiểm nghiệm giả thuyết đơn biến:– Kiểm chứng xem những phát biểu nào đó có

    thích hợp cho tổng thể nghiên cứu hay không.� Ví dụ: Bình quân tuổi của 100 SV trong mẫu là 24

    (s=5). Nhà NC muốn kiểm chứng cho tổng thể: – Null hypothesis Ho: ì = 23 – Alternative hypothesis H1: ì ≠ 23

    – Các phân tích liên quan đến kiểm nghiệm giả thuyết gọi là phân tích suy luận (inferential analysis).

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 21

    2. Phân tích đơn biến (tt)

    � Kiểm nghiệm giả thuyết đơn biến (tt):– Các bước kiểm nghiệm giả thuyết đơn biến:

    � B1: Thiết lập giả thuyết H0 và H1� B2: Xác định phương pháp test phù hợp (statistical

    test).� B3: Chọn trước mức ý nghĩa α(significance level)� B4: Tính (tra bảng) giá trị test tới hạn (critical value) ứng với α(one/two tailed)

    � B5: Tính giá trị kiểm nghiệm thống kê từ tập số liệu.� B6: Nếu giá trị tính được ở B5 lớn hơn giá trị tới hạn �

    loại Ho.September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 22

    2. Phân tích đơn biến (tt)

    � Kiểm nghiệm giả thuyết đơn biến (tt):– Biến đo bằng thang đo khoảng:

    � Có thể dùng t Test hoặc Z Test để test giá trị trung bình của tổng thể khi biết giá trị trung bình của mẫu:

    � Z TEST: – Sử dụng khi:– Biết phương sai sigma của tổng thể và cở mẫu bất kỳ. – Không biết phương sai sigma của tổng thể và cở mẫu >

    30

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 23

    2. Phân tích đơn biến (tt)

    � Kiểm nghiệm giả thuyết đơn biến (tt):– Biến đo bằng thang đo khoảng (tt):

    � t TEST:� Sử dụng khi

    – Không biết phương sai sigma của tổng thể và cở mẫu bất kỳ.

    – Khi cở mẫu n > 30 thì phân phối t = phân phối z– Lưu ý: khi tra bảng tc thì dF = n-1

    xS

    xt

    µ−=

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 24

    2. Phân tích đơn biến (tt)

    � Kiểm nghiệm giả thuyết đơn biến (tt):– Biến đo bằng

    thang đo khoảng (tt):

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 25

    2. Phân tích đơn biến (tt)

    � Kiểm nghiệm giả thuyết đơn biến (tt):– Biến đo bằng thang đo thứ tự:

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 26

    2. Phân tích đơn biến (tt)

    � Kiểm nghiệm giả thuyết đơn biến (tt):– Biến đo bằng thang đo thứ tự (tt):

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 27

    2. Phân tích đơn biến (tt)

    � Kiểm nghiệm giả thuyết đơn biến (tt):– Biến đo bằng thang đo thứ tự (tt):

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 28

    2. Phân tích đơn biến (tt)

    � Kiểm nghiệm giả thuyết đơn biến (tt):– Biến đo bằng thang đo thứ tự (tt):

    � Ví dụ: Khảo sát 100 người đang sử dụng internet ở HCMC

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 29

    2. Phân tích đơn biến (tt)

    � Kiểm nghiệm giả thuyết đơn biến (tt):– Biến đo bằng thang đo thứ tự (tt):

    � Ví dụ: Khảo sát 100 người đang sử dụng internet ở HCMC

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 30

    3. Phân tích nh ị biến

    � Bảng 2 chiều (two – way tabulation)� Các lọai test nhị biến� Chi – Square contingency test � Hệ số tương quan Spearman và Pearson� Phân tích hồi quy tuyến tính đơn

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 31

    3. Phân tích nh ị biến (tt)

    � Bảng 2 chiều (two – way tabulation)

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 32

    3. Phân tích nh ị biến (tt)

    � Bảng 2 chiều (two – way tabulation):– Khảo sát mức độ và các mối liên hệ (có thể có)

    giữa các cặp biến.– Thích hợp cho các trường hợp số loại trong

    mỗi biến không lớn, thang đo nominal hoặc ordinal.

    – Chỉ định hướng, không kết luận về mối quan hệ nhân quả giữa các biến.

    – Kết quả có thể bị lệch nếu các ô có giá trị nhỏ.

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 33

    3. Phân tích nh ị biến (tt)

    � Các lọai test nhị biến:

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 34

    3. Phân tích nh ị biến (tt)

    � Chi – Square contingency test:– Hạn chế:

    � Chỉ xác định có quan hệ hay không, không cho biết mức độ quan hệ.

    � Do đó thường dùng hệ số Contingency bổ sung vào kiểm nghiệm Chi-Square để biết mức độ quan hệ giữa 2 biến.

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 35

    3. Phân tích nh ị biến (tt)

    � Chi – Square contingency test (tt):– Thí dụ: Kết quả khảo sát nhãn hiệu Bia ưa thích

    nhất phân theo mức thu nhập

    – Ghi chú: Con số trong ngoặc chỉ giá trị kỳ vọng của mỗi ô trong bảng. Chúng được xác định theo tỉ lệ với tổng về thu nhập và loại bia ưa thích.

    – (Ô 1-1 có giá trị kỳ vọng = 350 x 375 / 1200 = 109.38)September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 36

    3. Phân tích nh ị biến (tt)

    � Chi – Square contingency test (tt):– Thí dụ: Kết quả khảo sát nhãn hiệu Bia ưa thích

    nhất phân theo mức thu nhập

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 37

    3. Phân tích nh ị biến (tt)

    � Hệ số tương quan Spearman và Pearson– Spearman: tương quan giữa 2 biến thứ tự

    (ordinal).– Pearson: tương quan giữa các biến khoảng/ tỉ lệ.– Hệ số tương quan r = 0 � 1 (không kể dấu +/-)

    � r > 0.8 rất mạnh� r = 0.6 – 0.8 mạnh� r = 0.4 – 0.6 có tương quan� r = 0.2 – 0.4 tương quan yếu� r < 0.2 không tương quan

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 38

    3. Phân tích nh ị biến (tt)

    � Hệ số tương quan Spearman và Pearson (tt)– Lưu ý: Hai biến phải có phân phối chuẩn nhị biến.

    � Phương sai của 1 biến tại bất kỳ giá trị nào của biến kia cũng phải bằng nhau.

    � Khi r nhỏ không có nghĩa là không tương quan, mà chỉ không tương quan tuyến tính.

    � Khi |r| lớn chỉ cho thấy mối tương quan, nhưng không xác định quan hệ nhân quả.

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 39

    3. Phân tích nh ị biến (tt)

    � Phân tích hồi quy tuyến tính đơn– Phân tích 2 biến khoảng/tỉ lệ: Hồi quy tuyến tính đơn: Y = aX + b

    – Sự khác biệt giữa hồi quy và tương quan:

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 40

    4. Phân tích đa biến

    � Phân tích đa biến có thể chia thành 2 nhóm: – Phân tích phụ thuộc: Xác định được biến nào là

    phụ thuộc, biến nào là độc lập. � Bao gồm các pp: Phân tích hồi quy đa biến, ANOVA,

    Conjoint, Discriminant, Canonical analysis...

    – Phân tích tương tác (interdependent): Không xác định trước biến nào là phụ thuộc, biến nào là độc lập, chủ yếu là tìm kiếm các mô thức tương quan.� Bao gồm các pp: Factor analaysis, Cluster, Multi-

    dimensional Scaling.

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 41

    4. Phân tích đa biến

    � Các phương pháp phân tích phụ thuộc: Yêu cầu về thang đo

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 42

    4. Phân tích đa biến (tt)

    � Các phương pháp phân tích phụ thuộc: Yêu cầu về thang đo (tt)

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 43

    4. Phân tích đa biến (tt)

    � Hồi qui tuyến tính đa biến:

    – Dạng mở rộng của hồi quy đơn. – Một biến phụ thuộc, nhiều biến độc lập– Tất cả được đo bằng thang interval (ngoại lệ:

    dummy-variable multiple regression)

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 44

    4. Phân tích đa biến (tt)

    � Hồi qui tuyến tính đa biến (tt):– Đánh giá mô hình và kết quả hồi quy theo 3 phần:

    � Mức độ phù hợp của phương trình hồi quy:– Dùng hệ số r2 (coefficient of determination)– r2 = 0 ÷ 1 � đặc trưng cho % của biến thiên trong biến

    phụ thuộc được giải thích do sự biến thiên của biến độc lập.

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 45

    4. Phân tích đa biến (tt)

    � Hồi qui tuyến tính đa biến (tt):– Đánh giá mô hình và kết quả hồi quy theo 3 phần:

    � Kiểm nghiệm mức ý nghĩa của r2:– Dùng F – test (Với độ tự do: df = n – k – 1 cho mẫu số và

    df = k cho tử số)– (n: cỡ mẫu, k: số biến độc lập)

    � Kiểm nghiệm mức ý nghĩa của các độ dốc ai:– Dùng t – test với độ tự do df = n – k – 1

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 46

    4. Phân tích đa biến (tt)

    � Hồi qui tuyến tính đa biến (tt):– Kiểm nghiệm các giả thuyết của pp hồi qui:

    � Linearity: Có mối quan hệ tuyến tính giữa biến phụ thuộc và các biến độc lập

    – Test: quan sát scatter diagram hoặc ma trận tương quan

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 47

    4. Phân tích đa biến (tt)

    � Hồi qui tuyến tính đa biến (tt):– Kiểm nghiệm các giả thuyết của pp hồi qui (tt):

    � Đa cộng tuyến (Multicolinearity)– Giả thuyết: các biến độc lập không có tương quan tuyến

    tính với nhau.– Khi bị vi phạm � Có hiện tượng đa cộng tuyến, nghĩa là

    hiện hữu mối tương quan tuyến tính giữa ≥ 2 biến độc lập.

    – Đa cộng tuyến gây ra: � Hạn chế giá trị r2, � Sai lệch/đổi dấu các hệ số hồi quy

    – Test đa cộng tuyến: hệ số Tolerance hoặc VIFSeptember 4, 2014 https://sites.google.com/site/dungtrantri/

  • 48

    4. Phân tích đa biến (tt)

    � Hồi qui tuyến tính đa biến (tt):– Kiểm nghiệm các giả thuyết của pp hồi qui (tt):

    � Phân phối chuẩn (Normality) của sai số và của mỗi biến� Sai số hồi quy có variance không đổi (Constant

    Variance of the Error Term hay Homoscedasticity)� Tính độc lập của các sai số hồi quy (Independence of

    the Error Terms)

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 49

    4. Phân tích đa biến (tt)

    � Hồi qui tuyến tính đa biến (tt):– Một số lưu ý khi sử dụng multiple regression:

    � Phân tích hồi quy tuyến tính chỉ có nghĩa khi có tương quan TUYẾN TÍNH giữa các biến.

    � r2 không nói lên được quan hệ nhân quả giữa các biến� Có thể dự đoán sai nếu nằm ngoài khoản tính toán

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 50

    4. Phân tích đa biến (tt)

    � Hồi qui tuyến tính đa biến (tt):– Một số lưu ý khi sử dụng multiple regression (tt):

    � Để đảm bảo độ tin cậy phải có nhiều hơn 10 điểm cho mỗi biến độc lập đưa vào phương trình (� yêu cầu cở mẫu)

    � Khoảng dao động (range) các biến có thể ảnh hưởng đến ý nghĩa phương trình hồi quy.

    � Trường hợp biến độc lập là nominal thì có thể sử dụng dummy-variable. Khi đó:

    – số biến dummy = k-1 ; – với k = số loại của biến nominal– mỗi biến dummy chỉ nhận giá trị 0 hoặc 1

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 51

    4. Phân tích đa biến (tt)

    � Hồi qui tuyến tính đa biến (tt):– Thí dụ: – Bài toán tìm các yếu tố quyết định sự thỏa mãn

    của nhân viên trong Cty XYZ.– Biến phụ thuộc: sự thỏa mãn của nhân viên Cty.

    � Biến độc lập: thu nhập, điều kiện làm việc, sự quan tâm của cấp trên, quan hệ với đồng nghiệp, cơ hội thăng tiến, cơ hội học tập,…

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 52

    4. Phân tích đa biến (tt)

    � Hồi qui tuyến tính đa biến (tt):– Thí dụ:

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 53

    4. Phân tích đa biến (tt)

    � Phân tích ANOVA:– Mục đích: Khảo sát mối quan hệ giữa các biến độc lập và phụ thuộc.

    – Đặc điểm: Tương tự như phân tích hồi quy, nhưng các biến độc lập là biến nonmetric (nominal/ordinal).

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 54

    4. Phân tích đa biến (tt)

    � Phân tích ANOVA:– Áp dụng: So sánh giá trị trung bình của một thuộc

    tính (biến phụ thuộc/thang metric) thể hiện ảnh hưởng của một hay nhiều thuộc tính khác (biến độc lập/thang nonmetric).

    – Nếu có nhiều biến độc lập với thang chỉ danh gọi là Factorial ANOVA.

    – Nguyên tắc: � Nếu có sự khác biệt đáng kể giữa các nhóm thì

    “between-group variance > within-group variance”

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 55

    4. Phân tích đa biến (tt)

    � Phân tích ANOVA:– Ví dụ về ANOVA: – Khảo sát 200 doanh nghiệp thuộc 3 ngành May

    mặc, Mỹ phẩm và Nhựa gia dụng về chi phí dành cho khuyến mãi hằng năm.

    – Mục đích phân tích nhằm tìm xem có sự khác nhau đáng kể/ có ý nghĩa thống kê giữa 3 ngành này về chi phí khuyến mãi không?

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 56

    4. Phân tích đa biến (tt)

    � Phân tích ANOVA:– Ví dụ về ANOVA:

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 57

    4. Phân tích đa biến (tt)

    � Phân tích ANOVA:– Ví dụ về ANOVA:– Bài toán này có thể so sánh giá trị trung bình của

    chi phí khuyến mãi theo từng cặp ngành (dùng t –test). Tuy nhiên, khi số treatment lớn � số lượng so sánh sẽ rất lớn.

    – Khi đó nên dùng ANOVA: – H0 : µ1 = µ2 = ... = µk = µ– Ha : có ít nhất 1 giá trị µi khác những giá trị kia.

    Với µ là trung bình của tổng thể September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 58

    4. Phân tích đa biến (tt)

    � Phân tích nhân tố (FA – Factor Analysis)– Là phép rút gọn dữ liệu và biến bằng cách nhóm

    chúng lại với các nhân tố đại diện– Điều kiện: các biến phải có thang đo metric– Ứng dụng:

    � Xây dựng bộ thang đo Multiple – item� Xác định cấu trúc bộ dữ liệu � Giảm thứ nguyên trong tập dữ liệu, rút gọn dữ liệu

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 59

    4. Phân tích đa biến (tt)

    � Phân tích nhân tố (FA – Factor Analysis)– Ví dụ:

    September 4, 2014 https://sites.google.com/site/dungtrantri/

  • 60

    The End

    September 4, 2014 https://sites.google.com/site/dungtrantri/