56511469 weka classification

33
Vigilancia epidemiológica de Segunda Generación y evaluación de las nuevas vacunas. Marcio Ulises Estrada Paneque. MD. PhD. Genco Marcio Estrada Vinajera. MD. Caridad Vinajera Torres. PhD. Cuba.

Upload: maytranght

Post on 18-Feb-2015

116 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 56511469 Weka Classification

TÌM HIỂU PHẦN MỀM TÌM HIỂU PHẦN MỀM WEKAWEKA

GVHD: THẦY NGUYỄN VĂN CHỨC

THỰC HIỆN: NHÓM 15

Trường Đại học Kinh Tế Đà NẵngKhoa Thống Kê Tin HọcMôn học Cơ sở dữ liệu

Page 2: 56511469 Weka Classification

NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY

Giới thiệu chức năng phân lớp

Một số bộ phân lớp phổ biến

Cây quyết định ID3

NaiveBayes

Tổng kết

2

Page 3: 56511469 Weka Classification

NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY

Giới thiệu chức năng phân lớp

Một số bộ phân lớp phổ biến

Cây quyết định ID3

NaiveBayes

Tổng kết

3

Page 4: 56511469 Weka Classification

PHÂN LỚP LÀ GÌ?PHÂN LỚP LÀ GÌ?

Phân lớp (classify) là một nhiệm vụ khai thác dữ liệu, trong đó: cho

trước một tập hợp các lớp, tìm cách gán một mẫu mới vào phân lớp

sao cho có độ chính xác cao nhất có thể.

Ví dụ:

Dự đoán khối u là u lành hay u ác.

Phân loại văn bản theo chủ đề tin tức, thể thao, giáo dục...

Weka hỗ trợ phân lớp trong phần chức năng Explorer của nhóm

chức năng Applications.

4

Page 5: 56511469 Weka Classification

PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA

5

Page 6: 56511469 Weka Classification

PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA

Đây là chức năng cho phép người

dùng chọn lựa một trong các thuật toán

phân lớp đã cài đặt sẵn để áp dụng lên

dữ liệu.

Bước 1: nhấn nút Choose để mở

hộp thoại chọn thuật toán.

6

Page 7: 56511469 Weka Classification

PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA

Đây là chức năng cho phép người

dùng chọn lựa một trong các thuật

toán phân lớp đã cài đặt sẵn để áp

dụng lên dữ liệu.

Bước 2: nhấn vào ô chữ hiển

thị thuật toán để mở hộp thoại

chọn tham số.

7

Page 8: 56511469 Weka Classification

PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA

Đây là chức năng cho phép người dùng chọn lựa một trong các

thuật toán phân lớp đã cài đặt sẵn để áp dụng lên dữ liệu.

Bước 1: nhấn nút Choose để mở hộp thoại chọn thuật toán.

Bước 2: nhấn vào ô chữ hiển thị thuật toán để mở hộp thoại

chọn tham số.

Bước 3: nhấn nút Start để chạy thuật toán với dữ liệu hiện có.

8

Page 9: 56511469 Weka Classification

PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA

Đây là dữ liệu thu được sau khi thực hiện thành công, gồm thông tin

về tập dữ liệu, mô hình phân lớp (cây quyết định, giá trị xác suất…),

kết quả dự đoán trên tập dữ liệu kiểm thử và số liệu thống kê.9

Page 10: 56511469 Weka Classification

PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA

Đây là bảng lưu lại thông tin các lần chạy. Ta có thể ghi lại kết quả

chạy thuật toán sang tập tin để lưu trữ.

10

Page 11: 56511469 Weka Classification

PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA

Đây là bảng chọn lựa chế độ kiểm thử để đánh giá hiệu quả của bộ

phân lớp đã được xây dựng.

11

Use training set: sử dụng tập

huấn luyện làm tập kiểm thử.

Page 12: 56511469 Weka Classification

PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA

Đây là bảng chọn lựa chế độ kiểm thử để đánh giá hiệu quả của bộ

phân lớp đã được xây dựng.

12

Supplied test set: chỉ định tập dữ

liệu mới làm tập kiểm thử.

Page 13: 56511469 Weka Classification

PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA

Đây là bảng chọn lựa chế độ kiểm thử để đánh giá hiệu quả của bộ

phân lớp đã được xây dựng.

13

Cross-validation: kiểm thử bằng

phương pháp cross-validation.

Page 14: 56511469 Weka Classification

PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA

Đây là bảng chọn lựa chế độ kiểm thử để đánh giá hiệu quả của bộ

phân lớp đã được xây dựng.

14

Percentage split: chia tập dữ liệu

ban đầu thành tập huấn luyện và

tập kiểm thử theo tỉ lệ %.

Page 15: 56511469 Weka Classification

PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA

Các lựa chọn tiện ích khác.

15

Lựa chọn xuất kết quả

Lựa chọn thuộc tính phân lớp

Page 16: 56511469 Weka Classification

NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY

Giới thiệu chức năng phân lớp

Một số bộ phân lớp phổ biến

Cây quyết định ID3

NaiveBayes

Tổng kết

16

Page 17: 56511469 Weka Classification

CÁC THUẬT TOÁN PHÂN LỚPCÁC THUẬT TOÁN PHÂN LỚP

Weka hỗ trợ tương đối đa dạng các thuật toán phân lớp.

Các thuật toán được chia thành nhiều nhóm dựa theo tính chất hoạt

động, có thể kể đến một số đại diện như:

Bayes: mạng Bayes, NaiveBayes…

Functions: SVM, hàm hồi qui…

Trees: ID3, J48…

Rules: các phương pháp khai thác dựa trên luật

17

Page 18: 56511469 Weka Classification

CÂY QUYẾT ĐỊNHCÂY QUYẾT ĐỊNH

Là mô hình phân lớp dạng cây sao cho bắt đầu từ một số thuộc tính

nào đó (nút trung gian) có thể đi đến quyết định phân lớp cho một

mẫu (nút lá).

Ví dụ: ID3, J48…

18

Page 19: 56511469 Weka Classification

CÁC BƯỚC THỰC HIỆNCÁC BƯỚC THỰC HIỆN

19

Page 20: 56511469 Weka Classification

PHÂN TÍCH KẾT QUẢPHÂN TÍCH KẾT QUẢ

20

=== Run information ===Scheme: weka.classifiers.trees.Id3 ……………..Relation: weather.symbolicInstances: 14Attributes: 5 outlook temperature humidity windy playTest mode: evaluate on training data

Tên thuật toánTham số đi kèm

Thông tin tóm tắt về lượt chạy: thuật toán sử dụng, dữ liệu đầu vào

(tên, các thuộc tính…), kiểu test.

Page 21: 56511469 Weka Classification

PHÂN TÍCH KẾT QUẢPHÂN TÍCH KẾT QUẢ

21

=== Classifier model (full training set) ===Id3outlook = sunny| humidity = high: no| humidity = normal: yesoutlook = overcast: yesoutlook = rainy| windy = TRUE: no| windy = FALSE: yes

Time taken to build model: 0 seconds

Cây quyết định được xây dựng từ thuật toán ID3 và dữ liệu

weather.

Page 22: 56511469 Weka Classification

PHÂN TÍCH KẾT QUẢPHÂN TÍCH KẾT QUẢ

22

=== Predictions on test data ===inst#, thực sự dự báo error probability distribution 1 2:no 2:no 0 *1 2 1:yes 1:yes *1 0 3 2:no 2:no 0 *1 4 1:yes 1:yes *1 0 5 2:no 1:yes + *1 0 6 1:yes 1:yes *1 0 7 2:no 2:no 0 *1 8 1:yes 2:no + 0 *1

So sánh kết quả dự đoán của từng mẫu so với thực tế. Để khởi

động chức năng này, chọn More options Output predictions.

Page 23: 56511469 Weka Classification

PHÂN TÍCH KẾT QUẢPHÂN TÍCH KẾT QUẢ

23

=== Tóm tắt thống kê ===Trường hợp phân lớp đúng 12 85.7143 %Trường hợp phân lớp sai 2 14.2857 %Kappa statistic 0.6889Mean absolute error 0.1429Root mean squared error 0.378 Relative absolute error 30 %Root relative squared error 76.6097 %Total Number of Instances 14

Thống kê về tỉ lệ phân lớp đúng/sai, kèm theo một số thông số về

những độ đo lỗi phổ biến.

Page 24: 56511469 Weka Classification

PHÂN TÍCH KẾT QUẢPHÂN TÍCH KẾT QUẢ

24

=== Confusion Matrix === a b <-- classified as 8 1 | a = yes 1 4 | b = no

Confusion matrix thể hiện phân bố các lớp do Weka dự đoán so với

thực tế. Cột chỉ số mẫu phân bố về lớp tương ứng do Weka thực

hiện, dòng chỉ số mẫu thuộc về lớp tương ứng trong thực tế.

Ví dụ: Cột a có 9 mẫu Weka phân lớp 9 mẫu thuộc lớp a, nhưng

9 mẫu này thuộc hai dòng a = yes (8) và b = no (1) Weka phân

lớp sai 1 mẫu.

Page 25: 56511469 Weka Classification

NAÏVE BAYESNAÏVE BAYES

Là mô hình phân lớp dựa trên xác suất thống kê theo định lý Bayes.

Trong Weka, chúng ta quan tâm đến dạng Bayes đơn giản nhất, đó

là NaiveBayesSimple.

Cách sử dụng: tương tự các bước thực hiện trong Cây quyết định

ID3. nhưng thay vì đầu ra là mô hình cây quyết định thì sẽ là các giá

trị xác suất.

25

Page 26: 56511469 Weka Classification

PHÂN TÍCH KẾT QUẢPHÂN TÍCH KẾT QUẢ

26

=== Classifier model (full training set) ===Naive Bayes (simple)

Class yes: P(C) = 0.625 Attribute outlooksunny overcast rainy0.25 0.41666667 0.33333333………………..

Class no: P(C) = 0.375 ………Time taken to build model: 0 seconds

N(outlook = sunny play = yes)+1 N + m m: tổng số giá trị

Làm trơn LaplaceLàm trơn Laplace

Page 27: 56511469 Weka Classification

NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY

Giới thiệu chức năng phân lớp

Một số bộ phân lớp phổ biến

Cây quyết định ID3

NaiveBayes

Tổng kết

27

Page 28: 56511469 Weka Classification

TỔNG KẾTTỔNG KẾT

28

Phân lớp (classify) được hỗ trợ trong chức năng Explorer của

Weka. Đây là chức năng giúp người dùng phân lớp dữ liệu dựa trên

quá trình gồm 2 bước:

Huấn luyện: xây dựng bộ phân lớp dựa trên dữ liệu huấn luyện

đã được phân lớp sẵn.

Dự đoán: sử dụng bộ phân lớp để quyết định một mẫu mới

thuộc về phân lớp nào.

Một số bộ phân lớp phổ biến: Cây quyết định (ID3, J48),

NaiveBayes, kNN….