56511469 weka classification
TRANSCRIPT
TÌM HIỂU PHẦN MỀM TÌM HIỂU PHẦN MỀM WEKAWEKA
GVHD: THẦY NGUYỄN VĂN CHỨC
THỰC HIỆN: NHÓM 15
Trường Đại học Kinh Tế Đà NẵngKhoa Thống Kê Tin HọcMôn học Cơ sở dữ liệu
NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY
Giới thiệu chức năng phân lớp
Một số bộ phân lớp phổ biến
Cây quyết định ID3
NaiveBayes
Tổng kết
2
NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY
Giới thiệu chức năng phân lớp
Một số bộ phân lớp phổ biến
Cây quyết định ID3
NaiveBayes
Tổng kết
3
PHÂN LỚP LÀ GÌ?PHÂN LỚP LÀ GÌ?
Phân lớp (classify) là một nhiệm vụ khai thác dữ liệu, trong đó: cho
trước một tập hợp các lớp, tìm cách gán một mẫu mới vào phân lớp
sao cho có độ chính xác cao nhất có thể.
Ví dụ:
Dự đoán khối u là u lành hay u ác.
Phân loại văn bản theo chủ đề tin tức, thể thao, giáo dục...
Weka hỗ trợ phân lớp trong phần chức năng Explorer của nhóm
chức năng Applications.
4
PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA
5
PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA
Đây là chức năng cho phép người
dùng chọn lựa một trong các thuật toán
phân lớp đã cài đặt sẵn để áp dụng lên
dữ liệu.
Bước 1: nhấn nút Choose để mở
hộp thoại chọn thuật toán.
6
PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA
Đây là chức năng cho phép người
dùng chọn lựa một trong các thuật
toán phân lớp đã cài đặt sẵn để áp
dụng lên dữ liệu.
Bước 2: nhấn vào ô chữ hiển
thị thuật toán để mở hộp thoại
chọn tham số.
7
PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA
Đây là chức năng cho phép người dùng chọn lựa một trong các
thuật toán phân lớp đã cài đặt sẵn để áp dụng lên dữ liệu.
Bước 1: nhấn nút Choose để mở hộp thoại chọn thuật toán.
Bước 2: nhấn vào ô chữ hiển thị thuật toán để mở hộp thoại
chọn tham số.
Bước 3: nhấn nút Start để chạy thuật toán với dữ liệu hiện có.
8
PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA
Đây là dữ liệu thu được sau khi thực hiện thành công, gồm thông tin
về tập dữ liệu, mô hình phân lớp (cây quyết định, giá trị xác suất…),
kết quả dự đoán trên tập dữ liệu kiểm thử và số liệu thống kê.9
PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA
Đây là bảng lưu lại thông tin các lần chạy. Ta có thể ghi lại kết quả
chạy thuật toán sang tập tin để lưu trữ.
10
PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA
Đây là bảng chọn lựa chế độ kiểm thử để đánh giá hiệu quả của bộ
phân lớp đã được xây dựng.
11
Use training set: sử dụng tập
huấn luyện làm tập kiểm thử.
PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA
Đây là bảng chọn lựa chế độ kiểm thử để đánh giá hiệu quả của bộ
phân lớp đã được xây dựng.
12
Supplied test set: chỉ định tập dữ
liệu mới làm tập kiểm thử.
PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA
Đây là bảng chọn lựa chế độ kiểm thử để đánh giá hiệu quả của bộ
phân lớp đã được xây dựng.
13
Cross-validation: kiểm thử bằng
phương pháp cross-validation.
PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA
Đây là bảng chọn lựa chế độ kiểm thử để đánh giá hiệu quả của bộ
phân lớp đã được xây dựng.
14
Percentage split: chia tập dữ liệu
ban đầu thành tập huấn luyện và
tập kiểm thử theo tỉ lệ %.
PHÂN LỚP VỚI WEKAPHÂN LỚP VỚI WEKA
Các lựa chọn tiện ích khác.
15
Lựa chọn xuất kết quả
Lựa chọn thuộc tính phân lớp
NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY
Giới thiệu chức năng phân lớp
Một số bộ phân lớp phổ biến
Cây quyết định ID3
NaiveBayes
Tổng kết
16
CÁC THUẬT TOÁN PHÂN LỚPCÁC THUẬT TOÁN PHÂN LỚP
Weka hỗ trợ tương đối đa dạng các thuật toán phân lớp.
Các thuật toán được chia thành nhiều nhóm dựa theo tính chất hoạt
động, có thể kể đến một số đại diện như:
Bayes: mạng Bayes, NaiveBayes…
Functions: SVM, hàm hồi qui…
Trees: ID3, J48…
Rules: các phương pháp khai thác dựa trên luật
17
CÂY QUYẾT ĐỊNHCÂY QUYẾT ĐỊNH
Là mô hình phân lớp dạng cây sao cho bắt đầu từ một số thuộc tính
nào đó (nút trung gian) có thể đi đến quyết định phân lớp cho một
mẫu (nút lá).
Ví dụ: ID3, J48…
18
CÁC BƯỚC THỰC HIỆNCÁC BƯỚC THỰC HIỆN
19
PHÂN TÍCH KẾT QUẢPHÂN TÍCH KẾT QUẢ
20
=== Run information ===Scheme: weka.classifiers.trees.Id3 ……………..Relation: weather.symbolicInstances: 14Attributes: 5 outlook temperature humidity windy playTest mode: evaluate on training data
Tên thuật toánTham số đi kèm
Thông tin tóm tắt về lượt chạy: thuật toán sử dụng, dữ liệu đầu vào
(tên, các thuộc tính…), kiểu test.
PHÂN TÍCH KẾT QUẢPHÂN TÍCH KẾT QUẢ
21
=== Classifier model (full training set) ===Id3outlook = sunny| humidity = high: no| humidity = normal: yesoutlook = overcast: yesoutlook = rainy| windy = TRUE: no| windy = FALSE: yes
Time taken to build model: 0 seconds
Cây quyết định được xây dựng từ thuật toán ID3 và dữ liệu
weather.
PHÂN TÍCH KẾT QUẢPHÂN TÍCH KẾT QUẢ
22
=== Predictions on test data ===inst#, thực sự dự báo error probability distribution 1 2:no 2:no 0 *1 2 1:yes 1:yes *1 0 3 2:no 2:no 0 *1 4 1:yes 1:yes *1 0 5 2:no 1:yes + *1 0 6 1:yes 1:yes *1 0 7 2:no 2:no 0 *1 8 1:yes 2:no + 0 *1
So sánh kết quả dự đoán của từng mẫu so với thực tế. Để khởi
động chức năng này, chọn More options Output predictions.
PHÂN TÍCH KẾT QUẢPHÂN TÍCH KẾT QUẢ
23
=== Tóm tắt thống kê ===Trường hợp phân lớp đúng 12 85.7143 %Trường hợp phân lớp sai 2 14.2857 %Kappa statistic 0.6889Mean absolute error 0.1429Root mean squared error 0.378 Relative absolute error 30 %Root relative squared error 76.6097 %Total Number of Instances 14
Thống kê về tỉ lệ phân lớp đúng/sai, kèm theo một số thông số về
những độ đo lỗi phổ biến.
PHÂN TÍCH KẾT QUẢPHÂN TÍCH KẾT QUẢ
24
=== Confusion Matrix === a b <-- classified as 8 1 | a = yes 1 4 | b = no
Confusion matrix thể hiện phân bố các lớp do Weka dự đoán so với
thực tế. Cột chỉ số mẫu phân bố về lớp tương ứng do Weka thực
hiện, dòng chỉ số mẫu thuộc về lớp tương ứng trong thực tế.
Ví dụ: Cột a có 9 mẫu Weka phân lớp 9 mẫu thuộc lớp a, nhưng
9 mẫu này thuộc hai dòng a = yes (8) và b = no (1) Weka phân
lớp sai 1 mẫu.
NAÏVE BAYESNAÏVE BAYES
Là mô hình phân lớp dựa trên xác suất thống kê theo định lý Bayes.
Trong Weka, chúng ta quan tâm đến dạng Bayes đơn giản nhất, đó
là NaiveBayesSimple.
Cách sử dụng: tương tự các bước thực hiện trong Cây quyết định
ID3. nhưng thay vì đầu ra là mô hình cây quyết định thì sẽ là các giá
trị xác suất.
25
PHÂN TÍCH KẾT QUẢPHÂN TÍCH KẾT QUẢ
26
=== Classifier model (full training set) ===Naive Bayes (simple)
Class yes: P(C) = 0.625 Attribute outlooksunny overcast rainy0.25 0.41666667 0.33333333………………..
Class no: P(C) = 0.375 ………Time taken to build model: 0 seconds
N(outlook = sunny play = yes)+1 N + m m: tổng số giá trị
Làm trơn LaplaceLàm trơn Laplace
NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY
Giới thiệu chức năng phân lớp
Một số bộ phân lớp phổ biến
Cây quyết định ID3
NaiveBayes
Tổng kết
27
TỔNG KẾTTỔNG KẾT
28
Phân lớp (classify) được hỗ trợ trong chức năng Explorer của
Weka. Đây là chức năng giúp người dùng phân lớp dữ liệu dựa trên
quá trình gồm 2 bước:
Huấn luyện: xây dựng bộ phân lớp dựa trên dữ liệu huấn luyện
đã được phân lớp sẵn.
Dự đoán: sử dụng bộ phân lớp để quyết định một mẫu mới
thuộc về phân lớp nào.
Một số bộ phân lớp phổ biến: Cây quyết định (ID3, J48),
NaiveBayes, kNN….