อลกอรทมทใชในการเหมองขอมลแบบจ าแนกไดแก
• Simple value Algorithm• Naïve Bayes method• Decision Tree induction• Covering Algorithm
Decision Tree Construction Process
1. แบงขอมลตวอยาง (Samples Data) ออกเปน 3 สวนไดแก - Training Datasets
- Validation Datasets- Test Datasets
2. น า Training Datasets มาสราง Decision Tree3. ใช Validation Datasets วดความถกตองในการจ าแนกของ Tree ทสราง4. ท าซ าขอ 2,3 เพอใหไดความถกตองสงสด5. ใช Testing Datasets มาทดสอบกบ Tree ทไดเพอวดความถกตอง
Decision Tree Learning Algorithm
อลกอรทมทใชในการสราง Decision Tree ไดแก - ID3 Algorithm
- C4.5 Algorithm- C5.0 Algorithm- CART Algorithm
Decision Tree Induction
ข นตอนในการสราง Decision Tree จาก Training Datasets เพอใชจ าแนกขอมล มดงน 1. เลอก Attribute ทท าหนาทเปน Root Node2. จาก Root Node สรางเสนเชอมโยงไปยงโหนดลก จ านวนเสนเชอมโยง จะเทากบจ านวนคาทเปนไปไดท งหมดของ Attribute ทเปน root node3. ถาโหนดลก เปนกลมของขอมลทอยในคลาสเดยวกนท งหมด ใหหยด สรางตนไม แตถาโหนดลกมขอมลของหลายคลาสปะปนกนอย ตอง สราง subtree เพอจ าแนกขอมลตอไป โดยเลอก subtree มาท าหนาท เปน root node ของ subtree มาท าซ าในข นตอนท 2,3
ID3 Algorithm
• use information theory to select the best attribute fora decision at a node
• The idea is to select an attribute that yields the highestinformation gain
ขอมลทก าหนดในตาราง เปนขอมลสภาพอากาศ ทใชประกอบการตดสนใจในการเลนกฬาชนดหนง วา มสภาพอากาศอยางไรจงจะเลน (play = yes) มสภาพอากาศอยางไรจงไมเลน (play = no)
• ในงาน จ าแนกขอมล (Classification) ขอมลทเปนจดมงหมายในการจ าแนก คอ แอททรบวต play
• ขณะท แอททรบวต outlook , temperature , humidity , windy
ท าหนาทเปน predicting attributes
ปญหาทตองพจารณาคอ จะเลอก Attributes ใด ท าหนาทเปนroot node ในแตข นตอนของการสราง tree และ subtree
เกณฑทชวยตดสนใจ ในการเลอก root node คอ ทดลองเลอกAttribute แตละตวมาท าหนาทเปน root node แลวหาคา Gain ซงเปนคาทใชบอกวา attribute ทท าหนาทเปน root node สามารถจ าแนกขอมลไดดมากนอยเพยงใด
จะเลอก attribute ทใหคา Gain สงสดเปน root node
Gain เปนคาทบอกระดบความสามารถของการจ าแนกคลาสของ attributeหนวยของการวดเปน bits
ถาให T แทน เซตของ Training SetX แทน แอททรบวต ทถกเลอกใหเปนตวจ าแนกขอมล
Gain(x) = info(T) – infox(T)
Info(T) เปนฟงกชน ทระบปรมาณขอมลทตองการเพอใหสามารถจ าแนกคลาสทตองการได
เมอ |T| คอ จ านวนขอมลท งหมดใน Training DatasetsFreq(Cj,T) คอ ความถทขอมลใน T ปรากฏเปนคลาส Cj
info(T) =
Infox(T) คอ ฟงกชนทระบปรมาณขอมลทตองการเพอการจ าแนกคลาส ของขอมลโดยใช attribute X เปนตวตรวจสอบเพอแยกขอมล
Infox(T) =
เมอ i คอ จ านวนคาทเปนไปไดของแอททรบวต x|Ti| คอ จ านวนขอมลทมคา x=i
แบบฝกหด จากขอมล ความคดเหนของคน 7 คน ทตองการเลอกผสมคร หมายเลข 1 หรอ หมายเลข 2 โดยพจารณาจากอาย รายได และการศกษา ของผแสดงความคดเหน ปรากฎดงตาราง ใหสราง Decision Tree โดยใช ID3 Algorithm
No Age Income Education Candidate
1 >=35 High High School 1
2 <35 Low University 1
3 >=35 High College 2
4 >=35 Low High School 2
5 >=35 High University 1
6 <35 High College 1
7 <35 Low High School 2