data mining.pdf

บทท 5 การทาเหมองขอมล

(Data mining)

จากบทเรยนทผานมาเราไดทราบถงความหมายของแบบจาลอง (Models) ประโยชน และความสาคญ ในการใชแบบจาลองพฒนาระบบ DSS และไดฝกการวเคราะหขอมลโดยใช Decision Table , Decision Tree ซงสองวธนจะใชสาหรบวเคราะหขอมลเพอหาคาตอบทมทางเลอกนอย ตลอดจนไดเรยนรเกยวกบการวเคราะหการตดสนใจโดยใช Frequent Patterns Tree (FP-Tree) ซงเปนวธการนบรายการสนคาทอยใน Transaction แลววเคราะหหาความถ

สาหรบบทเรยนน เราจะมาศกษากนตอในเรองเทคนคการวเคราะหขอมล แตจะเปนการวเคราะหในแนวของ Data Mining ดงนน จงอยากจะแนะนาและทาความรกบ Data Mining กนเสยกอน ซงในบทนจะประกอบดวยหวขอดงตอไปน ปจจบนการเขยนโปรแกรมคอมพวเตอร เพอพฒนาโปรแกรมระบบงานดานธรกจขนมาใชงาน อานวยความสะดวกในเรองของการคานวณ ประมวลผล เกบรวบรวมขาวสาร คนหา และออกรายงานไดอยางรวดเรว ดวยความสามารถของคอมพวเตอรนน ถอเปนเรองปกตพนฐานไปเสยแลวสาหรบการพฒนาระบบงานในปจจบน ถาหาก programmer หรอผทมสวนเกยวของในการพฒนาโปรแกรมระบบงานดานธรกจ ไมมการพฒนาแนวคดใหม ๆ ทจะนาเทคนควธ หรอ Algorithm มาใชกบขอมล ในขณะทมอปกรณและเครองมอสมยใหมตาง ๆ ทเออประโยชนในการพฒนา ความสามารถของเครองคอมพวเตอรกววฒนาการอยางรวดเรว มประสทธภาพสง ความจมหาศาล แตถาเราไมสามารถทจะใชสงทมอยไดอยางเตมประสทธภาพและคมคา ยอมจะสงผลตอระบบงานทลาหลง ลาสมย ขาดการวเคราะหและสกดขอมลทซอนเรนอยในฐานขอมลนนขนมาใชประโยชนอยางทควรจะเปน และนนกบงบกถงประสทธภาพของบคคลทขาดความคดสรางสรรค ขาดความสามารถ องคกรของเรากจะลาหลงในธรกจ ตามคแขงไมทน ขาดขอมลขาวสารทจะนาไปสรางกลยทธ และสรางความไดเปรยบใหกบองคกร และมนอาจจะนามาซงอนาคตขององคกร วาจะสามารถคงอยไดหรอไม กบสภาวการณการแขงขนดานธรกจในปจจบนทมความรนแรง

ดงนนเราควรทาความรจกกบ การแสวงหาความรใหมดวยเทคนคของการการทาเหมองขอมล (Data Mining: Concepts and Techniques) ดงตอไปน 5.1 เหมองขอมล (Data Mining)

Data Mining คอ การคนหาความสมพนธและรปแบบ(Pattern) ทงหมด ซงมอยจรงในฐานขอมล แตไดถกซอนไวภายในขอมลจานวนมาก Data Mining จะทาการสารวจและวเคราะหอยางอตโนมตหรอกงอตโนมต ในปรมาณขอมลจานวนมากใหอยในรปแบบทเตมไปดวยความหมายและอยในรปของกฎ (Rule) โดยความสมพนธเหลานแสดงใหเหนถงความรตาง ๆ ทมประโยชนในฐานขอมล

47

Data Mining จะเปนการสงเคราะหขอมลอยางละเอยดจากฐานขอมลขนาดใหญ หรออาจวเคราะหมาจากรายการ Transaction โดยเรยนรขอมลจากอดต หรอปจจบนผลลพธทไดจากการสงเคราะหของ Data Mining อาจจะเปนขอมลแบบ Unknow , Valid, หรอ Actionable ซงความหมายของขอมลทง 3 ประเภทน มดงน 1. ขอมลแบบ Unknow เปนขอมลทผใชงานไมเคยรมากอน ไมชดเจน ไมสามารถตงสมมตฐานลวงหนาวาจะเปนแบบใด เชน

Ex : หางสรรสนคาแหงหนงคนพบพฤตกรรมของผบรโภค ทพอบานมกซอเบยรและผาออมในวนศกรตอนเยน ดงนนเปนสญญาณใหเจาของกจการควรจะเตรยมสนคาไวเพอจาหนาย ในขณะทหางคแขงอาจจะไมรขอมลเหลาน

Ex: เจาของรานขายรถยนตพบวารถยนตขนาดใหญ ราคาแพงมกจะถกซอโดยคนทสงอาย ซงเจาของรานไมเคยรมากอน แตขอมลดงกลาวไมเปนลกษณะของ Unknow เพราะสมมตฐานดงกลาวมอย คอ คนทมอายมกมฐานะดขน เมอเทยบกบคนในวยทอายนอย 2. ขอมลแบบ Valid เมอผใชเรมใชเทคนคของ Data Mining จะคนพบสงทนาสนใจตลอดเวลา แตจะตองพจารณาดวยวาสงนนถกตอง (Valid) หรอไม เชน มกจะพบวามความสมพนธของการซอสนคา 2 อยางเสมอ เมอจานวนความหลากหลายของสนคามากขน แตไมไดหมายความวาจะตองใหหางสรรพสนคา เกบสนคาในคลงมากขน เพราะขอมลทไดอาจเกดความคลาดเคลอน เพราะฉะนนจะตองทาการตรวจสอบความถกตอง (Validation and Checking) ของขอมลและวเคราะหความถกตองอกครง

3. ขอมลแบบ Actionable : ขอมลจะตองถกแปลงออกมาและนามาตดสนใจ เพอสรางความไดเปรยบในเชงธรกจ บางครงขอมลทเราคนพบเปนสงทคแขงไดทาไปเสยแลว (เราชาไป) หรออาจผดกฎหมาย ซงจะตองมวจารณญาณในการใชดวย บางทขอมลดงกลาวอาจไมมประโยชนอะไร 5.2 ววฒนาการของ Data Mining

1. ป ค.ศ 1960 :Data Collection มการนาขอมลมาจดเกบอยางเหมาะสมในอปกรณทนาเชอถอ เพอ ปองกนการสญหายไดเปนอยางด

2. ป 1980: Data Access มการนาขอมลทจดเกบมาสรางความสมพนธระหวางกน เพอนาไป วเคราะห และตดสนใจอยางมประสทธภาพ

3. ป 1990: Data Warehouse and Dicision Support มการนาขอมลมาเกบลงในฐานขอมลขนาดใหญ ครอบคลมการใชงานทงหมดขององคกร เพอชวยสนบสนนการตดสนใจ

4. ป 2000 : Data Mining นาขอมลจากฐานขอมลมาวเคราะหและประมวลผล โดยสรางแบบจาลอง และความสมพนธทางสถต 5.3 วตถประสงคในการใช Data Mining

1. เพอการคนพบองคความรใหมในฐานขอมล (Knowledge discovery in databases) 2. เพอการสกดองคความรทซอนเรนอย (Knowledge extraction)

48

3. เพอจดการกบขอมลในอดต (Data archeology) 4. เพอสารวจขอมล (Data exploration) 5. เพอคนหา Pattern ของขอมลทซอนอย (Data pattern processing) 6. เพอใชขดเจาะขอมล (Data dredging) 7. เพอเกบเกยวผลประโยชนใหไดมาซงสารสนเทศทมประโยชน

5.4 เปาหมายหลกของ Data Mining

คณลกษณะและเปาหมายหลกของ Data Mining คอ ใชสกลบหรอคนหา Pattern ของขอมลทฝงลกและซอนเรนอยภายในฐานขอมลขนาดใหญ โดยใชสถาปตยกรรม Client-Server (Client/server architecture) ใชเครองมอสมยใหมทสามารถแสดงผลแบบกราฟฟก ผใชสามารถดขอมลแบบเจาะลก (data drills) และสามารถใชเครองมอในการสอบถามขอมลไดอยางงายดาย โดยไมตองอาศยความชานาญของ programmer บอยครงเราอาจคนพบผลลพธทเราไมคาดหวงมากอน เครองมอจะทาใหเราใชงานไดงาย ซงเครองมอนอกจากจะแสดงผลกราฟกไดแลวยงรวม Spreadsheets เอาไวดวย 5.5 กระบวนการของ Data Mining (A KDD Process)

เปนกระบวนการในการคนหาลกษณะแฝงของขอมล (Pattern) ทซอนอยในฐานขอมล

ภาพท 5.1 กระบวนการของ Data Mining (KDD : Knowledge Discovery in Database)

Databases

Data Cleaning

Data Integration

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

49

ขนตอนของการคนหาความรใหม (Steps of a KDD Process)

เรยนรและศกษาเกยวกบโปรแกรมทจะใช (Learning the application domain) 1. 2. คดเลอกขอมล (data selection) เปนการระบถงแหลงขอมลทจะนามาทา mining รวมถงการนา

ขอมลทตองการออกจากฐานขอมล เพอสรางกลมขอมลสาหรบพจารณาในเบองตน 3. การกรองขอมลและประมวลผล (Data cleaning and preprocessing) ขอมลทเกบรวมรวมมามจานวน

มากจะตองนามากรอง เพอเลอกขอมลทตรงประเดน เพราะบางขอมลอาจจะไมเปนประโยชนกบเรา ในขนตอนนเปนขนตอนทเราจะไดมาซงคณภาพของขอมล ทจะนาไปวเคราะห

4. การแปลงรปแบบขอมล (Data reduction and transformation) ลดรปและจดขอมลใหอยในรปแบบ เดยวกน มรปแบบ (Format) ทเปนมาตรฐาน และเหมาะสมทจะนาไปใชกบ Algorithm และแบบจาลองทใชทา Data Mining

5. เลอก Functions ของ data mining เชน summarization, classification, regression, association และ clustering เปนตน

6. เลอก Algorithm ของ data mining เปนเทคนคสาหรบการ Mine ขอมล 7. ทาการคนหา Patterns ทเราสนใจ 8. ประเมนผล Pattern และนาเสนอองคความร ในขนตอนนจะเปนการวเคราะหผลลพธทได และ

แปลความหมาย และประเมนผลวาผลลพธนนเหมาะสมหรอตรงวตถประสงคหรอไมและนาเสนอ 9. ใชองคความรทคนพบ (Use of discovered knowledge)

5.6 ชนดขององคความรทคนพบ (Types of knowledge to be mined)

1. องคความรเกยวกบคณลกษณะของขอมล (Characterization) เชน รวาคนทสามารถเรยนตอในระดบปรญญาเอกไดจะพจาณาไดจากคณลกษณะใด

องคความรเกยวกบการจาแนกขอมล (Discrimination) 2. 3. องคความรเกยวกบความสมพนธของขอมล (Association) เชน มความสมพนธของการซอสนคา

พบวา ถาลกคาปอบคอรน จะตองซอเปบซตามมา องคความรเกยวกบการแยกประเภทขอมลและการพยากรณ (Classification/prediction) 4. องคความรเกยวกบการจดกลมขอมล (Clustering) 5. องคความรเกยวกบการวเคราะหขอมลจากภายนอก (Outlier analysis) 6. องคความรเกยวกบขอมลอน ๆ ในงานทคนพบ (Other data mining tasks) 7.

5.7 Data Mining และ Business Intelligence Data Mining เปนระดบการนาขอมลไปใชทสงกวา Data Warehouse และ Data Mart นาเอาขอมลมาใชเพอการวเคราะหใหเกดประโยชนสงสด เพอชวยสนบสนนการตดสนใจแกฝายบรหาร โดยอาศยกฏเกณฑตาง ๆ ในการทางาน

BI (Business Intelligence) คอ ขอมลสรปทสามารถนามาชวยในการตดสนใจ หรอตอบคาถามในเชงธรกจใหกบผบรหารได ดงนนระบบ BI ทดจะตองสามารถ นาเสนอขอมลสารสนเทศในเชงภาพรวมของธรกจ

50

ทงหมดขององคกรได เพอทาใหขดความสามารถในการวเคราะหขอมลสารสนเทศด เนองจากสามารถวเคราะหและตอบคาถามของทงระบบธรกจได(http://www.g-able.com/thai/solutions/g-biz/bis.htm) จากภาพ 5.2 จะเหนวา Data Mining เปนสวนประกอบอนใหม ทมความสาคญของ BI(Business Intelligence) อยางหนง คณคาของขอมลทใชสนบสนนการตดสนใจจะเพมขนเรอย ๆ จากดานลางสดานบนสดของปรามด

ภาพท 5.2 เหมองขอมลและเครองมอทางธรกจ

(Data Mining and Business Intelligence : Cabena et al., 1997) 5.8 สถาปตยกรรมของ Data Mining (Architecture of a Typical Data Mining System)

ภาพท 5.3 Architecture of a Typical Data Mining System

51

ประเภทของขอมลทจะใชใน Data Mining 1. ขอมลทมาจากฐานขอมลเชงสมพนธ (Relational databases) 2. ขอมลจากคลงขอมล (Data warehouses) 3. ขอมลจากฐานขอมลรายการปรบปรง (Transactional databases) 4. จากฐานขอมลพเศษหรอทเกบขาวสารพเศษ ซงไดแก

- ฐานขอมลเชงวตถ ขอมลเกยวกบเวลา -

- ฐานขอมลขอความ (Text databases) และฐานขอมลมลตมเดย ฐานขอมลแบบเกาในอดตหรอขอมลทมาจากตางฐานขอมลกน - ขอมลจากแหลง WWW -

5.9 Data Mining Functionalities (Data Mining Task) งานของ Data Mining สามารถทางานในการขดคนขอมล ดงน

1. การวเคราะหคณสมบตและการแยกแยะขอมล (Characterization and discrimination) 2. การหาความสมพนธของขอมล (Association) 3. การจดหมวดหมและการวเคราะหการถดถอย (Classification/ Regression)

การจดหมวดหม (Classification) ตวอยางของการจดหมวดหม ทนามาใชกบงานดานธรกจ เชน มนกวเคราะหขององคกร

แหงหนงตองการรเหตผลวา “ทาไมถกคาบางกลมถงยงคงซอสตยจงรกภกดตอยหอสนคา (Band Loyalty) ขององคกร และขณะเดยวกนกมลกคาอกกลมทเปลยนใจไปหาคแขง “ ในการหาคาตอบน นกวเคราะหตองทานายลกษณะนสยของลกคาทองคกรอาจตองเสยไปใหกบคแขง ดงนนเมอมเปาหมายคอ “อยากทราบเหตผล” นกวเคราะหสามารถนาขอมลการซอสนคา ของลกคาในอดตมาทดลองกบแบบจาลองเพอวเคราะหผลวาทาไมลกคาบางกลมซอสตย บางกลมไมซอสตย

จดประสงคคอ : ตองการศกษา “ออบเจคลกคา” โดยสมมตใหออบเจคลกคา ม Field ทเกยวของ ดงน Table: Cutomer

Field Data Type Value Description Cus_id Int unique รหสลกคา Time Int Integer ระยะเวลาทลกคาอยกบองคกร Trend Text เพมขน, คงท, ลดลง ตวบงชแนวโนมการใชสนคา 6 เดอนลาสด Status Text สง,กลาง, ตา, ไมทราบ การสารวจผลความพอใจของลกคา

ซอสตย,ไมซอสตย Cus_type Text ลกคายงคงอยกบองคกรหรอเสยไปใหคแขง

ตารางท 5.1 แสดงตารางขอมลเกยวกบลกคา

52

คาตอบทเราตองการ (Output) คอรหสลกคา (Cus_type) ถอเปนตวแปรตาม(Dependent vairable) ซงผลของตวแปรตามจะขนอยกบตวแปรอสระ ((Independent vairable) ในทนคอฟลด Time, Trend และ Status มหลายเทคนคของ Data Mining ทใชในการแกปญหาแบบ Classification แตละเทคนคกจะมหลาย Algorithm ใหเลอกและแตละ Algorithm จะใหผลลพธทตางกน ซงปญหาประเภทนจะใหผลลพธเปนคาทแนนอน เชน อาจจะไดคาตอบเปน (Yes, No) หรอ (High, Medium, Low) เปนตน

เทคนคของ Data Mining ทใช ในการแกปญหาแบบ Classification ไดแก 1. Decision Tree 2. Neural Networks 3. Naïve-Bayes 4. K-nearest neighbor (K-NN)

การวเคราะหการถดถอย (Regression) ปญหาแบบ Regression จะเหมอนกบแบบ Classification ตางกนตรงทผลลพธทไดจาก Regression เปนคาแนนอน ทไมจากด จะเปนคาอะไรกได เชน แบบจาลองทานายวา นาย B จะตอบรบขอเสนอของบรษท ถานาย B ไดรบผลกาไร 1,000 บาท (1,000 เปนคาตอบเฉพาะทแนนอน แตไมจากด ซงตวเลขอาจจะเปนคาอนไปไดเรอย ๆ ตางจากคาตอบแบบ Yes, No )

4. การวเคราะหการรวมกลม หรอ การแบงแยกขอมล (Cluster analysis/ Segmentation) การวเคราะหการรวมกลม (Clustering) เปนการรวมกลมขอมลทมลกษณะเหมอนกน รปแบบหรอแนวโนมทจะเหมอนกน การใชเทคนค Clustering จะไมมผลลพธ (Output) ไมมตวแปรอสระ (Independent Variable) ไมมการจดโครงรางของวตถ เราจะเรยกเทคนคของ Clustering วาเปนแบบเรยนรขอมลโดยไมตองอาศยครสอน(Unsupervied Learning) การทา Clustering จะทาบนพนฐานของขอมลในอดต Ex : องคกรตองการทราบความเหมอนทมในกลมของลกคาของตน เพอทจะใหเขาใจลกษณะเฉพาะของลกคากลมเปาหมาย และสรางกลมของลกคาเพอทองคกรจะไดสามารถขายสนคาไดในอนาคต องคกรจะทาการแยกกลมของขอมลลกคาออกเปนกลม ๆ (หาสวนทเปน Intersection และ Union) เทคนคของ Data Mining เพอแกปญหาแบบ Clustering คอวธ Demographic Clustering กบ Neural Clustering

5. การประเมนและการพยากรณ (Estimation/Prediction) การประเมน (Estimation)

เปนการประเมนทไมสามารถกาหนดคาหรอคณสมบตทชดเจนได ใชจดการกบคาทมผล แบบตอเนอง เชน ใชประเมนรายไดของครอบครว ประเมนความสงของบคคลในครอบครว ประเมนจานวนเดกๆ ในครอบครว

53

การพยากรณ (Prediction) จะเหมอนกบ Classification และ Estimation ตางกนตรงท Record ถกแยกจดลาดบในการ

ทานายคาในอนาคต และนาขอมลในอดตมาสรางเปนแบบจาลอง ใชทานายสงทจะเกดขนในอนาคต เชน การทานายวาลกคากลมใด ทองคกรจะสญเสยไปในอก 6 เดอนขางหนา หรอ การทานายยอดซอของลกคาจะเปนเทาใด ถาบรษทลดราคาสนคาลง 10%

6. การบรรยายและการแสดงภาพของขอมล (Description / Visualization) การบรรยาย (Description)

เปนการหาคาอธบายถงสงทจะเกดขน โดยอาศยขอมลจากฐานขอมล เชน กลมคนทม การศกษาหรอรายไดนอย จะเลอกนกการเมองทมนโยบายทนนยม มากกวากลมคนชนกลาง

การแสดงภาพของขอมล (Visualization) เปนการนาเสนอขอมลในรปแบบกราฟฟก หรออาจนาเสนอในแบบ 2 มต สรางรายละเอยด

ในการนาเสนอใหเขาใจมากยงขน เชน องคกรตองการหาสถานทในขยายสาขาใหมทอยในเขตพนทภาคเหนอของประเทศ ดงนนองคกรจงใชแผนท Plot ทตงขององคกรคแขงทมสาขาอยในเขตนน เพอพจารณาสถานทตงทเหมาะสมทสด 5.10 เครองมอและเทคโนโลยของ Data Mining (Data Mining Tools and Technologies)

1. Neural Network เปนแนวคดใหคอมพวเตอรทางานสมองของมนษย เปลยนตวเองจากการประมวลผลตามลาดบ (Sequential Processing) ใหเปนการประมวลผลแบบคขนานได (Parallel Processing) มลกษณะการทางานโดยแต Process จะรบ Input เขาไปคานวณ และสราง Output ออกมาในลกษณะทไมใชการทางานแบบเชงเสนตรง เพราะ Input แตละตวจะถกใหลาดบความสาคญของคาไมเทากน คาของ Output ทไดจากการเชอมโยงกนน จะถกนามาเปรยบเทยบกบ Output ทไดตงเอาไว ถาคาทออกมาเกดความคลาดเคลอน กจะนาไปสการปรบคาหรอนาหนก (weight) ของคาทใสไวใหแตละ Input Neural Network เปนการสรางแบบจาลอง ทเลยนแบบการทางานของสมองมนษย มโครงสรางเปนกลมของ Node ทเชอมโยงถงกนในแตละ Layer คอ Input layer, Hidden layer, output layer

รปท 5.4 ตวอยางของ Neural Network

54

2. Decision Trees เปนการนาขอมลมาสรางแบบจาลองการพยากรณในรปแบบ

โครงสรางตนไม(Decision Trees) ซง Decision Trees จะมการทางานแบบ Supervised Learning (คอการเรยนรแบบมครสอน) สามารถสรางแบบจาลองการจดหมวดหมไดจากกลมตวอยางขอมลทกาหนดไวกอนลวงหนา เรยกวา Training set ไดอตโนมต และพยากรกลมของรายการทยงไมเคยนามาจดหมวดหม ไดดวยรปแบบของ Tree โครงสรางประกอบดวย Root Node, Child และ Leaf Node

3. Memory Based Reasoning (MBR) เปรยบเหมอนกบประสบการณ การเรยนรของ มนษย ซงอาศยการสงเกตทเกดขน แลวสรางรปแบบของสงนนขนมา เราใช MBR เพอวเคราะหฐานขอมลทมอย และกาหนดลกษณะพเศษของขอมลทอยในนน ซงขอมลจะตองมลกษณะทสมบรณ การสงเกตจงจะสมบรณและทานายผลไดแมนยายงขน แบบจาลองจะถกบอกคาตอบทถกตอง มการเกบคาตอบสาหรบแกปญหาไวกอนลวงหนาแลว (Supervised Learning) 4. Cluster Detection คอจะแบงฐานขอมลออกเปนสวน ๆ เรยกวา Segment (กลม Record ทมลกษณะคลายกน) สวน Record ทตางกนกจะอยนอก Segment, Cluster Detection ถกใชเพอคนหากลมยอย (Sub Group) ทเหมอน ๆ กนในฐานขอมล เพอทจะเพมความถกตองในการวเคราะห และสามารถมงไปยงกลมเปาหมายไดถกตอง 5. Link Analysis มงเนนทางานบน Record ทมความสมพนธกน หรอเรยกวา Association เทคนคนจะมงไปทรปแบบการซอหรอเหตการณทเกดขนเปนลาดบ มอย 3 เทคนค คอ 5.1 Association Discovery ใชวเคราะหการซอขายสนคาในรายการเดยวกน ศกษาความสมพนธอยางใกลชดทถกปดซอนอยของสนคา ซงสนคาเหลานนอาจมแนวโนมทจะถกซอควบคกนไป การวเคราะหแบบนเรยกวา Market Basket Analysis คอ รายการทงหมดทลกคาซอตอครงท Super market การวเคราะหนสามารถนามาใชประโยชนในการตดสนใจ เชน การเตรยมสนคาคงเหลอ การวางแผนจดชนวางสนคา การทา Mailing list สาหรบ Direct Mail การวางแผนเพอจด Promotion สนบสนนการขาย ตวอยางของ Association เชน 75% ของผซอนาอดลมจะซอขาวโพดควดวย 5.2 Sequential Pattern Discovery ถกใชระบความเกยวเนองกนของการซอสนคาของลกคา มจดหมายทจะเขาใจพฤตกรรมการซอสนคาของลกคาในลกษณะ logn term เชน ผขายอาจพบวาลกคาทซอ TV มแนวโนมทจะซอ VDO ในเวลาตอมา 5.3 Similar Time Sequence Discovery คนหาความเกยวเนองกนระหวางขอมล 2 กลม ซงขนตอกนทางดานเวลา โดยมรปแบบการเคลอนทเหมอนกน ผขายสนคามกใชเพอดแนวโนมเพอเตรยม Stock เชน เมอไรกตามทยอดขายสนคานาอดลมสงขน ยอดขายมนฝรงจะสงขนตาม 6. Genetic Algorithm (GA) เปรยบเสมอนเปนการสรางพนธกรรมทดสด บนขนตอนของววฒนาการทางชวภาพ แนวคดหลกคอ เมอเวลาผานไป ววฒนาการของเซลลชวตจะเลอกสายพนธทดทสด “Fittest Species” GA มความสามารถในการทางานแบบรวมกลมเขาดวยกน เชน มการแบงกลมและจดรวมกลมขอมลเปน 3 ชด ขนตอนการทางานของ GA เรมจาก - จบกลมขอมลเปนกลม ๆ ดวยการสมเดา เปรยบเหมอนกลม 3 กลมนเปนเซลลของสงมชวต GA จะม Fittest Function ทจะบอกวากลมขอมลใดเหมาะกบกลม ๆ ใด โดย Fittest Function จะเปนตวบงชวาขอมลเหมาะกบกลมมากกวาขอมลอน ๆ

55

- GA จะม Operator ซงยอมใหมการเลยนแบบและแกไขลกษณะของกลมขอมล Operator จะจาลองหนาทของชวตทถกพบในธรรมชาต คอ มการแพรพนธ จบคผสมพนธ และเปลยนรปรางตามตนแบบของพนธกรรม เปรยบกบขอมลถามขอมลใดในกลมถกพบวาตรงกบคณสมบตของ Fittest function แลว มนจะคงอยและถกถายเขาไปในกลมนน แตถาไมตรงกบคณสมบต กยงมโอกาสทจะถายขามไปยงกลมอนได 7. Rule Induction ดงเอาชดกฎเกณฑตาง ๆ มาสรางเปนเงอนไขหรอกรณ วธการของ Rule Induction จะสรางชดของกฎทเปนอสระ ซงไมจาเปนตองอยในรปแบบของโครงสรางตนไม 8. K-nearest neighbor (K-NN) จะใชวธในการจดแบงคลาส โดยจะตดสนใจวาคลาสไหนทจะแทนเงอนไขหรอกรณใหม ๆ ไดบาง โดยการตรวจสอบจานวนบางจานวนของกรณหรอเงอนไขทเหมอนกนหรอใกลเคยงกนมากทสด โดยจะหาผลรวม (Count Up) ของจานวนเงอนไข หรอกรณตาง ๆ สาหรบแตละคลาส และกาหนดเงอนไขใหม ๆ ใหคลาสทเหมอนกนกบคลาสทใกลเคยงกบมนมากทสด K-NN คอนขางใชปรมาณงานในการคานวณสงมากบนคอมพวเตอร เพราะเวลาสาหรบการคานวณจะเพมขนแบบแฟคทอเรยล ตามจานวนจดทงหมด เทคนคของ K-NN จะมการคานวณเกดขนทกครงทมกรณใหม ๆ เกดขน ดงนนถาจะใหเทคนคแบบ K-NN ทางานไดเรว ขอมลทใชบอยควรเกบอยใน MBR (Memory-Based Reasoning) 9. Association and Sequence Detection

- Association ใชหากฎความสมพนธทเกดขนระหวางกลมของขอมล (Item) ตาง ๆ ใชใน Market-basket analysis อาจใชเพอวเคราะหการสงซอสนคา

- Sequence Detection เหมอนกบ Association แตจะนาเหตการณทเกดขน และเพมตวแปร ดานเวลาเขามาเกยวของดวย เพอใชวเคราะหพฤตกรรมของขอมล

การเขยนความสมพนธ (Association) เชน AB หมายถง เปนเหตการณทเกดขนกอน (Antecedent) หรอ LHS (Left-Hand Side) A

B เปนผลของเหตการณ (Consequent) หรอ RHS (Right- Hand Side) เชน ในกฎของความสมพนธ “ถาซอคอน แลวจะซอตะป “ เหตการณทเกดขนกอนคอ คอน เกดหลง

คอ ตะป 10. Logic Regression เปนการวเคราะหความถดถอยแบบเสนตรงทวๆ ไป ใชในการพยากรณผลลพธ

ของ 2 ตวแปร เชน Yes/No , 0/1 แตเนองจากตวแปรตาม (Dependent Variable) มคาเพยง 2 อยางเทานน จงไมสามารถสรางแบบจาลอง (Model) ไดสาหรบการวเคราะหแบบ Logic Regression

ดงนนแทนทจะทาการพยากรณโดยอาศยเพยงคาของตวแปรตามทได เราจะสราง Model โดยอาศย Algorithm ของความนาจะเปนของการเกดเหตการณ เราเรยก Algorithm นวา Log Odds หรอ Logic Transtromation

อตราสวนความนาจะเปน : ความนาจะเปนทจะเกดเหตการณ

ความนาจะเปนทจะไมเกดเหตการณ

56

11. Discriminant Analysis : เปนวธการทางคณตศาสตรทเกาแกวธหนงซงใชในการจาแนก และวเคราะห วธนไดรบการเผยแพรครงแรกในป 1936 โดย R.A Fisher เพอแยกตน Iris ออกเปน 3 พนธ วธการนทาใหคนพบตนไมประเภทอน ๆ อกมาก ผลลพธทไดจากแบบจาลองชนดนงายตอการทาความเขาใจ เพราะผใชงานทว ๆ ไปกสามารถพจาณาไดวาผลลพธจะอยทางดานใดของเสนทางในแบบจาลอง การเรยนรสามารถทาไดงาย วธการทใชมความไวตอรปแบบของขอมล วธนถกนามาใชมาในทางการแพทย สงคมวทยา และชววทยา แตไมเปนทนยมในการทา Data Mining 12. Generalized Additive Models (GAM) : พฒนามาจาก Linear Regression และ Logistic Regression มการตงสมมตฐานวา Model สามารถเขยนออกมาไดในรปของผลรวมของ Possibly Non-Linear Function GAM สามารถใชไดกบปญหาแบบ Regression และ Classification GAM จะใชความสามารถของคอมพวเตอรในการคนหารปแบบอง Function ทให Curve ทเหมาะสม ทาการรวมคาความสมพนธตาง ๆ เขาดวยกน แทนทจะใช Parameter จานวนมาก เหมอนท Neural Network ใช แต GAM จะกาวไปเหนอกวานนอกขนหนง GAM จะประเมนคาของ Output ในแตละ Input เชนเดยวกบ Neural Network GAM จะสรางเสนโคงขนมาอยางอตโนมต โดยอาศยขอมลทมอย 13. Multivariate Adaptive Regression Splits (MARS) : ถกคดคนเมอกลางทศวรรษท 80 โดย Jerome H. Friedman หนงในผคดคน CART MARS สามารถทจะคนหาและแสดงรายการตวแปรอสระทมความสาคญสงสดเชนเดยวกบปฏสมพนธระหวางตวแปรอสระ และ MARS สามารถ Plot จดแสดงความเปนอสระของแตละตวแปรอสระ ออกมาได ผลลพธทไดกคอ Non-Linear Step-wise regression tools ความสามารถทหลากหลายของ Data Mining

ภาพท 5.5 Data Mining: Confluence of Multiple Disciplines

57

5.11 การประยกตใช Data Mining กบงานดานธรกจ สามารถนาเทคนคของ Data Mining ไปวเคราะหขอมลในฐานขอมล เพอนาขอมลทไดไปใชประโยชนในงานดานตาง ๆ ดงตอไปน

1. งานดานการตลาด (Marketing) เชน การทา Promotion สงเสรมการขาย 2. งานดานธนาคารและการเงน (Banking / Financial Analysis) เชน ใชในการวเคราะหการใหสนเชอแก

ลกคา การจดทา Package ในการกยม การทานายอตราการจายเงนก การแบงกลมลกคาเพอหาเปาหมายทางการตลาด (ลกคาชนด)

3. งานดานการขายปลก (Retailing and sales) เปนงานทมการเกบขอมลจานวนมาก ประยกตใชเพอหา กลยทธ ทาใหเกดการไดเปรยบคแขงทางการคาในการหาลกษณะการซอของลกคา ความสมพนธของการซอกบชวงเวลา ความสมพนธระหวางตวสนคา และการวเคราะหประสทธภาพของการโฆษณา เปนตน ชวยใหสามารถหาวธการตอบสนองความตองการของลกคาไดมากทสด และอาจหมายถงสวนแบงทางการตลาดทเพมขนนนเอง

4. งานดานการวางแผนในการผลตสนคา (Manufacturing and production) เชน การพยาการณยอด จานวนการผลตสนคาเพอใหไดกาไรมากสด

5. งานดานนายหนาและความปลอดภยดานการคา (Brokerage and securities trading) เชน การพฒนา วธการเพอสรางความเชอมนในเรองความปลอดภยของขอมล ในขณะทมการพฒนาวธการเขาถงขอมล การและ Mining ใหสะดวกตอการใชงานมากขน

6. งานดานชวการแพทยและวเคราะห DNA (Biomedical an DNA Analysis) เชน การวเคราะหรปแบบ การจดเรยงตวของหนวยพนธกรรม เพอหาสาเหตความผดปกตททาใหเกดโรค รวมไปถงดานการวนจฉยโรค การปองกน และการรกษา

นอกจากทกลาวมา ยงนาไปประยกใชกบธรกจทางดานประกนภย (Insurance), Computer hardware

และ software, หนวยงานรฐบาลและกระทรวงกลาโหม (Government and defense), สายการบน (Airlines), งานดานสขภาพ (Health care), งานดานการขาว (Broadcasting) และงานดานกฎหมาย (Law enforcement) ไดอกดวย 5.12 Intelligent Data Mining

ใช Intelligent Data Mining เพอการคนพบขอมลและขาวสารภายในคลงขอมล (Data warehouses) ทซงการสอบถามและการออกรายงาน (Reports) นนจะไมแสดงผลออกมา เชน การคนหา Patterns ในขอมลและลงความเหนตามกฎ ทเราไดกาหนดไว การใช Patterns และ Rules ในการแนะแนวทางการตดสนใจและ การทานาย ซงขอมลทจดเปน Intelligent Data Mining ไดแก ขอมลขาวสาร 5 ประเภท ตอไปน

1) ขอมลความสมพนธ (association) 2) ขอมลการจดลาดบ (sequences) 3) ขอมลการแยกประเภทหรอจดหมวดหม (classifications)

ขอมลการแบงกลมหรอจดกลม (clusters) 4)

58

5) ขอมลการทานายหรอพยากรณ (forecasting)

ภาพท 5.6 ขนตอนการเกบรวบรวมขอมลเพอประมวลผลใน Data Mining

5.13 เครองมอหลกทใชใน Intelligent Data Mining

สามารถใชเครองมอหรอเทคนคตอไปนในการขดคนขอมลใน Intelligent data mining 1. Case-based Reasoning 2. Neural Computing 3. Intelligent Agents 4. เครองมอชนดอน ๆ (Other Tools) ไดแก

- Decision trees - Rule induction - Data visualization

5.14 ตวอยางการวเคราะหของ Data Mining ขอแนะนาตวอยางการวเคราะหขอมลภายใน Data Mining ดวยเทคนคดงตอไปน 5.14.1 Association Rule ใชในการหากฎความสมพนธซงกนและกน ของสนคา 2 ประเภท โดย

คานวณหาคาสนบสนน (support) และคาความนาเชอมน (Confidence) ดงน

59

สตร : การคานวณหาคา Support Support (คาสนบสนน) = A B

= P(A B) A Intersec B

สตร : การคานวณหาคา Confidence คาความนาเชอถอ) = P(A/B) Confidence (

= P(A B) P(A) ตวอยาง 1 : จงคานวณหาคา Support ของ A C และคา Confidence ของ P(A/C) ของขอมลการขายสนคาในตารางน

Transaction ID Items Bought

2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F

ตารางท 5.2 Step :

1. นบ Transaction ใน DB 2. เลอก Item ทตองการ 3. สญลกษณ หมายถง Associate (มความสมพนธ)

Solve : สตร

Support (คาสนบสนน)= A C = P(A C) = 2/4

= 0.5 = 50%

60

คาความนาเชอถอ) = P(A/C) = P(A C) Confidence ( P(A) = (2/4) / (3/4) = 0.5/0.75 = 0.6666 = 66.66% ดงนนน A C = (50%, 66.66%) อธบายไดวา สนคา 100 รายการ (Transaction) ขายสนคา A กบ C รวมกนได 50 รายการ ถากระตนสนคา A ลกคาจะซอสนคา C ตามมา 66.66% หมายเหต : A คอเหตการณทเกดกอน C คอผลทตามมาหลงจากเกดเหตการณ A AC มคาเทากบ CA แต P(A/C) ไมเทากบ P(C/A) ประโยชนของ Association Rule

1. เปนการวเคราะหขอมลจากฐานขอมลในอดตและปจจบน เพอหาความสมพนธของสนคาสอง รายการ เพอใหทราบการซอสนคาทขนตอกน ยอดขายสนคาประเภทหนงอาจขนอยกบการขายสนคาอกประเภทหนง ผจดการหรอเจาของรานจะไดวางแผนในการจดทา Promotion สนคาเพอสงเสรมการขายไดอยางถกตอง หรอเตรยมวางแผนในดานการจดชนวางสนคา (Shelf) ไดอยางเหมาะสม

2. ใชสรางความไดเปรยบในการแขงขน

61

แบบฝกหด Association Rule จากตาราง 5.2 จงวเคราะหหาความสมพนธของสนคา 2 รายการ ตามโจทยตอไปน

1. จงแสดงวธคานวณหาคา Support ของ C A , และหาคา Confidence ของ P(C/A) Solve :

2. จงแสดงวธคานวณหาคา Support ของ A B , และหาคา Confidence ของ P(A/B)

Solve :

3. จงแสดงวธคานวณหาคา Support ของ D A , และหาคา Confidence ของ P(D/A)

Solve :

4. จงแสดงวธคานวณหาคา Support ของ E B , และหาคา Confidence ของ P(E/B)

Solve :

62

5. จงแสดงวธคานวณหาคา Support ของ B F , และหาคา Confidence ของ P(B/F) Solve :

6. จากตารางท 5.3 จงแสดงวธคานวณหาคา Support ของ E D , และหาคา Confidence ของ P(E/D)

Transaction ID Items Bought 2000 A,B,C,F,D 1000 A,C,D,E 4000 A,D,E 5000 B,E,F 6000 C,E,D 7000 E,F,A 8000 F,E,C 9000 F,A,B

ตารางท 5.3

Solve :

7. จากตารางท 5.3 อยากทราบวา สามารถขายสนคา A,D,E รวมกนได คดเปนกเปอรเซนต และหากมการกระตนสนคา A และ D จะทาใหสามารถขายสนคา E ตามมา คดเปนกเปอรเซนต Solve :

63

5.14.2 Interestingness Measures

Interest จะใชในการวเคราะหหาวาสนคา 2 รายการนน ขนตอกนหรอไม เนองจากการซอสนคานน สนคาบางประเภทลกคาจะซอกตอเมอมนเปนผลสบเนองจากการซอสนคาอกประเภทหนง เชน การซอขาวโพดควขนอยกบการซอนาอดลม การซอตะปขนอยกบการซอคอน เปนตน

จะวเคราะหจากคาทเราสนใจ คาตอบทไดจากผลของการวเคราะหมสอง Interest กรณคอ

1. Dependence : หมายถง สนคา 2 ชนดนน “ขนตอกน” ตวเลขของผลการ วเคราะหจะ > 1 ซงเปนคา Positive

2. Independence: หมายถง สนคา 2 ชนดนน “เปนอสระไมขนตอกน” ตวเลขของ ผลการวเคราะหจะ < = 1 ซงเปนคา Negative

สตรการหาคา Interest = P(A^B) P(A).P(B) ตวอยาง 1: จากตาราง 5.4 จงคานวณหาคา Support และคา Interest ของกลมสนคา

X 1 1 1 1 0 0 0 0 Y 1 1 0 0 0 0 0 0 Z 0 1 1 1 1 1 1 1

ตาราง 5.4

Solve : 1. จากสตรการหาคา Interest = P(A^B) P(A).P(B) X 1 1 1 1 0 0 0 0 = 4/8 Y 1 1 0 0 0 0 0 0 = 2/8 Z 0 1 1 1 1 1 1 1 = 7/8

64

Tem Set Support Interest Description

X,Y = 2/8 = 0.25 = 50%

=(2/8) / (4/8).(2/8) = 0.25/0.125 = 2

>1 เปน Dependence (X,Y ขนตอกน)

X,Z = 3/8 = 0.375 = 37.50%

=(3/8) / (4/8).(7/8) = 0.375 / 0.438 = 0.86

< =1 เปน Independence (X,Z เปนอสระจากกน)

Y,Z = 1/8 = 0.125 = 12.50%

=(1/8) / (2/8).(7/8) = 0.125 / 0.218 = 0.57

< =1 เปน Independence (Y,Z เปนอสระจากกน)

5.14.3 Dissimilarity Between Binary Variable

ใชวเคราะหกลมขอมล วาอยในกลมเดยวกนหรอไม มความใกลชดกนหรอไม ถาตวเลขทวเคราะหไดมคานอย หมายถง มความแตกตางกนนอย (ใกลชดกนมาก) จะจดอยในกลม (Group) เดยวกน ซง

มเพยง 2 คาเทานน คอ 0, 1 หรอสามารถอธบายไดดงน Binary 1) P = Positive =1 =Yes =True 2) N=Negative =0 =No =False ตวอยาง 1: ในการเดนทางไปสมมนาทตางประเทศ ผทเดนทางไปสมมนาจะตองเขาพกทโรงแรมเดยวกน และมหองพกทจดเตรยมไวให ซงหนงในจานวนผเขาสมมนาน มคนทปวยเปนไข (Fever) และมอาการไอ (Cough) ใหหาวาทง 3 คนน Jack, Mary และ Jim คใดมความไกลชดกนมากทสด และมโอกาสตดเชอหวดมากทสด

Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4

Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N

ตาราง 5.6 Solve: Step: 1. ใหกลบคาในตารางเปน 0 กบ 1 และเตมคา ดงน

Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4

Jack M Y (1) N(0) P(1) N(0) N(0) N(0) Mary F Y(1) N(0) P(1) N(0) P(1) N(0) Jim M Y(1) P(1) N(0) N(0) N(0) N(0)

ตาราง 5.7

65

2. แทนคาลงในสตร Dissimilarity Between Binary Variable ตามสตรตอไปน Object j Binary (i,j) 1 0

A B

C D 1

Object i 0

D(i,j) = b+c a+b+c

3. คานวณหาความแตกตางระหวาง jack และ mary

Mary D(jack,mary) 1 0

1 A (2) B (0)

C (1) D (3) Jack

0

D(Jack,Mary) = b+c = 0+1 = 1 = 0.33 a+b+c 2+0+1 3

D(Jack,Jim) =0.67 D(Jim,Mary) =0.75 สรป : จากการวเคราะหพบวา Jack กบ Mary มความใกลชดกนมากทสด เพราะมความแตกตางนอยทสด คอ 0.33 ทงสองคนปวยเปนไข แตยงไมมอาการไอ ปจจบนจากคาในตารางพบวา Jim ปวยเปนไขและอาการไอ และพบวา Jim มความใกลชดกบ Jack มากกวา Mary ดงนน Jack มโอกาสตดเชอมากทสด และถาหา Jack ไดรบเชอ Mary กจะเปนแนวโนมถดมา หมายเหต : ถาผลลพธทได เปนตวเลขมาก หมายถง มความแตกตางกนมาก แตถาเปนตวเลขนอยหมายถง มความแตกตางกนนอย แสดงวามความใกลชดกนมาก (จดอยในกลมเดยวกน)

66

แบบฝกหด Dissimilarity Between Binary Variable 1. จากตารางขางลางน หาก นฤด และสฟา เปนนกศกษาทเรยนด จงวเคราะหหาคาตอบวา นกศกษาคนใดจะมโอกาสเรยนด ตามมาดวย (ใหวเคราะหหาคนใกลชด นฤด กบ สฟา มาอยางละ 2 คน)

ชอ ขยน เรยนด Test-1 Test-2 Test-3 Test-4 Test-4

นฤด T T T T T T F ณฐมล T F F T T T F สฟา T T T F F T T นรศรา T F F T F T F รญลดา T F F T T F T วชย F F F F T T T

ธนวฒน T F T T F F T แกวมรกต F F F T F F T อมรน T F T T F F T

กตตศกด F F F F T F F ตารางท 5.8

5.14.4 Naive Bayesian Classification จะใชวเคราะหหาความนาจะเปนของสงทยงไมเคยเกดขน Naïve Bayesian Classification

โดยการคาดเดาจากสงทเคยเกดขนมากอน ตวอยาง 1 : ขอมลในตารางขางลางน เปนการเกบสถตของการ “เลนและไมเลนกฬา Tennis” ตามทศนวสย ตาง ๆ ทผานมาในอดต และตอไปนใหทาการวเคราะหวา

โจทย : หากมทศนวสยน “rain, hot, high ,false” มความนาจะเปนทจะเลนกฬา Tennis หรอไม “

ทศนวสยน (Outlook)

อากาศ (Temperature)

ความชน (Humidity)

ลมแรง เลน/ไมเลน (Windy) Class

Sunny (แดดจา) hot high False N sunny Hot high True N

Overcast (ครม) Hot high False P Rain (ฝนตก) Mild high False P

Rain Cool Normal False P Rain Cool Normal True N

Overcast Cool normal True P Sunny Mild high False N

67

แบบฝกหด Naive Bayesian Classification

1. จากตารางท 5.9 หากทศนวสยน X = <overcast,cool,normal,true> จงวเคราะหหาความนาจะเปนใน

การเลน Tenis 2. จากฐานขอมลผปวยโรงพยาบาล Z พบวามการตดเชอ Virus X และผลการตดเชอ เปนดงน

Class “P” หมายความวา ตดเชอ Virus X Class “N” หมายความวา ไมตดเชอ Virus X

สภาวะแวดลอม ไขอณหภม เปนหวด อาเจยน Class

ใช ทองถนน สง รนแรง P แหลงนา ใช ปกต ปานกลาง P

ไม โรงงาน ปกต นอย N ใช ทองถนน ตา รนแรง P ไม โรงงาน ปกต นอย N

แหลงนา ใช ตา ปานกลาง P ไม โรงงาน สง นอย P

แหลงนา ไม ตา รนแรง N

ตารางท 5.10

จงหาโอกาสความนาจะเปนในสถานการณดงตอไปน วามโอกาสตดเชอหรอไมตดเชอมากกวากน ถาคนไขรายใหมน มคณลกษณะดงตอไปน

สภาวะแวดลอม ไขอณหภม เปนหวด อาเจยน Class

ไม ทองถนน สง ปานกลาง ?

5.14.5 Entropy and Information Gain ใชในการวเคราะหคณสมบตเพอหาความนาจะเปนมากสด (Analytical Characterization) เชน

ตองการจะรวา การทนกศกษาจะเรยนในระดบปรญญาตร หรอระดบปรญญาโท พจารณาไดจากคณสมบตใด ซงมลาดบของการวเคราะหอย 3 ขนตอนหลก

1. Information measures info required to classify any arbitrary tuple เปนการวดขาวสารและจาแนก ขาวสารของตารางและฟลด

s

s

s

s,...,s,ss

im

im21 2log)I(

i 1

69

* เปนการคานวณหาคา I (information) ของตาราง และคานวณหาคา I ของ Field

เปนการวดปรมาณคาของฟลดแตละฟลด 2. Entropy of attribute A with values {a1,a2,…,av}

),...,(...

E(A) 1

1

1mjj

v

j

mjjssI

s

ss

* คานวณหาคา Entropy

3. Information gained by branching on attribute A เปนขาวสารทไดรบในแตละฟลด

E(A))s,...,s,I(sGain(A) m21

* คานวณหาคา Information gained ของแตละ Field (attribute)

ตวอยาง 1: ตองการทราบวา การทนกศกษาจะเรยนในระดบปรญญาตรหรอปรญญาโท พจารณาไดจากคณสมบตใด ซงในการวเคราะหจะมการเกบขอมลจากตาราง ขอมลของนกศกษาทง 2 ระดบ มาทาการวเคราะหรวมกน แสดงตวอยางการวเคราะหคณสมบต (Analytical Characterization) ดงตอไปน ตารางท 5.11 Candidate relation for Target class: Graduate students (=120)

gender major birth_country age_range gpa count

M Science Canada 20-25 Very_good 16

F Science Foreign 25-30 Excellent 22

M Engineering Foreign 25-30 Excellent 18

F Science Foreign 25-30 Excellent 25

M Science Canada 20-25 Excellent 21

F Engineering Canada 20-25 Excellent 18

70

gender major birth_country age_range gpa count

M Science Foreign <20 Very_good 18

F Business Canada <20 Fair 20

M Business Canada <20 Fair 22

F Science Canada 20-25 Fair 24

M Engineering Foreign 20-25 Very_good 22

F Engineering Canada <20 Excellent 24

Solve : Step 1: Calculate expected info required to classify an arbitrary tuple

คานวณหาคา I ของตาราง และคานวณหาคา I ของ Field ตามสตรตอไปน

1.1 คานวณหา I ของตารางทง 2 กาหนดใหตารางท 1 เปน S1 และตารางท 2 เปน S2

แสดงวธการคานวณ I ของตาราง ไดดงน S1 S2

= -0.48 log2 0.48 = (-0.48) (log 0.48) log2

-0.52 log2 0.52 (-0.52) (log 0.52) log2

= 0.50826+0.49057 = 0.9988 หมายเหต : log2 = log10A Log102 หรอ log2 = 0.301

s

s

s

s,...,s,ss

im

i

im21 2

1

log)I(

9988.0250

130log

250

130

250

120log

250

120)130,120I()s,I(s 2221

S1 S2 ผลลพธ I ของตาราง

71

1.2 คานวณหา I ของ Field (Column) ซงตารางทง 2 จะมจานวน Field เทากน ทงหมด 5 Field ไดแก

gender, major, birth_country, age_range และ gpa 1.2.1 คานวณหา I ของ Field “major” 1.2.2 คานวณหา I ของ Field “gender” 1.2.3 คานวณหา I ของ Field “birth_country” 1.2.4 คานวณหา I ของ Field “age_range” 1.2.5 คานวณหา I ของ Field “gpa” ตวอยาง : คานวณหา I ของ Field “major” 1.2.1 ใน Field “major” ประกอบดวย 3 Record ทไมซ ากน ไดแก

1. For major = “Science” Solve:

S11 = 84 S21 = 42 sum(S11,S21) = -84 log2 84 126 126 = -0.666 log2 0.666 = (-0.666) (log 0.666) log2

-42 log2 42 126 126 -0.333 log2 0.333 (-0.333) (log 0.333) log2

= 126

= 0.390+0.528 = 0.918

ใหแสดงวธการคานวณหาคา I ของ Field ทเหลอตอไปน

2. For major = “Engineering” Solve:

S12 = 36 S22 = 46 sum(S12,S22)

72

3. For major = “Business” Solve:

S13 = 0 S23 = 42 sum(S13,S23)

สรปคาตอบทไดของ Field “major”

For major=”Science”: S11=84 S21=42 I(s11,s21)=0.9183

For major=”Engineering”: S12=36 S22=46 I(s12,s22)=0.9892

For major=”Business”: S13=0 S23=42 I(s13,s23)=0

1.2.2 คานวณหา I ของ Field “gender”

Solve :

73

1.2.3 คานวณหา I ของ Field “birth_country” Solve :

1.2.4 คานวณหา I ของ Field “age_range” Solve:

74

1.2.5 คานวณหา I ของ Field “gpa” Solve:

75

Step 2 : Calculate entropy of each attribute: e.g. major

คานวณหาคา Entropy จากสตรตอไปน

2.1 คานวณหา Entropy ของ Field “major” 2.2 คานวณหา Entropy ของ Field “gender” 2.3 คานวณหา Entropy ของ Field “birth_country” 2.4 คานวณหา Entropy ของ Field “age_range” 2.5 คานวณหา Entropy ของ Field “gpa” ตวอยาง : คานวณหา Entropy ของ Field “major” 1. แสดงคา Sum และคา I ของแตละ Record ใน Field “major”

Major Sum คา I ทหาได Science (S11,S21) 126 0.918 Engineering(S12,S22) 82 0.989 Business (S13,S23) 42 0

Sum (S1,S2) 250 2. แทนคาลงในสตร

แสดงวธคานวณ (Solve)

),...,(...

E(A) 1

1

1mjj

v

j

mjjssI

s

ss

7873.0),(250

42),(

250

82),(

250

126E(major) 231322122111 ssIssIssI

3.

76

= (126*0.918) + (82*0.989) + (42*0) 250 250 250 = 0.462 + 0.324 + 0 = 0.786 คา Entropy ของ Field “major”

แบบฝกหดการหาคา Entropy

ใหแสดงวธการคานวณหาคา Entropy ของ Field ทเหลอตอไปน

2.2 คานวณหา Entropy ของ Field “gender” Solve

2.3 คานวณหา Entropy ของ Field “birth_country”

Solve

77

2.4 คานวณหา Entropy ของ Field “age_range” Solve

2.5 คานวณหา Entropy ของ Field “gpa”

Solve

Step 3 : Calculate information gain for each attribute

คานวณหาคา Information gained ของแตละ จากสตรตอไปน

E(A))s,...,s,I(sGain(A) m21 คานวณหาคา Information gained ของ Field (attribute) ตอไปน 3.1 คานวณหา Information gained ของ Field “major” 3.2 คานวณหา Information gained ของ Field “gender” 3.3 คานวณหา Information gained ของ Field “birth_country” 3.4 คานวณหา Information gained ของ Field “age_range” 3.5 คานวณหา Information gained ของ Field “gpa”

78

ตวอยาง : การคานวณหาคา Information gained ของ Field “major” แสดงวธการคานวณ

คา I ของตาราง S1,S2 คา Entropy ของ Field “major” 0.9988 0.786

= 0.9988 – 0.786 = 0.2128

แบบฝกหดการหาคา Gain

ใหแสดงวธการคานวณหาคา Information gained ของ Field ทเหลอตอไปน 3.2 คานวณหา Information gained ของ Field “gender” Solve:

3.3 คานวณหา Information gained ของ Field “birth_country” Solve:

3.4 คานวณหา Information gained ของ Field “age_range” Solve:

3.5 คานวณหา Information gained ของ Field “gpa” Solve:

2115.0E(major))s,I(s)Gain(major 21

79

สรป : Information gain for all attributes

Gain(gender) = 0.0003

Gain(birth_country) = 0.0407

Gain(major) = 0.2115

Gain(gpa) = 0.4490

Gain(age_range) = 0.5971

ตอบ : จากการวเคราะหคณสมบตนกศกษา เพอหาคาตอบวานกศกษาจะเรยนในระดบปรญญาตร หรอเรยนในระดบปรญญาโท สามารถพจารณาไดจากคณสมบตของอาย “Gain(age_range)” เนองจากมคาความนาจะเปนมากสด

แบบฝกหดทายบทท 5

1. จงบอกความหมายของ Data Mining 2. เพราะเหตใด Data Mining จงมความสาคญกบธรกจในปจจบน 3. อธบายกระบวนการของ Data Mining (A KDD Process) อยางละเอยด และนกศกษาคดวาขนตอน KDD Process ขนตอนใดสาคญทสด เพราะเหตใด 4. บอกความสมพนธของ Data Mining และ Business Intelligence และยกตวอยาง 5. สามารถนาเทคนคของ Data Mining มาประยกตใชงานในมหาวทยาลยเซนตจอหนไดอยางไรบาง ยกตวอยาง 6. คดวา Data Mining สามารถสรางความไดเปรยบในการแขงขนกบงานดานธรกจไดอยางไร อธบายและยกตวอยางประกอบ

80

data mining.pdf

Documents