chapter 1 · 2017-08-08 · data mining คืออะไร data mining...

29
Chapter 1 Introduction to Data mining อาจารย์อนุพงศ์ สุขประเสริฐ คณะการบัญชีและการจัดการ มหาวิทยาลัยมหาสารคาม

Upload: others

Post on 07-May-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

Chapter 1Introduction to Data miningอาจารยอนพงศ สขประเสรฐคณะการบญชและการจดการมหาวทยาลยมหาสารคาม

Page 2: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

2

Content Data Mining คออะไร ววฒนาการของการท าเหมองขอมล ขนตอนการท าเหมองขอมล สวนประกอบหรอสถาปตยกรรมของการท าเหมองขอมล ประเภทของขอมลทสามารถท า Data Mining ลกษณะเฉพาะของขอมลทใชท าเหมองขอมล ตวอยางการน าเหมองขอมลมาใช Data Mining ประโยชนของเหมองขอมล

Page 3: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

Data Mining คออะไร

Data Mining เปนกระบวนการ (Process) ทกระท ากบขอมลขนาดใหญ เพอ

คนหารปแบบ แนวทาง และความสมพนธทซอนอยในชดขอมลนน โดยอาศยหลกสถต

การรจ า การเรยนรของเครอง และหลกคณตศาสตร เพอใหไดสารสนเทศทเราไมร

ออกมา โดยสารสนเทศทไดจะมเหตผลและสามารถน าไปใชประโยชนได

Page 4: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

Data Mining คออะไร

ลกษณะการท างานของ Data Mining คลายกบกระบวนการ

Knowledge Discovery in Databases : KDD เปนการสบคน

ความรทเปนประโยชนในฐานขอมลขนาดใหญ

ซงนยมใช Data Mining เปนขนตอนหนงในกระบวนการ KDD

Page 5: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

Data Mining (เหมองขอมล)

เหมองขอมล เปนเครองมอทชวยใหผใชเขาถงขอมลไดโดยตรงจากฐานขอมลขนาดใหญ

เหมองขอมล เปนเครองมอ และ Application ทสามารถแสดงผลการวเคราะหขอมลทางสถตได

เหมองขอมล หมายถงการวเคราะหขอมล เพอแยกประเภท จ าแนกรปแบบและความสมพนธของขอมลจากคลงขอมลหรอฐานขอมลขนาดใหญ น าสารสนเทศไปใชในการตดสนใจธรกจ

ไดองคความรใหม (Knowledge Discovery) อาจอยในรปแบบของกฎเกณฑ (Rule)

Page 6: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ววฒนาการของการท าเหมองขอมล

ป 1960 Data Collection คอ การน าขอมลมาจดเกบอยางเหมาะสมในอปกรณทนาเชอถอและปองกนการสญหายไดเปนอยางด

ป 1980 Data Access คอ การน าขอมลทจดเกบมาสรางความสมพนธตอกนในขอมลเพอประโยชนในการน าไปวเคราะห และการตดสนใจอยางมคณภาพ

ป 1990 Data Warehouse & Decision Support คอ การรวบรวมขอมลมาจดเกบลงไปในฐานขอมลขนาดใหญโดยครอบคลมทกดานขององคกร เพอชวยสนบสนนการตดสนใจ

ป 2000 Data Mining คอ การน าขอมลจากฐานขอมลมาวเคราะหและประมวลผล โดยการสรางแบบจ าลองและความสมพนธทางสถต

Page 7: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ท าไมจงตองม Data Mining

ขอมลทถกเกบไวในฐานขอมลหากเกบไวเฉย ๆ กจะไมเกดประโยชนดงนนจงตองมการสกดสารสนเทศหรอการคดเลอกขอมลออกมาใชงานสวนทเราตองการ

ในอดตเราไดใชคนเปนผสบคนขอมลตางๆ ในฐานขอมลซงผสบคนจะท าการสรางเงอนไขขนมาตามภมปญญาของผสบคน

ในปจจบนการวเคราะหขอมลจากฐานขอมลเดยวอาจไมใหความรเพยงพอและลกซงส าหรบการด าเนนงานภายใตภาวะทมการแขงขนสงและมการเปลยนแปลงทรวดเรวจงจ าเปนทจะตองรวบรวมฐานขอมลหลาย ๆ ฐานขอมลเขาดวยกน เรยกวา “ คลงขอมล” ( Data Warehouse) ดงนนเราจงจ าเปนตองใช Data Mining ในการดงขอมลจากฐานขอมลทมขนาดใหญ เพอทจะน าขอมลนนมาใชงานใหเกดประโยชนสงทสด

Page 8: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ขนตอนการท าเหมองขอมล

Data Cleaning เปนขนตอนส าหรบการคดขอมลทไมเกยวของออกไป Data Integration เปนขนตอนการรวมขอมลทมหลายแหลงใหเปนขอมลชด

เดยวกน Data Selection เปนขนตอนการดงขอมลส าหรบการวเคราะหจากแหลงทบนทกไว Data Transformation เปนขนตอนการแปลงขอมลใหเหมาะสมส าหรบการใชงาน Data Mining เปนขนตอนการคนหารปแบบทเปนประโยชนจากขอมลทมอย Pattern Evaluation เปนขนตอนการประเมนรปแบบทไดจากการท าเหมองขอมล Knowledge Representation เปนขนตอนการน าเสนอความรทคนพบ โดยใช

เทคนคในการน าเสนอเพอใหเขาใจ

Page 9: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

สวนประกอบหรอสถาปตยกรรมของการท าเหมองขอมล

Database, Data Warehouse, World Wide Web และ Other Info Repositories เปนแหลงขอมลส าหรบการท าเหมองขอมล

Database หรอ Data Warehouse Server ท าหนาทน าเขาขอมลตามค าขอของผใช

Knowledge Base ไดแก ความรเฉพาะดานในงานทท าจะเปนประโยชนตอการสบคน หรอประเมนความนาสนใจของรปแบบผลลพธทได

Data Mining Engine เปนสวนประกอบหลกประกอบดวยโมดลทรบผดชอบงานท าเหมองขอมลประเภทตางๆ ไดแก การหากฎความสมพนธ การจ าแนกประเภท การจดกลม

Page 10: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

สวนประกอบหรอสถาปตยกรรมของการท าเหมองขอมล (ตอ)

Pattern Evaluation Module ท างานรวมกบ Data Mining Engine โดยใชมาตรวดความนาสนใจในการกลนกรองรปแบบผลลทธทได เพอใหการคนหามงเนนเฉพาะรปแบบทนาสนใจ

User Interface สวนตดตอประสานระหวางผใชกบระบบการท าเหมองขอมล ชวยใหผใชสามารถระบงานท าเหมองขอมลทตองการท า ดขอมลหรอโครงสรางการจดเกบขอมล ประเมนผลลพธทได

Page 11: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ขอมลทใชท า Data mining มาจากไหน?

ขอมลแบงตามทมา◦ ภายในบรษท/องคกร ขอมลการซอขาย ขอมลประวตลกคา ขอมลประวตพนกงาน

◦ ภายนอกบรษท/องคกร ขอมลจาก social media ตางๆ ขอมลขาวตางๆ ขอมลรปภาพและเสยง

ทมา: http://www.ibmbigdatahub.com/infographic/where-does-big-data-come

Page 12: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

6

ประเภทของขอมลทสามารถท า Data Mining

Relational databases เปนฐานขอมลทจดเกบอยในรปแบบของตาราง โดยในแตละตารางจะประกอบไปดวยแถวและคอลมน ความสมพนธของขอมลทงหมดสามารถแสดงไดโดย Entity Relationship Model

Page 13: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ประเภทของขอมลทสามารถท า Data Mining (ตอ)

Relational databases

ตารางท 1 ตวอยางตารางขอมลนสตขนตน

ตารางท 2 ตวอยางขอมลการลงทะเบยนของนสต

Page 14: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ประเภทของขอมลทสามารถท า Data Mining (ตอ)

Data Warehousesเปนการเกบรวบรวมขอมลจากหลายแหลงมาเกบไวในรปแบบเดยวกนและรวบรวมไวในทๆ เดยวกน

Page 15: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ประเภทของขอมลทสามารถท า Data Mining (ตอ)

Data Warehouses

ทมา : http://www.persysinc.com/persys_database_datawarehouse.aspx

Page 16: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

Transactional databasesประกอบดวยขอมลทแตละทรานเเซกชนแทนดวยเหตการณในขณะใดขณะหนง เชน ใบเสรจรบเงน จะเกบขอมลในรปชอลกคาและรายการสนคาทลกคารายซอ

ประเภทของขอมลทสามารถท า Data Mining (ตอ)

Page 17: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

Transactional databases◦ ใบเสรจรบเงน

ประเภทของขอมลทสามารถท า Data Mining (ตอ)

Page 18: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ประเภทของขอมลทสามารถท า Data Mining (ตอ)

Advanced database เปนฐานขอมลทจดเกบในรปแบบอนๆ เชน- ขอมลแบบ Object oriented- ขอมลทเปน Text file- ขอมลมลตมเดย- ขอมลในรปของ Web Site

Page 19: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ลกษณะเฉพาะของขอมลทใชท าเหมองขอมล

ขอมลขนาดใหญ เกนกวาจะพจารณาความสมพนธทซอนอยภายในขอมลไดดวยตาเปลา หรอโดยการใช Database Management System ( DBMS ) ในการจดการฐานขอมล

ขอมลทมาจากหลายแหลง โดยอาจรวบรวมมาจากหลายระบบปฏบตการหรอหลาย DBMS เชน Oracle , DB2 , MS SQL , MS Access เปนตน

ขอมลทมโครงสรางซบซอน เชน ขอมลรปภาพ ขอมลมลตมเดย ขอมลเหลานสามารถน ามาท า Mining ไดเชนกนแตตองใชเทคนคการท า Data Mining ขนสง

Page 20: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ลกษณะเฉพาะของขอมลทใชท าเหมองขอมล (ตอ)

ขอมลทไมมการเปลยนแปลงตลอดชวงเวลาทท าการ Mining หากขอมลทมอยนนเปนขอมลทเปลยนแปลงตลอดเวลาจะตองแกปญหานกอน โดยบนทกฐานขอมลนนไวและน าฐานขอมลทบนทกไวมาท า Mining แตเนองจากขอมลนนมการเปลยนแปลงอยตลอดเวลา จงท าใหผลลพธทไดจาการท า Mining สมเหตสมผลในชวงเวลาหนงเทานน ดงนนเพอใหไดผลลพธทมความถกตองเหมาะสมอยตลอดเวลาจงตองท า Mining ใหมทกครงในชวงเวลาทเหมาะสม

Page 21: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ปจจยทท าใหการท าเหมองขอมลเปนทไดรบความนยม

จ านวนและขนาดขอมลขนาดใหญถกผลตและขยายตวอยางรวดเรว การสบคนความรจะมความหมายกตอเมอฐานขอมลทใชมขนาดใหญมาก ปจจบนมจ านวนและขนาดขอมลขนาดใหญทขยายตวอยางรวดเรว โดยผานทาง Internet ดาวเทยม และแหลงผลตขอมล อน ๆ เชน เครองอานบารโคด , เครดตการด , อคอมเมรซ

ขอมลถกจดเกบเพอน าไปสรางระบบการสนบสนนการตดสนใจ ( Decision Support System) เพอเปนการงายตอการน าขอมลมาใชในการวเคราะหเพอการตดสนใจ สวนมากขอมลจะถกจดเกบแยกมาจากระบบปฏบตการ ( Operational System ) โดยจดอยในรปของคลงหรอเหมองขอมล ( Data Warehouse ) ซงเปนการงายตอการน าเอาไปใชในการสบคนความร

Page 22: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ปจจยทท าใหการท าเหมองขอมลเปนทไดรบความนยม (ตอ)

ระบบ computer สมรรถนะสงมราคาต าลง เทคนค Data Mining ประกอบไปดวย Algorithm ทมความซบซอนและความตองการการค านวณสง จงจ าเปนตองใชงานกบระบบ computer สมรรถนะสง ปจจบนระบบ computer สมรรถนะสงมราคาต าลง พรอมดวยเรมมเทคโนโลยทน าเครอง microcomputer จ านวนมากมาเชอมตอกนโดยเครอขายความเรวสง ( PC Cluster ) ท าใหไดระบบ computer สมรรถนะสงในราคาต า

Page 23: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ปจจยทท าใหการท าเหมองขอมลเปนทไดรบความนยม (ตอ)

การแขงขนอยางสงในดานอตสาหกรรมและการคา เนองจากปจจบนมการแขงขนอยางสงในดานอตสหกรรมและการคา มการผลตขอมลไวอยางมากมายแตไมไดน ามาใชใหเกดประโยชน จงเปนการจ าเปนอยางยงทตองควบคมและสบคนความรทถกซอนอยในฐานขอมลความรทไดรบสามารถน าไปวเคราะหเพอการตดสนใจในการจดการในระบบตาง ๆ ซงจะเหนไดวาความรเหลานถอวาเปนผลตผลอกชนหนงเลยทเดยว

Page 24: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ตวอยางการน าเหมองขอมลมาใชงาน

ธรกจการขายและการตลาด (Retail & Marketing) ใชวเคราะหรปแบบพฤตกรรมการซอสนคาของลกคา ใชหาความสมพนธของ Customer Demographic Characteristic วาสงผลตอ

ยอดซอไหม หาความสมพนธของสนคาทลกคาซอ เชน ซออะไรกอนหลงบาง ใชในการท านายความเปนไปไดทลกคาประเภทไหนจะตอบกลบ Mail โฆษณาสนคา

เพอทจะไดวางแผนสงขอมลโปรโมชนในการขายไดตรงจดมากขน การวเคราะห Market Trend

Page 25: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ตวอยางการน าเหมองขอมลมาใชงาน

ธรกจธนาคาร (Banking) ใชวเคราะหรปแบบการโกงของลกคาในการใชบตรเครดต เพอทวาจะไดปองกนกอน

แตเนนๆ วเคราะหเพอแบงแยกหาลกคาทมเครดตด หรอ ไมด และ พฤตกรรมการใชจายเงน

ผานบตรของแตละกลมวาเปนอยางไร วเคราะหกลมของการใชบตรเครดต ชวยวเคราะหหา Correlation ระหวาง Financial Indicators ตางๆ

Page 26: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ตวอยางการน าเหมองขอมลมาใชงาน

ธรกจประกนภย ใชวเคราะหพฤตกรรมการรองเรยน (Claim Analysis) ของลกคา ใชหารปแบบโมเดลของลกคาทนาจะนโยบายหรอกรมธรรมใหมของธรกจ ใชหารปแบบพฤตกรรมของลกคาทจดอยในกลมเสยงตอธรกจ

Page 27: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ตวอยางการน าเหมองขอมลมาใชงาน

ธรกจดานยา โรงพยาบาล คลนก ใชวเคราะหหาพฤตกรรมของคนไขทนาจะมโอกาสมาหาหมอ หรอมาโรงพยาบาล ใชวเคราะหหาวธการหรอยาบ าบดรกษาโรคทดทสด ส าหรบอาการและความ

เจบปวยแตละประเภท ใชวเคราะหหาความสมพนธระหวางอาการของผปวยกบการท านายโรคทนาจะ

เกดขน

Page 28: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

ประโยชนของเหมองขอมล

การท าเหมองขอมล จ าเปนตองอาศยบคลากรจากหลายฝาย และตองอาศยความรจ านวนมาก ถงจะไดรบประโยชนอยางแทจรง เพราะสงทไดจากขนตอนวธเปนเพยงตวเลข และขอมล ทอาจจะน าไปใชประโยชนไดหรอใชประโยชนอะไรไมไดเลยกเปนได ผทศกษาการท าเหมองขอมลจงควรมความรรอบดานและตองตดตอกบทก ๆ ฝาย เพอใหเขาใจถงขอบเขตของปญหาโดยแทจรงกอน เพอใหการท าเหมองขอมลเกดประโยชนอยางแทจรง

Page 29: Chapter 1 · 2017-08-08 · Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระท ากับข้อมูลขนาดใหญ่

The end

Q & A