การจัดการความรู้ (km)...

27
การจัดการความรู้ (KM) : ความรู้เบื้องต้นเกี่ยวกับ Big Data และ Machine Learning หน้า 1

Upload: others

Post on 13-Jun-2020

15 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 1

Page 2: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 2

ค าน า การจดการความร (Knowledge Management : KM) เรอง ความรเบองตนเกยวกบ Big Data และ Machine Learning ซงสนบสนนประเดนยทธศาสตรการพฒนาระบบเทคโนโลยสารสนเทศ นวตกรรม ในการบรหารจดการ และการบรการ ของกรมการจดหางานประจ าป พ.ศ. ๒๕๖๒ และสอดคลองกบยทธศาสตรท ๕ ของแผนพฒนาดจทลเพอเศรษฐกจและสงคม ในเรองการพฒนาก าลงคนใหพรอมเขาสเศรษฐกจและสงคมดจทล เพอใหสามารถใชประโยชนจากเทคโนโลยดจทลไดอยางรอบร เทาทนการเปลยนแปลงของเทคโนโลยยคปจจบน และอนาคต ศนยเทคโนโลยสารสนเทศและการสอสาร จงไดจดท า เอกสารการจดการความรเกยวกบ ความรเบองตนเกยวกบ Big Data และ Machine Learning เพอเปนประโยชนอยางยงกบบคลากรภายในกรมการจดหางานใหมความร ความเขาใจเกยวกบขอมลขนาดใหญและการวเคราะหขอมล เพอน าความรทไดน าไปประยกตใชกบงานทรบผดชอบได

6 มถนายน 2562 คณะผจดท า

ศนยเทคโนโลยสารสนเทศ กรมการจดหางาน

Page 3: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 3

สารบญ

หนา

ค าน า......................................................................................................................... .....2 บทท 1 ความหมายของ Big Data...................................................................................4 บทท 2 ขอมล Big Data...........................................................................................................8 บทท 3 บคคลากรและทกษะทใชในการท า Big Data ……………………………..……………………..12 บทท 4 เรมท า Big Data Project………………………………………………………………………………..15 บทท 5 Machine Learning เบองตน…………………………………………………………………………..21 เอกสารอางอง…………………………………………………………………………………………………………….24

Page 4: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 4

บทท 1 ความหมายของ Big Data ค าวา Big Data เขามาในประเทศไทยเมอไหรไมมการส ารวจแนชด แตแนวโนมของการใช Big Data ในไทยเรมเหนเดนชดเมอป 2016 ในชวงทรฐบาลมการผลกดนใหเกด Thailand Digital 4.0 แตอยางไรกตาม คนสวนใหญยงคงตดภาพวา Big Data คอการเกบขอมลเอาไวเยอะๆ โดยทยงไมมเปาหมายชดเจนของการท างาน

Big Data คอ ปรมาณขอมลจ านวนมหาศาลทมอยในองคกรทกรปแบบ ไมวาแหลงทมาจะมาจากภายในองคกรหรอภายนอกกตาม ทงนแบงออกเปนขอมลทมโครงสรางชดเจน (Structured Data) และขอมลทมโครงสรางไมชดเจน (Unstructured Data) โดยมองคประกอบ 5V ดงปรากฏตามรปภาพท 1

รปท 1 THE 5 Vs OF BIG DATA [7]

Volume หมายถง ขนาดของขอมล แนนอนวาค าวา “Big Data” กท าใหเราเหนภาพ1.

แลววาตองมขนาดใหญ แตไมมการระบความใหญทชดเจนได เนองจากขอมลทเปน Big Data ยอมสามารถขยายตวตอไปไดไมหยดอยกบท จากปรมาณขอมลทมากท าใหการจดการเกบขอมล ไมสามารถใชวธการจดการแบบปกตได เชน การจดเกบขอมลใน Excel หรอ การจดเกบขอมล ลงฐานขอมล

Velocity หมายถง ความเรวทงจากการสรางขอมลและการประมวลผลขอมล ทสามารถ2.

จดการขอมลมขนาดใหญ ไดอยางตอเนองแบบ Real-Time เพอใหการจดการด าเนนการส าเรจ

Page 5: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 5

อยางรวดเรว เราตองมการวางกระบวนการท างานทชดเจนอกดวย เพราะหากเกดความผดพลาด ตองมการแกไขไดโดยเรวเชนกน

3. Variety หมายถง ความหลากหลายของขอมลและชนดของขอมล ทงขอมลประเภททมโครงสราง (Structured) ไดแก ขอมลแบบตารางทเกบไวในฐานขอมล ประกอบไปดวยขอมลทเปนตวเลข ตวหนงสอ และวนเดอนป เปนตน และขอมลทไมมโครงสราง (Unstructured) ไดแก ขอมลทเปนรปภาพ เสยง วดโอ และขอมลการแสดงความคดเหนตางๆผานทางโซเชยลมเดย (Social Media) เปนตน

4. Veracity หมายถง ความถกตองแมนย า เพราะขอมลประเภท Big Data มขนาดใหญ ทตองการความเรวในการใชงาน และมความหลากหลายสง ดงนนในตวของขอมลเองจะมความไมแนนอนรวมอยดวย ซงเกดจาก Error ตางๆ ระหวางการสรางขอมล หรอเปนขอมลทอยเกนขอบเขตของขอมลทสามารถเปนไปได ตวอยางเชน ขอมลจงหวด กรงเทพมหานคร สามารถเขยนไดวา กทม. หรอ กรงเทพ หรอ กรงเทพฯ เปนตน แนนอนวาการท าใหขอมลสะอาด ไมมการซ าซอนของชดขอมล เปนเรองทยากล าบากทสด และเปนขนตอนทใชเวลานานทสด แตถอวาเปนสงส าคญทสดของการท า Big Data Project

5. Value หมายถง ขอมลทมคณคา สามารถน าไปใชประโยชนได หรอมมลคาและความส าคญตอธรกจในการน ามาใชประโยชน เชนการน าขอมลไปวเคราะห การสรปผลเพอทจะน าขอมล ทวเคราะหไดไปวางแผนการขบเคลอนธรกจ เพอสรางมลคาของสนคาหรอจงใจใหอยากใชบรการ

การน า Big Data เขามาใชในภาครฐ การใชประโยชนจาก Big Data ในภาคธรกจนนเปนประโยชนโดยตรงในการน าขอมลมาหาคาเชงสถต และพฒนาผลตภณฑใหตรงกบความตองการและพฤตกรรมผบรโภค และเกดผลตภณฑใหม (Enabling New Products) สวนในภาครฐนนยงมการใชประโยชนจาก Big Data นอยมากเมอเทยบกบภาคธรกจ โดยการใชประโยชนจาก Big Data ของภาครฐ คอ การน ามาพฒนาการบรการภาครฐใหตรงตอความตองการของประชาชนใหมประสทธภาพสงขน และใชงบประมาณนอยลง เชน น ามาวเคราะหขอมลสภาพอากาศ ทมปรมาณมหาศาล ทงขอมลจากเครองวดมากมายบนโลก ทงดาวเทยม เรดาร และยานตรวจอากาศ ขอมลทมากมายมหาศาลเหลาน น ามาสการพยากรณอากาศทแมนย า หรอการถอดรหสพนธกรรม เพอท าแผนทของสงมชวตตางๆ บนโลก ซงน าไปส การคนพบตวยารกษาโรคใหมๆ เปนตน

Page 6: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 6

การน าไปใชประโยชนดานตางๆในประเทศไทย เชน 1. การน าขอมลภยพบตจากธรรมชาต โดยการวเคราะหทกาวหนาการจดการโมเดล เชน

การวเคราะหสถานการณจากโมเดลทคาดวาจะสงผลอนตรายมาพยากรณเหตการณหรออาจจะพฒนาโปรแกรมแจงเตอนภย เปนตน

2. การน าขอมลมาปรบปรง และวธการฟนฟแกไขสภาพแวดลอมใหกลบไปสสภาพเดม โดยใชเทคโนโลยมาวเคราะหขอมล การทดลอง และการท านายเพอชวยในการตดสนใจในการแกไขปญหาเพอวางแผนยทธศาสตร ทงในระยะยาวและระยะสน

3. การน าขอมลมาสรางนวตกรรม และความรพนฐานขนสง เพอการสรางโครงสรางพนฐานของการบรการ และการน าขอมลเหลานนมารวบรวม และสรางเปนฐานขอมลขนาดใหญ (Big Data) และปรบปรงฐานความรทกวางขวาง เพอเตรยมรบและตอบสนองตอสงคม

การประยกตใชงาน Big Data นนสามารถน ามาใชงานไดหลายๆ หนวยงาน เชน ดานสาธารณสข ดานวทยาศาสตร ดานความมนคง ดานการเงน ดานการบรการประชาชน ดานเกษตรกรรม ดานคมนาคม และดานแรงงาน นอกจากนยงสามารถน ามาใชในดานการบรหารเงนงบประมาณ และรายไดตางๆ ของภาครฐใหมประสทธภาพมากขนอกดวย

นโยบายรฐบาลเกยวกบ Big Data

รฐบาล พลเอกประยทธ จนทรโอชา นายกรฐมนตรไดผลกดนภาครฐ ใหสความเปนเลศ ตามวสยทศนประเทศไทยป พ.ศ. 2558-2563 โดยมวตถปะสงค “มนคง มงคง และยงยน” ของประเทศมการปรบเปลยนภาครฐสการเปนรฐบาลดจทล การพฒนาใหเกดการใชขอมลมหาศาล หรอ Big Data ของภาครฐ จะน าไปสการบรณาการดานโครงสรางขอมล การจดการขอมล การวเคราะหหาคณคาจากขอมล การเลอกใชขอมลทมความเหมาะสม และสงเสรมใหเกดการบรหารจดการขอมลภาครฐใหไดประโยชนสงสดอยางมประสทธภาพ มตการใชขอมลทเกยวของกบคน ไดแก เศรษฐกจ สงคม ภยพบต สาธารณสข การศกษา และแรงงาน

การเรมท า Big Data Project ของหนวยงาน

เมอหลายองคกร พยายามจะผลกดน Big Data Project โดยทไมมเปาหมายในการท างาน ทชดเจน โดยหวขอนจะพดถงหลกการงายๆ ในการท า Big Data Project ดงน

1. ส ารวจกระบวนงานแตละสวนขององคกร วาสวนใดทยงเปนแบบ Manual หรอเกดการตดสนใจโดย “มนษย” อยบาง

Page 7: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 7

ในความเปนจรงแลวประสบการณ รวมถงความคดของมนษยตางเปนกลไกการประมวลผลรปแบบหนง การท า Big Data Project จะสามารถเขามาเปนเครองมอในการสราง Model เพอชวยเรองการตดสนใจท าใหกระบวนการท างานเปนไปดวยความรวดเรว ลดความผดพลาดในการตดสนใจโดยมนษยมากขน เพราะมนษยแตละคน มการตดสนใจทไมเหมอนกน ท าใหการควบคมคณภาพของผลงานไมชดเจน

2. ส ารวจดวาองคกรมขอมลอยตรงไหน อยางไรบาง หรอมแนวทางการเกบขอมลเพมเตมจากสวนใดไดบาง

ศกษาขอมลทสามารถน ามาวเคราะหตอยอดท าใหเกดประโยชนตอไป ในกรณองคกร ยงไมมการเกบขอมลมากอน หรอไมรวาจะน าขอมลสวนไหนมาใชในการท า Big Data อาจจะตองใชแนวทางของ Design Thinking หรอการออกแบบการเกบขอมล เพอใหไดขอมลทตองการ ในแบบทผใหขอมลไมรสกล าบากใจในการใหขอมล ตวอยางในการใหขอมลดานการหางาน เชน อตราเงนเดอนทตองการ งานทตองการ เพอใหทราบขอมลความตองการ (Demand) ทแทจรงเพอน าไปออกแบบระบบการจดหางานภายในประเทศทถกตองตอไป

3. เขารวมสมมนาหาความรพฒนาทกษะในดานขอมล หรอหาทปรกษาเขามาน าเสนอเทคโนโลยใหมๆ

ในการท าให Big Data เกดผลลพธไดนน จะตองมสวนทเปนการวเคราะหไมวาจะเปนการ Analytics , Machine Learning และ Data Science ซงเปนการวเคราะหทมการใชเครองมอ และแนวทางการคดทแตกตางกน ดงนนหากภายในองคกรตองการเปลยนขอมล (Data) ธรรมดาเปนสารสนเทศ (Information) และเปลยนเปนขอมลทเกยวของกบกลมเปาหมาย (Insight) และเปลยนเปนขอมลทชวยในการตดสนใจ (Right Decision) ไดนน องคกรตองมบคลากรทเขาใจ เรองการวเคราะห หรอสรางโมเดลทางคณตศาสตรอยางถองแท และตามทนการเปลยนแปลงของเทคโนโลยอยางรวดเรวสามารถใชเครองมอไดอยางถกตอง

4. เปลยน Mindset หรอแนวคดในการท างาน การปรบเปลยนทศนคตองคกร ตองมการปรบความคดของผน า ไมยดตดอยกบสงเดม

ตองเปดใจยอมรบถงการเปลยนแปลง และอยากลวการผดพลาด เพราะความผดพลาดอาจจะน าพามาซงการพฒนาแบบกาวกระโดด ทส าคญคอตองพยายามใหเกดผลงานโดยเรว เพอน าพาองคกรไปสความส าเรจในการใหบรการประชาชน เพราะเทคโนโลยตางๆ เปลยนแปลงไปอยางรวดเรว

Page 8: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 8

บทท 2 ขอมล Big Data ขอมล (Data) คอ ขอเทจจรงทเกดขน ขอมลอาจจะอยในรปแบบขอความหรอตวเลข ซงขอความเหลานอาจเปนเรองทเกยวของกบ คน สตว สงของ เชน ความคดเหนของคนเกยวกบการเลอกตง เปนตน โดย Big Data จะสามารถแบงขอมลออกไดเปน 3 ประเภท

1. Structure Data หรอขอมลแบบมโครงสราง เปนขอมลทมลกษณะบงบอกชดเจน สามารถเกบในรปแบบของ Relational Database หรอระบบฐานขอมลเชงสมพนธ ซงเปนการเกบขอมลใหอยในรปแบบของตาราง (Table) ทมการจดเรยงอยางเปนรปแบบทชดเจนและเปนระเบยบสามารถน าวเคราะหไดเลย โดยสวนประกอบของตารางจะแบงออกเปนแถว (Row) และคอลมน (Column) สามารถใชภาษา SQL ในการบรหารจดการขอมลได เชน ขอมลทเกบไวในฐานขอมล หรอขอมลทเกบไวในโปรแกรม spreadsheet อยาง Microsoft Excel เปนตน

รปท 2 ตวอยางขอมลแบบ Structure

2. Semi Structure Data หรอขอมลแบบกงโครงสราง เปนขอมลทถกจดเกบอยางมรปแบบ ในระดบหนง และขอมลทสามารถคนหา (Search) หรอแทก (Tag) ได เชน เวบเพจทมการระบชอเพจ ค าส าคญในเพจ และวนทอพเดทขอมล

3. Unstructured Data หรอ ขอมลแบบไมมโครงสราง เปนขอมลทไมสามารถระบรปแบบไดแนนอน ขอมลประเภทนเปนไดทง ขอความ รปภาพ วดโอ และเสยงและไมสามารถจดเกบในรปแบบ Relational Database ได ดงนนจงจ าเปนตองเลอกทจะเกบขอมลในรปแบบ Non-Relational Database และสามารถใชเครองมอทเปน No-SQL (No-only SQL) จดการ ซงมขอด

Page 9: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 9

ในสวนทสามารถรองรบเรองการขยายตวของขอมลอกดวย เชน ขอมลการแสดงความคดเหนบนเฟสบค (Facebook) ทมทงขอความในรปแบบของขอความ รปภาพ วดโอ เสยง สตกเกอร เปนตน ปจจบนขอมลแบบมโครงสราง (Structure) มอตราสวนอยทประมาณ 20% ของขอมลทงหมดทมอยในโลกใบน ซงเปนรปแบบขอมลทสามารถน าไปจดการไดงาย เนองจากมความชดเจนในตวขอมลอยแลว และขอมลแบบไมมโครงสราง มอตราสวนอยทประมาณ 80% ของขอมลทงหมดทมอยในโลกใบน ซงเปนขอมลทจดการไดยาก โดยตองมการจดโครงสรางของขอมลเสยกอน

รปท 3 Structured Data VS Unstructured Data [11]

แหลงขอมล (Data Source) การไดมาซงขอมลทจะน ามาวเคราะหไดนน มววฒนาการมาจากเดมทตองจดบนทกในกระดาษในการจดบนทกขอมล การบนทกขอมลลงในแบบฟอรมทสรางขน หรอการจดเกบขอมลจากเวบไซตลงฐานขอมล แตในปจจบนแหลงขอมล (Data Source) ไดเปลยนมาเปนการใชเครองมออปกรณตางๆ ทสามารถรบขอมลได เชนเครองวดอตราการเตนของหวใจ เครองสแกนลายนวมอ ขอมลทรบสงทางอเมล โดยเครองมอตางๆเหลานมกมหนวยความจ าของตวเอง และสามารถเชอมตอกบเครอขายอนเตอรเนตได เครองมอชนดนถกเรยกวา Internet Of Think (IoT) ไดแก โทรศพทมอถอ ซงสามารถแบงปนขอมลตางๆ ไดผานทาง Social เชน ขอมลพฤตกรรมความตองการตางๆ หรอนาฬกา Smart Watch ทสามารถเกบขอมลอตราการเตนของหวใจขณะออกก าลงกาย หรอขอมลการนอนหลบ เปนตน

Page 10: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 10

การจดเกบขอมล (Data Lake) [13] เมอไดขอมลมาแลวสงทควรค านงถงคอจะน าขอมลเหลานนมาจดเกบทไหนใน Big Data

ใชแนวทางในการเกบขอมลแบบ Data Lake ซงเปนพนทในการจดเกบขอมลทมโครงสราง และไมมโครงสรางทกขนาด สามารถจดเกบขอมลตามทตองการโดยไมตองวางโครงสรางทแนนอน สามารถรองรบการวเคราะหขอมลแบบ Real-time ได เมอเปรยบเทยบ Data Lake กบการคลงเกบขอมลแบบธรรมดา รายละเอยดปรากฏตามตารางท 1

ตารางท 1 ตารางการเปรยบเทยบ Data Lake กบการคลงเกบขอมล [13]

แหลงจดเกบขอมล (Data Storage) เนองจาก Big Data เปนขอมลทมขนาดใหญ และขยายเพมมากขนเรอยๆตลอดเวลา จงไมสามารถเกบในอปกรณทมความจทจ ากดได ปจจบน Cloud Storage เขามามบทบาทเกยวกบระบบสารสนเทศ (Information Technology) ดวยการออกแบบระบบ Server less หรอไมจ าเปน ตองม Physical Data Center อกตอไป โดย cloud สามารถแบงออกเปน 3 ประเภท ดงน [14]

1. Public Cloud คอ ระบบบรการผใหบรการออกแบบมาเพอใหคนทวไปสามารถเขาถงและใชงานรวมกนได เชน Cloud ของ Google หรอ Cloud ของ AWS เปนตน

2. Private Cloud คอ ระบบทองคกรแตละองคกรจดท าขนเพอรองรบการท างานขององคกรใด องคกรหนงหรอเฉพาะกลมทไดรบอนญาตเทานน

3. Hybrid Cloud คอ ระบบทมผสมผสานการใชงานแบบ Public Cloud และ Private Cloud เขาดวยกน เพอความยดหยนในการใชงาน

Cloud แบงตามการใหบรการออกเปน 3 ประเภท [15] คอ 1. Software as a Service (Saas) คอ การใหบรการทางดาน Software หรอ Application

ผานทางระบบอนเตอรเนต อาจจะไมคดคาใชบรการ หรอคดคาบรการตามลกษณะการใชบรการ เชน Microsoft Office 365 Google Drive และ Google Calendar เปนตน

Page 11: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 11

2. Platform as a Service (Paas) คอ การใหบรการดาน Platform ส าหรบผใชบรการดานการพฒนาโปรแกรม เพอใช Software หรอ Application ทผใหบรการจดเตรยมไวใหในการพฒนา Application เชน Database Server Web Application หรอ platform ทรองรบการพฒนา Application บน Mobile เปนตน

3. Infrastructure as a Service (IaaS) คอ การใหบรการทางดานโครงสรางพนฐานทางดาน ไอท (Infrastructure) และระบบการจดเกบขอมลขององคกร (Storage) เพอรองรบการใชงาน Software ขององคกร

นอกจากการเกบขอมลบน Cloud แลว Big Data ยงสามารถใชเทคโนโลย Hadoop ซงเปน Software แบบ Open-Source ทสรางขนมาเพอเปน Frame work ในการจดการ Big Data โดยเฉพาะ จดเดนของ Hadoop คอ สามารถใชกบเครองคอมพวเตอร (Server) ทไมตองแรงมากไดอกดวย การขยาย Scale ในอนาคตกสามารถเพมเครองคอมพวเตอรเขาไปไดงาย และยงมระบบส ารองขอมลอตโนมต โดยระบบการท างานของ Hadoop จะท างาน โดยเมอรบขอมลจากภายนอกเขามาจะแบงสวนของขอมลออกเปน 3 ขอมลทเหมอนกน (3 Node Replicate) บน Node หรอ Hardware หลายตวพรอมกน ท าใหการประมวลผลของ Hadoop สามารถท าไดอยางรวดเรวโดยเฉพาะขอมลทมขนาดใหญ นอกจากน Hadoop ยงมการประมวลผลแบบ MapReduce ซงเปนFramework ในการเขยนโปรแกรมแบบหนงทชวยในการประมวลผลทม Data Set จ านวนมากหลกการท างานจะเปนการท างานแบบคขนาน (Parallel) ซงจะอาศยเครองคอมพวเตอรหลายๆเครองชวยกนประมวลผล โดย Map จะเปนการจบค Key/ Value ทตองการ และสงขอมลใหReduce ประมวลผลเพอใหไดผลลพธตามทตองการ ยกตวอยางการนบจ านวนสตวทอยในขอมลขนาดใหญ โดยก าหนดให Key คอ ชนดของสตวเปน และก าหนด Value คอ 1 โดยสงคา Key และValue ไปยง File ตางๆ เชน หม สามารถนบเปน 1 ตวได 2 ครงหมายถง 2 File แลวจงน ามาประมวลผลรวมกนคอ หม นบได 2 ตวเปนตน รายละเอยดปรากฏในรปภาพท 4

รปท 4 MapReduce Process [21]

Page 12: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 12

บทท 3 บคคลากรและทกษะทใชในการท า Big Data การเรมท า Big Data Project แนนอนวาไมสามารถท าใหส าเรจไดดวยบคลากรเพยงคนเดยว ดงนนในแตละหนาท แตละสวนงานตองใชบคลากรทมความเชยวชาญเฉพาะดาน ซงในบางหนวยงาน ยงขาดบคคลากรทมทกษะในดานขอมลจ านวนมาก องคกรจงตองวางแผนพฒนาบคลากรและสงเสรมใหมการเรยนร อบรมใหบคลากรเกดความรความเขาใจเฉพาะดาน โดยสามารถแบงบคลากรผเชยวชาญออกเปน 3 หนาท ทชดเจน ไดดงน

1. Data Engineer (วศวกรขอมล) คอ บคคลทท าหนาทตดตงวางระบบ Server ระบบความปลอดภย Security และดแลจดการขอมลทงหมดของระบบ ตงแตระบชนดของขอมล วางโครงสรางของขอมล รวมถงการท าขอมลใหมความถกตองและพรอมใชงาน เพอสงขอมลตอไปให Data Scientist น าไปตอยอดในการท างานได หนาทนคอนขางมความทาทาย เพราะตองอาศยทกษะหลายดาน แตตงการเขยน Data Flow Diagram (DFD) เพอดการเขา-ออกของขอมล การจดการระบบ Cloud หรอการจดการระบบ Data Storage ในแบบอนๆดวย เชน Hadoop เปนตนการออกแบบ Database การท า ETL (กระบวนการตรวจสอบคณภาพของขอมลในระบบ Data Warehouse) การท าความสะอาดขอมล (Cleansing Data) การดงขอมลออกจากระบบเพอส ารองขอมล (Backup Data) ทงแบบ Batch และ Real-Time รวมถงตองเขยน API ในการดงขอมลกบโปรแกรมอน รวมถงการ Transform Model ขนไป Run บนระบบ Production ทกษะของ Data Engineer คอตองมความรความเขาใจในหลากหลาย Platform สามารถเปรยบเทยบขอด ขอเสยของการใชงานแตละ Platform ไดอยางละเอยด เพอประโยชนในการตดสนใจในดานงบประมาณตอไปในอนาคต

ทกษะของ Data Engineer SQL เปนภาษาทใชเพอจดการขอมลในระบบ Relational Database Management System

(RDBMS) ซงมลกษณะการเกบขอมลแบบมโครงสรางหรอฐานขอมลเชงสมพนธ (Relational Database)

NoSQL (Not Only SQL) ส าหรบใชจดการขอมลแบบ Non-Relational Database ทเปนขอมลสวนใหญในระบบขอมลขนาดใหญ (Big Data) โดยหลกการของ NoSQL สามารถจดการขอมลไดหลายรปแบบ อาท Key-Value Graph หรอ Document เปนตน

Python เปนภาษาถกพฒนามาใหไมยดตดกบ Platform และเปนภาษาทถกใชมากใน Data Science เนองจากม Packet ทสนบสนนหลากหลาย อาท Pandas (ส าหรบ Data Wrangling) Scikit-learn (ส าหรบท า Machine Learning Model) Tensorflow (ส าหรบท า Deep Learning) สามารถใช Pyspark ทท าใหสามารถเชอมตอกบ Spark เพอบรหารจดการขอมลบน Hadoop cluster ได

Page 13: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 13

โดยตรง นอกจากน Python สามารถท า ETL ไดโดยการเขยน Script ขนมาเพอเรยกขอมลจากแหลงตางๆ ไปใสในโมเดลไดอกดวย

Hadoop หรอ (HDFS) Hadoop File System ซงเปน Platform หลกทออกแบบมาเพอ ใชงานกบระบบขอมลขนาดใหญ (Big Data) สามารถจดการสราง Hadoop Cluster และเขาใจหลกการท างานแบบ Node ทสามารถแบงไฟลออกเปนสวน ใหสามารถท างานพรอมกนได และไมเหมาะทจะน ามาใชงานกบขอมลแบบ Real-Time เหมาะกบการเกบขอมลขนาดใหญ (Big Data) เพอน ามาวเคราะหมากกวา

Cloud computing สามารถบรหารจดการและ การเลอกใชบรการทหลากหลายของ Service รวมถงการประเมนงบประมาณทใชงานในแตละ Service เพราะ Cloud Computing มลกษณะการใชงานแบบจายเทาทใชงาน Pay as you go รวมทงหากตองตดตง Hadoop บน Cloud จะตองสามารถวางระบบเครอขาย หรอความปลอดภยของแหลงจดเกบขอมลอกดวย

ระบบหลกทใชในการบรการขององคกร ตงแตระบบทใชบรการประชาชนแตละดานขององคกร การเขาใจความส าคญของขอมลทน ามาเกบใน Data Storage รวมถงสามารถทราบถงแหลงขอมล (Data Source) หรอการวางแผน เพอใหไดมาซงขอมลทชดเจน นอกเหนอจากขอมล ทมอยแลวในระบบบรการ เชน ขอมลการตอบแบบสอบถามความพงพอใจ ขอมลความตองการทางดานอาชพโดยอาศยขอมลผานทางโซเชยลมเดย (Social Media)

2. Data Scientist หรอนกวทยาศาสตรขอมล คอ บคคลทสามารถน าขอมลมาหาความสมพนธ จากการวเคราะหเชงลก มความรดานการวเคราะหขอมลและสรางมลคาใหกบขอมลโดยการท างานของ Data Scientist นนเรมจากการตงโจทยการเลอกขอมลทตอบโจทย รวมถงการน าขอมลทไดมาสรางโมเดล และพฒนาโมเดลใหแมนย ามากทสด เพอน าโมเดลนนไปประยกตใชงานไดจรงและเกดประโยชนสงสด

ทกษะของ Data Scientist พนฐานทางคณตศาสตร แคลคลส (Calculus) สถต ความนาจะเปน พชคณตเชงเสน

(Linear algebra) ตรรกศาสตร (Logic) การเพมประสทธภาพ (Optimization) การออกแบบการทดลอง (Design of Experiment)

พนฐานทางการเขยนโปรแกรม คอ ความร ความเขาใจทางดานภาษาทใชในการวเคราะหขอมล ไดแก ภาษา R และ Python

พนฐานความรเฉพาะทาง (Domain Knowledge) คอ ความรในสงทตองคดหรอการตงหลกการเฉพาะเรอง ในการแกปญหา หรอการตดสนใจ หรอความรทางดานธรกจ เปนตน

Page 14: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 14

ปจจบนสายงาน Data Scientist มนอยมากโดยเฉพาะในประเทศไทย เนองจากสายงานนตองใชความรเชงลกในดานการท า Big Data Project เชน การท า Image Processing การระบตวตนโดยภาพ การท า Text Mining การใชวเคราะหภาษาเพอแปล หรอสะกดค าทสามารถไปตอยอดเปน ChatBot การประดษฐ AI เปนตน

3. Data Analyst หรอนกวเคราะหขอมล คอ บคคลทใชขอมลในการวเคราะหแนวโนม หรอแกปญหาจากสงทตางไปจากแนวโนมเดม โดยใชหลกสถตเพอวเคราะหทวไปและน ามาแสดงผล และแกไขปญหาภายในองคกร หรอก าหนดยทธศาสตรภายในองคกร โดยการท า Data Analyst ไมใชการวเคราะหในเชงลกเหมอน Data Scientist แตกตองอาศยประสบการณจากความรเฉพาะดานนนๆ เชน ความรทางดานการตลาด (Marketing Analyst) หรอความรทางดานการจดหางาน (Employment knowledge) เปนตน และมมมองทเฉยบขาดเพอใหการแกไขปญหา รวมทงสามารถก าหนดขอบเขตของปญหาไดอยากชดเจน เพอชวยในการก าหนดแนวทางการตดสนใจของผบรหารระดบสงขององคกร

ทกษะของ Data Analyst สวนใหญทกษะของ Data Analyst จะเปนการใชเครองมอตางๆ เพอน ามาวเคราะห

โดยเฉพาะ เชน Microsoft Excel SAS หรอเครองมอในการท า BI ตางๆ เชน Power BI Tableau Rapid Miner เปนตน และอาจจะตองมความสามารถทางดานการเขยนโปรแกรมทน ามาใชในการวเคราะหขอมล การใชภาษา R เพอน ามาชวยในการวเคราะหขอมลเชงสถต พนฐานการจดการขอมลบน Database เขาใจหลกการ Machine Leaning เบองตน การท า Data Visualization หรอการน าเสนอขอมลทผานการวเคราะหแลว ในรปแบบตางๆ กน เชน ตาราง กราฟ และการจดท าสอตางๆ เพอใหสามารถเขาใจความส าคญของขอมลนนไดโดยงาย สวยงาม และสรางสรรค

รปท 5 บคลลากรในการท า Big Data Project

Page 15: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 15

บทท 4 เรมท า Big Data Project เมอพดถงการน า Big Data เขามาใชในองคกร การท าให Big Data Project อาจไมใชเรองงายนก โดยทวไปการท าให Project ส าเรจ คอ การปด Project ใหไดตามทตกลง ตองมการสงมอบระบบ และใชงานไดจรงไดอยางเสถยรภายในเวลาทก าหนด ในทางปฏบตจรง การสงงานตามเวลา ทก าหนดอาจจะไมใชการปด Project แตตองดดวยวาสดทายแลว องคกรไดรบระบบทตอบโจทยการใชงานของผใชงาน หรอ User นนจรงๆ โดยท User มความเขาใจในระบบ และสามารถปรบจนโมเดล หรอแกไขงานทเชอมโยง Workflow ไดอยางยดหยน การปฏบตงานไดจรงมากกวาแคภาคทฤษฎ และมการพฒนาโมเดลอยางตอเนอง กรณศกษาตวอยางไดแก Netflix บรการสตรมมงทางอนเตอรเนตเพอรบชมรายการทว ภาพยนตร และสารคด สญชาตอเมรกา ทกอตงมาเมอป 1997 ผลตภณฑของ Netflix คอ วดโอ นนท าให Netflix มขอมลเกยวกบวดโอมากมายรวมเขากบขอมลของลกคา และขอมลการเขารบชมวดโอของลกคา จงตองมการพฒนา Platform ใหมประสทธภาพทดมากขน ในแตละป Netflix จะจดงานให Data Scientist พฒนาไดแขงขนกนท า Algorithm เพอแนะน าวดโอ โดยจะตองมความแมนย ามากขน แตโมเดลทดทสดเมอทดลองกบระบบแลวพบวา ไมเหมาะกบสภาพแวดลอมจรงของระบบ เหตผลทไมสามารถน าไปใชงานไดจรง อาจเกดจากความผดพลาดในการสรางโมเดล ไมวาจะเปนการเกบขอมลไมครบ ขอมลทน ามาทดสอบนอยเกนไป ทดสอบโมเดลไมละเอยด ความตองการของผเกยวของทไมชดเจน รวมถงสภาพแวดลอมทไมเอออ านวยตอการใชงานโมเดล

1. ท าความเขาใจปญหาและความตองการขององคกร การวางเปาหมายในการท างานถอเปนขนตอนแรก และเปนขนตอนทส าคญทสดในการ

ก าหนดแนวทางของการท างาน โดยเรมจากปญหาทพบใหชดเจน หรอขอสงสยตางๆ ทท าใหตอง หาทางแกไข การท าความเขาในสวนงานตางๆขององคกรวามสวนใดทสามารถเขามาท าใหเกดการพฒนาดวยระบบดจทล เพอสามารถตอยอดการท างานได อาจตองมการเพมการสงเกตการณ (Observation) ไมวาจะเปนการเขารวมท างานกบสภาพแวดลอมการท างานจรง หรอแมแตการท าตวเปนผใชบรการ และการใหผมสวนเกยวของกบการใชงานของขอมลทงหมด เขามาชวยก าหนดความตองการเพอแปลงความตองการทงหมด ออกมาเปนปจจยหรอตวแปลหนงในโมเดล เพอใหสามารถท าโมเดลทสามารถใชงานไดจรงใน Big Data Project

อยางไรกตามในบางองคกรกยงไมสามารถตงเปาหมายของ Big Data Project ได เพราะยงไมมความเขาใจเรองการใชงาน Big Data และไมมพนฐานทางดาน Data Science หรอเทคโนโลย ตางๆ ในการบรหารขอมลอกดวย

Page 16: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 16

2. ท าความเขาใจขอมล การท าความเขาใจขอมลเปนขนตอนท 2 ของการสรางโมเดลเพอวเคราะหขอมล ซงหาก

ทราบเปาหมายในการใชขอมล กไมสามารถทราบไดวาตองใชขอมลอะไรบาง การท าความเขาใจขอมล ไมใชแคการท าความสะอาดขอมล (Cleansing Data) แตตอง

ท าความเขาใจวาขอมลใดมความส าคญ ในบางกรณการท าความเขาใจอาจจะเรมจากการน าขอมลทงหมดทมมารวมกน และหาความสมพนธระหวางขอมล

ดงนน สงทส าคญทสดในการท าความเขาใจขอมล คอ ค านยามของขอมล (Heading) แลวตามมาดวยรายละเอยดภายใน หากเปนขอมลประเภททมโครงสราง (Structured Data) สามารถเขาใจงาย แตหากเปนขอมลทไมมโครงสราง (Unstructured Data) จะตองมการแปลงโครงสรางใหชดเจน สามารถเขาไดเสยกอน ขนตอนนอยทมมมองและประสบการณของ Data Scientist ในการคดเลอกขอมลมาใชงานทตอบโจทยในแตละโจทย

3. การเตรยมขอมล การเตรยมขอมลเพอท าการวเคราะหถอวาเปนขนตอนทใชเวลานานทสดของการท า Big

Data Project อาจจะใชเวลาประมาณ 75%-80% ของการท า Project ทงหมด โดยหลกการแลว Data Engineer และ Data Scientist เปนคนทมบทบาทในสวนนมากทสด เหตผลทขนตอนนใชเวลานานทสด เพราะขอมลทมขนาดใหญมาจากการรวมกนจากหลายแหลงขอมล และเจาของขอมลไมเหมอนกน ท าใหเกดความยงยากเกดขน การเตรยมขอมล แบงออกเปนการท าความสะอาดขอมล (Cleansing Data) และการจดรปแบบขอมลใหพรอมใชงาน

Data Engineer มหนาทในการท าใหขอมลอยในรปแบบทสามารถน าไปตอยอดตอได หากเปนขอมลทไมมโครงสราง เปลยนแปลงใหเปนขอมลทมโครงสราง เชน การท า Normalization หรอการท า Meaning Extraction เพอจดท าใหเปนขอมลทไดมโครงสรางตามตองการเพอน าไปสรางเปนโมเดลในขนตอนตอไป นอกจากนยงมหนาทท าความสะอาดขอมล การตรวจสอบขอมลทมความผดปกตอกดวย

Data Scientist มหนาทในการกรองขอมลเพอน าขอมลไปเปนตนแบบในการท าโมเดล เชน การหาขอมลทอยนอกความเปนไปไดของขอมลทเกดขน (Detect Outlier) การจดการกบขอมลทขาดหายไป (Missing Value) การเลอกขนาดของขอมล การเลอกชวงเวลาทจะน าขอมลไปวเคราะหเปนโมเดล เปนตน

Page 17: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 17

ขนตอนการท าความสะอาดขอมล (Cleansing Data) เหตผลทขอมลไมสะอาดเกดจากหลายสาเหต ตงแตการพมพตก การพมพผด เครองมอเกดความผดพลาด (Error) ขอมลทอยนอกกลมเชน คนมอาย 500 ป หรอ คนน าหนก 1000 กโลกรม เปนตน โดยทางเทคนคจะเรยกขอมลทมลกษณะแบบนวา “Outlier” นอกจากการท าความสะอาดขอมลแลว ยงตองหาวธจดการขอมลทตกหลนหายไป หรอทเราเรยกวา “Missing Value” อกดวย ขนตอนการ Clean ขอมล 4 ขนตอน ไดแก

1. Passing คอ การแจกแจงขอมลตามประเภทของขอมล หรอใชหวขอของขอมล ความส าคญของขนตอนนไมใชแคเพยงการเลอกหวของขอมล แตเปนการท าความเขาใจค าจ ากดความของชดขอมลนนๆ รวมถงเขาใจคา และความหมายของขอมล

2. Correcting คอ การแกไขขอมลทผดพลาด เชน ในชองขอมลตองเปนตวเลขจ าพวกอายสวนสง แตใสตวอกษรลงไป หรอในชองของเพศมการใสตวเลขลงไป หรอขอมลมคาเกนความเปนไปได เชน ใสขอมลในชองอาย 500 ป เปนตน วธการแกไขขอมลจะตองใชวธการทางสถตเพอท าการแกไข เชน การหาคาเฉลย การหาคาเบยงเบนมาตรฐาน (standard deviation) และการแกไขขอมลตองมการพจารณาเลอกทจะแกไขขอมลโดยการแทนทดวยขอมลทนาจะเปนไปได หรอตดขอมลชดทผดนนออกทงแถว (Row)

3. Standardizing คอ การท าขอมลใหเปนรปแบบเดยวกน ตวอยางจงหวดในหลากหลายรปแบบ เชน กรงเทพมหานคร กทม. หรอกรงเทพฯ ซงการประมวลผลของคอมพวเตอรไมสามารถทราบไดวาขอมลจงหวดเดยวกน ตองท าการก าหนดคามาตรฐานในการใชขอมลรวมกน และหากเปนขอมลตวเลขทมชวงคา หรอหนวยของตวเลขแตกตางกน หรอมความกวางของขอมลทไมเหมอนกน สามารถใชวธของ Standardization เพอเรยงขอมลใหอยในรปแบบระฆงคว า เปนการท าใหขอมลอยในชวงคาทก าหนด คอระหวาง 0 ถง 1 ดงปรากฏในรปท 5

รปท 6 การท า Standardization [35]

Page 18: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 18

4. Duplicate Elimination คอ การลบขอมลทมความซ าซอนกนทง ซงอาจจะตองเขยน อลกอลทม (Algorithm) เพอใชระบชดขอมลทมความซ าซอนกน เชน ขอมลทกอยางเหมอนกนทงหมด ตงแต ชอ นามสกล และอยภายในไฟลหรอฐานขอมลเดยวกน เปนตน

4. การสรางโมเดล การสรางโมเดลถอเปนขนตอนทส าคญทสด โดย Data Scientist ทมประสบการณจะ

สามารถพจารณาไดวาแตละโจทยจะเลอกใชอลกอรทม (Algorithm) และสามารถเลอกตวแปร ทเหมาะสมท าใหใชเวลานอยในการสรางโมเดลหนงโมเดล แตการสรางโมเดลเพยงโมเดลเดยวอาจไมตอบโจทย เพราะฉะนนอาจจะตองมการสรางโมเดลหลายโมเดล เพอเปรยบเทยบหาโมเดลทดทสด ดงนน Data Scientist สวนใหญจะท าการสรางโมเดลเพมหรอปรบปรงไปเรอยๆ จนกวาจะหมดเวลาหรอตองสงมอบงาน และการสรางโมเดลนนจะตองจะตองเขาใจรายละเอยดของผลลพธดวย ตวอยางการสรางโมเดล

1. Classification คอ การท านาย (Prediction) วาขอมลแตละขอมลของประชากรควรจดอยในกลมใด โดยแตละกลมมการก าหนดชอไวแลวอยแลว เชน เสอทมขนาด ลาย และสสามารถก าหนดไดวาเปนเสอชนดใด

2. Regression คอ การประมาณ (Value Estimation) ดวาขอมลแตละตวควรมคาเชงตวเลขเปนเทาไร เชน การพยากรณการเพมจ านวนอตราการมงานท าของคนไทยวามอตราเพมขน กเปอรเซนต เปนตน

3. Similarity Matching คอ การหาอตลกษณทเหมอนกน (Similar Identifying) ตามมตตางๆกนของขอมลในประชากรทงหมด ซงวธการนถกน ามาท าโมเดลระบบการแนะน าสนคา หรอบรการ (Recommendation System) เชน พฤตกรรมการซอสนคา A คนสวนใหญจะซอสนคา B ดวย ดงนนเมอมคนซอสนคา A ระบบกจะมการแนะน าสนคา B ดวย เปนตน

รปท 7 Recommendation Product [37]

Page 19: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 19

นอกจากนระบบ Recommendation System ยงสามารถน ามาประยกตใชกบงานจดหางานภายในประเทศของกรมการจดหางาน โดยการประเมนพฤตกรรมการสมครงานของ นาย B ซงมประวตการสมครคลายกบนาย A ซงท าใหเราสามารถเดาไดวางานทนาย B ตองการสมครตอไปจะเปนงานลกษณะใด โดยสามารถสรางระบบแนะน างานทเหมาะสมและตรงกบความตองการของนาย B จะท าใหระบบการจดหางานภายในประเทศไทยมประสทธภาพมากยงขน เปนตน

4. Clustering คอ การจดกลมหรอการกระจกตวของขอมล ซงมความแตกตางจาก Classification ตรงท Clustering ไมมการก าหนดจ านวนกลมไวลวงหนา จ านวนกลมทไดมาจากการค านวณผานอลกอรทม (Algorithm) ทเลอกมาทงหมด เชน การจ านวนกลมผสมครงานจากจ านวนทงหมด เปนตน

5. Link Prediction คอ การท านายความเชอมโยง ระหวางขอมลแตละขอมลวามความสมพนธกนหรอไม และมความสมพนธกนในระดบใด เชน การเชอมโยงกนของเพอนในระบบ Social Media หากนาย A เปนเพอนกบนาย B แลวนาย B เปนเพอนกบนางสาว C มความเปนไปไดวานาย A อาจจะรจกกบนางสาว C เปนตน

6. Profiling (Anatomy Detection) คอ การวเคราะหคณลกษณะ (Characteristic) ทเกยวของกบพฤตกรรม (Behaviour) ในการท ากจกรรมบางสงบางอยาง อาท ระบบตรวจจบบตรเครดตปลอม (Fraud Detection) โดย หากเกดการใชจายบตรเครดตในสถานทหางไกลจากพนท ทมการใชประจ า หรอการซอสนคามราคาสงผดปกตจากธรรมดา เจาหนาทกจะมการโทรเขาไปสอบถามเจาของบตรเครดตวามการซอสนคาจรงหรอไม

รปท 8 Profiling (Anatomy Detection)

Page 20: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 20

5. การประเมนผลโมเดล หลงจากการทไดโมเดลแลว ตองท าการประเมนวาโมเดลนนมความแมนย ามากหรอนอย

เพยงใด โดยการประเมนผลอาจจะเปนทงในกรณทสามารถวดออกมาเปนคาได หรอเรยกวา การวดเชงปรมาณ เชนการท านายยอดขาย เปนตน และในกรณทไมสามารถวดคาได หรอกรณทไมมขอเปรยบเทยบระหวางคาทโมเดลท านายไดกบคาจรง อาจจะตองท าการทดสอบแบบจ าลองสถานการณจรง เชน การน าโมเดลไปประมวลผลขอมลจรงทมอย เพอท าการวเคราะหผลและเปรยบเทยบความถกตองออกมาเปนอตรารอยละ หรอเรยกวา การทดลองในระบบเสมอน (Simulation) เพอใหแนใจวาโมเดลสามารถน าไปใชงานไดจรง

6. การน าโมเดลไปใชงานจรง หลงจากทไดโมเดลทมคณภาพและมความแมนย าตามทตองการ กสามารถน าโมเดลนนมาประยกตใชกบงานจรง โดยอาจจะตองมการปรบปรงเพอใหเหมาะสมกบสภาวะจรง เพอน าโมเดลมาสรางเปนผลตภณฑ (Product) ตางๆ เชน การสรางระบบ (Application) ท านายความมโอกาสในการไดงานท า หรออาจรวมกบระบบอน เชน ระบบชวยการตดสนใจ (Decision Support System) เปนตน เพอใหการใชโมเดลมประโยชนอยางสงสดและมความยงยนอาจตองมปรบปรงโมเดลใหมเมอผลลพธไมเปนไปตามทคาดหวง หรอมการปรบปรงโมเดลเปนระยะๆ อยเสมอเพราะวาขอมลทอยภายในระบบขอมลขนาดใหญ (Big Data) และเทคโนโลยตางๆ มการเปลยนแปลงอยตลอดเวลา

Page 21: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 21

บทท 5 Machine Learning เบองตน จากทไดเรยนรเบองตนเกยวกบ Big Data Project เบองตนแลว จะมการกลาวถง Machine Learning บางแลวในสวนของการสรางโมเดล และตวอยางจากการสรางโมเดล ซงในบทนจะมาขยายความเกยวกบการเรยนรของ Machine จากขอมลทเขามาในลกษณะแบบตางๆ และความเปนมาของ Machine Learning Machine learning เรมตนมาตงแตป ค.ศ.1950 เมอนกวทยาศาสตรคอมพวเตอร คดหาวธสอนคอมพวเตอรใหเลนหมากฮอส จากนนเมอววฒนาการทางเทคโนโลย ระบบการค านวณคาตางๆของคอมพวเตอรเพมขน ท าใหคอมพวเตอรสามารถเขาใจ และจดจ ารปแบบของคาตางๆ ทซบซอนได แลวจงประยกตไปสการคาดการณสถานการณรวมไปถงการแกปญหาดวยตวเอง Machine learning คอ ระบบทสามารถเรยนรจากตวอยางดวยตนเอง โดยปราศจากการปอนค าสงของโปรแกรมเมอร ความกาวหนาในครงนมาพรอมกบความคดทวาเครองคอมพวเตอรสามารถเรยนรเพยงแคจากขอมลอยางเดยวเพอทจะผลตผลลพธทแมนย าออกมาได

รปท 9 กระบวนการท างานของ Machine Learning [40]

จากรปท 9 เปนการอธบายการท างานของ Machine learning โดยการเรยนรของ Machine คลายกบการเรยนรของมนษย โดยเรยนรจากประสบการณ ยงรมากยงงายตอการพยากรณวาอะไรจะเกดขนตอไป เมอประสบกบเหตการณทไมเคยเจอมากอน มความเปนไปไดทพยากรณเหตการณไดนอยลง เพอทจะเพมความแมนย าในการพยากรณ โดยเมอเรามขอมลตวอยางและผลลพธของขอมลให Machine ไดเรยนรกจะสามารถสรางกฎหรอทเรยกวาโมเดลในการพยากรณ โดยการเรยนรของ Machine learning แบงออกเปน 2 ประเภทดงน การเรยนรแบบมผสอน (Supervised learning)

1. Supervised Learning (การเรยนรโดยมผสอน) คอ การท าใหคอมพวเตอรหาค าตอบของปญหาไดดวยตนเอง หลงจากเรยนรจากชดขอมลตวอยางทประกอบไปดวยขอมล และผลลพธของขอมล คลายกบการสอนเดกดวยรปภาพโดยทรปภาพของสตวจะมขอมลบงบอกดวยวาเปนสตว

Page 22: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 22

ชนดใด และเมอน าภาพสตวทไมเคยเหนกสามารถแยกแยะไดวาเปนสตวชนดใด เรยกกระบวนการสอนดงกลาววา Classification โดยรายละเอยดปรากฏตามรปท 10 – รปท 11

รปท 9 ผลลพธจากการสอนแบบ Classification แบบไมซบซอน [41]

รปท 10 ผลลพธจากการสอบแบบ Cclassification แบบซบซอน [41]

การสอนเรองราคาเพชร โดยเมอหยบเพชร ขนาด 2 กะรต สเหลอง ระดบความสะอาด VS2 แลวบอกเดกวาราคา 20,000$ และหยบอกเมดขนาด 3 กะรต สแดง ระดบความสะอาด VS1 แลวบอกเดกวาราคา 50,000$ ท าซ าไปเรอยๆ จนเดกเกดโมเดล (Model) หรอตรรกะ (Logic) ในการคาดเดาราคาของเพชรได แลวจงสมหยบเพชรเมดใหมขนมา กอาจใหเดกสามารถคาดเดาราคาไดเลยเรยกกระบวนการสอนดงกลาววา Regression ดงปรากฏตามรปท 11

รปท 11 ผลลพธจากการสอนแบบ Regression [41]

ปจจบนมการน าโมเดลปญญาประดษฐ (AI Model) แบบมผสอน (Supervise learning) ไปประยกตใชแกไขปญหาหลากหลายรปแบบมากๆ เชน การน าไปพฒนาเปนระบบ Application ผชวยสวนตวในโทรศพทมอถอ เชน Siri (Speech recognition) หรอพฒนา Application ทางการแพทยเพอตรวจสอบมะเรงผวหนงจากภาพถาย (Image Classification) หรอจะเปนการโพสภาพลงสอ Social แลวจะท าการ Tag อตโนมตวาคนในภาพเปนใคร (Face Detection) เปนตน

2. การเรยนรแบบไมมผสอน (Unsupervised learning) คอ การใหคอมพวเตอรเรยนรจากขอมลอยางเดยวโดยปราศจากผลลพธของขอมล เชนการส ารวจขอมลประชากรเพอหารปแบบ(Pattern) ของขอมลนน สามารถใชอลกอรทม (Algorithm) เพอหารปแบบ (Pattern) ในการแบงกลมขอมล (Clustering) เชน การแบงกลมขอมลแบบเคมน (K-mean Clustering) เปนการน าขอมลใสลงไปในกลมขอมลทงหมด K กลม ซงแตละขอมลมลกษณะเหมอนกน (ซงถกก าหนดขนโดย

Page 23: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 23

การประมวลผลของโมเดลไมไดเปลยนแปลงตามทมนษยสงการ) การแบงกลมขอมลตามล าดบชน (Hierarchical Clustering) สามารถถกใชเพอแบงระดบชนของสมาชกลกคาได ระบบใหค าแนะน า (Recommendation System) เปนตน หรอการลดมตของขอมลเพอการวเคราะหขอมล (Dimension Reduction) โดยใช Algorithm PCA/T-SNE วธการเรยนรของ Machine Learning ขนตอนของการเรยนรของ Machine learning ขนแรกจะเปนการแบงขอมลเพอน ามาวเคราะหขอมลโดยแบงชดขอมลออกเปนชดทให Machine ไดฝกเรยนรเรยกวา Training Data Set จากนนท าการเรยนรขอมลจนไดออกมาเปนโมเดล แลวน าโมเดลทไดน ามาท านายขอมลทไมเคยเจอมากอนขอมลทถกแบงจากชดขอมลทงหมดเรยกวา Testing Data Set แลวจงวดคาประสทธภาพจากการท านายขอมลชด Testing ดวามความแมนย ามากนอยเพยงใด

รปท 12 ระยะการเรยนรของ Machine learning [40]

รปท 13 ระยะการน าโมเดลใช และวดประสทธภาพโมเดล [40]

การประยกตใช Machine learning 1. การท างานอตโนมต (Automation) การท างานอตโนมตในดานตางๆ ยกตวอยาง เชน

หนยนต (Robot) ทด าเนนการตามกระบวนการตามขนตอนในโรงงานการผลต เปนตน 2. อตสาหกรรมการเงน (Finance Industry) ใช Machine learning เพอหารปแบบ

(pattern) ของขอมลเพอปองกนการฉอโกงจะเกดขน 3. องคการภาครฐ (Government organization) ใช Machine learning ในการจดการ

ความปลอดภยของระบบสาธารณปโภคบรโภค ยกตวอยางเชน มการใชปญญาประดษฐ (Artificial Intelligence : AI) เพอชวยใหการขามถนนอยางปลอดภย เปนตน

4. การตลาด (Marketing) มกใชในการวเคราะหขอมลขนาดใหญ (Big Data) เพอเพมประสทธภาพการหาความสมพนธของลกคาและการโฆษณาดานการตลาด

Page 24: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 24

เอกสารอางอง [1] [Online] Big Data in Healthcare Available: http://bigdataexperience.org/big-data-healthcare/ [7 มถนายน 2562] [2] [Online] what is Big Data Available: https://www.sas.com/th_th/insights/big-data/what-is-big-data.html [7 มถนายน 2562] [3] [Online] “Big Data” ส าคญส าหรบธรกจยค 4.0 อยางไร Available: https://www.peerpower.co.th/blog/sme/big-data-for-sme/ [7 มถนายน 2562] [4] [Online] big data Available: https://searchdatamanagement.techtarget.com/ definition/big-data [7 มถนายน 2562] [5] [Online] Big Data ภาครฐ ส านกวชาการ ส านกงานเลขาธการสภาผแทนราษฎร Available: https://library2.parliament.go.th/ejournal/content_af/2559/dec2559-4.pdf [7 มถนายน 2562] [6] [Online] What is Big Data? Available: http://bigdata.black/featured/what-is-big-data/ [10 มถนายน 2562] [7] [Online] Big Data and Hadoop Available: https://www.edureka.co/blog/what-is-big-data/ [10 มถนายน 2562] [8] [Online] Big Data คออะไร? Available: https://blog.goodfactory.co/big-data-คออะไร-8ebf3a1a0050 [10 มถนายน 2562] [9] [Online] What is Data? Available: https://www.mathsisfun.com/data/data.html [10 มถนายน 2562] [10] [Online] คณลกษณะ 6 ประการของฐานขอมลคณภาพสง Available: https://www.perceptra.tech/6-vs-of-big-data/ [10 มถนายน 2562] [11] [Online] Structured Data vs. Unstructured Data: what are they and why care? Available: https://lawtomated.com/structured-data-vs-unstructured-data-what-are-they-and-why-care [11 มถนายน 2562] [12] [Online] ความหมายและชนดของขอมล Available: https://sites.google.com/site/chokupgarage/khxmul-sarsnthes-laea-rabb-kherux-khay-khxmphiwtexr/khwam-hmay-laea-chnid-khxng-khxmul [11 มถนายน 2562] [13] [Online] Data Lake คออะไร Available: https://aws.amazon.com/th/big-data/datalakes-and-analytics/what-is-a-data-lake/ [11 มถนายน 2562] [14] [Online] Cloud คออะไร มกประเภท แบบไหนบาง? Available: http://blog.onestopware.com/cloud-คออะไร-มกประเภท-แบบ/ [11 มถนายน 2562] [15] [Online] Cloud computing คออะไร? Cloud computing ดอยางไร? Available: https://www.it24hrs.com/2015/cloud-computing-and-cloud-definition/ [12 มถนายน 2562]

Page 25: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 25

[16] [Online] Big data analytics ส าคญยงไงและชวยอะไรเราไดบาง? Available: http://bigdataexperience.org/what-is-big-data-analytics/ [12 มถนายน 2562] [17] [Online] Big Data คออะไร ? + วธใช Hadoop/Spark บน Cloud Dataproc Available: http://www.siamhtml.com/getting-started-with-big-data-and-hadoop-spark-on-cloud-dataproc/ [12 มถนายน 2562] [18] [Online] Hadoop Ecosystem ส าหรบการพฒนา Big Data Available: https://thanachart.org/2014/10/18/hadoop-ecosystem-ส าหรบการพฒนา-big-data/ [12 มถนายน 2562] [19] [Online] หลกการท างานของ MapReduce และตวอยางการใช Available: https://www.kanouivirach.com/2013/10/การท างาน-mapreduce-และการใช/ [13 มถนายน 2562] [20] [Online] MapReduce Available: https://langisser.wordpress.com/2012/02/07/mapreduce/ [13 มถนายน 2562] [21] [Online] MapReduce คออะไร Available:https://www.howtoautomate.in.th/the-big-data-world-explanation-part-one/2018-05-29-21_58_49-mapreduce-คออะไร_-bhuridech-sudsee-medium/ [13 มถนายน 2562] [22] [Online] ท าไมธรกจจงตองใช Big Data Available: https://www.g-able.com/digital-review/why-using-big-data-in-business/ [13 มถนายน 2562] [23] [Online] Data Scientist และเทคนคการวเคราะห Big Data Available: https://blog.goodfactory.co/data-scientist-และเทคนคการวเคราะห-big-data-73dfbdcaa770 [13 มถนายน 2562] [24] [Online] เรมเรยน Machine Learning 0–100 Available:https://medium.com/mmp-li/เรมเรยน-machine-learning-0-100-introduction-1c58e516bfcd [13 มถนายน 2562] [25] [Online] แนะน า Machine Learning เบองตน Available: http://machinelearningth.actvee.com/2017/06/1-machine-learning.html [14 มถนายน 2562] [26] [Online] Data Analytic: การเตรยมขอมลเพอการวเคราะห Available: http://blog.dechathon.com/prepare-data-for-analytic/ [14 มถนายน 2562] [27] [Online] การท า Data Cleansing และ Database Marketing Available: https://www.affinity.co.th/data-cleansing/?lang=th [14 มถนายน 2562] [28] [Online] ลกษณะของขอมลทใชในการวเคราะห Available: http://www.dpu.ac.th/bigdata/variable_type.html [17 มถนายน 2562] [29] [Online] การพฒนาบคลากรส าหรบงานทางดาน Big Data Available: https://thanachart.org/2015/12/02/การพฒนาบคลากรส าหรบง/ [12 มถนายน 2562]

Page 26: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 26

[30] [Online] วทยาศาสตรขอมล Data Science คออะไร? ตองเรมตนศกษาอยางไร? Available: https://www.appdisqus.com/2019/03/12/108-data-science-what-how-to-learning.html [17 มถนายน 2562] [31] [Online] Data Science คออะไร เรองทธรกจยคดจทลตองร Available: https://brandinside.asia/data-science-sexiest-job/ [17 มถนายน 2562] [32] [Online] Data Engineer, Data Scientist และ Data Analyst ตางกนอยางไร Available: https://medium.com/@info_46914/data-engineer-data-scientist-และ-data-analyst-ตางกนอยางไร-4202b519183e [17 มถนายน 2562] [33] [Online] 5 ปจจยสงเสรม Big Data ใหประสบความส าเรจ Available: https://www.g-able.com/digital-review/5-factors-of-successful-big-data/ [17 มถนายน 2562] [34] [Online] 4 ขนตอนการ Clean Data ส าคญไฉนWhy data quality is a KING? Available: https://www.coraline.co.th/single-post/why-data-quality-is-a-KING [17 มถนายน 2562] [35] [Online] Explaining Standardization Step-By-Step Available: https://365datascience.com/standardization/ [19 มถนายน 2562] [36] [Online] data science กาวทล าหนากวา big data Available: https://www.g-able.com/digital-review/digital-transformation/big-data-analytics/data-science-กาวทล าหนากวา-big-data-2/Reccomendation%20system [19 มถนายน 2562] [37] [Online] Learning How Recommendation System Recommends Available: https://towardsdatascience.com/learning-how-recommendation-system-recommends-45ad8a941a5a [20 มถนายน 2562] [38] [Online] Machine learning คออะไร? Available: https://blog.finnomena.com/machine-learning-คออะไร-fa8bf6663c07 [20 มถนายน 2562] [39] [Online] 5 สงททกคนควรรเกยวกบ Machine Learning Available: https://www.quickserv.co.th/knowledge-base/technology/5%20สงททกคนควรรเกยวกบ%20Machine%20Learning/ [20 มถนายน 2562] [40] [Online] Supervised learning คออะไร? ท างานยงไง? Available: https://medium.com/@every.phu/supervised-learning-คออะไร-ท างานยงไง-1c0e411a40a2 [20 มถนายน 2562] [41] [Online] อะไรคอ การเรยนรของเครอง (Machine Learning)? (ฉบบมอใหม) Available: https://www.thaiprogrammer.org/2018/12/อะไรคอ-การเรยนรของเ/ [20 มถนายน 2562] [42] ดร. อสมา กลวานชไชยนนท, 6/2018 Big Data Series 1 : Introduction to a Big Data Project ปฐมบทในการท าโปรเจคบกดาตา [21 มถนายน 2562]

Page 27: การจัดการความรู้ (KM) ความรู้เบื้องต้นเกี่ยวกับ Big Data ... · การจัดการความรู้

การจดการความร (KM) : ความรเบองตนเกยวกบ Big Data และ Machine Learning หนา 27