คู่มือปฏิบัติการ · 204123 -...

73
คู่มือปฏิบัติการ 204123 - วิทยาการข้อมูลเบื้องต้น (Introduction to Data Science) อ.ดร.ปภังกร อิ่นแก้ว ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยเชียงใหม่ Draft Version Last update: 7 MARCH 2020

Upload: others

Post on 12-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

คมอปฏบตการ

204123 - วทยาการขอมลเบองตน

(Introduction to Data Science)

อ.ดร.ปภงกร อนแกว

ภาควชาวทยาการคอมพวเตอร คณะวทยาศาสตร

มหาวทยาลยเชยงใหม

Draft Version Last update: 7 MARCH 2020

Page 2: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

i

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

สารบญ

เรอง สารบญ .......................................................................................................................................................... i

แนะนำเครองมอปฏบตการ .......................................................................................................................... 1

1. Microsoft Azure Machine Learning Studio (ML Studio) ................................................... 1

1.1. การเขาใชงานเบองตน ........................................................................................................ 1

1.2. การนำชดขอมลจากคอมพวเตอรสวนตวเขาส ML Studio ................................................. 3

1.3. การนำเขาโมดลจาก Azure AI Gallery ............................................................................. 5

1.4. การสรางการทดลอง ........................................................................................................... 7

1.5. สวนประกอบของหนาตางการทดลอง ................................................................................. 8

1.6. การออกแบบการทดลองเบองตน ........................................................................................ 9

ชดขอมลทใชในปฏบตการ ......................................................................................................................... 12

1. ชดขอมล Comic Characters .................................................................................................. 12

2. ชดขอมล 2004 New Car and Truck ..................................................................................... 13

3. ชดขอมล 120 Years of Olympic History athletes and Results ....................................... 14

4. ชดขอมล Iris ............................................................................................................................. 15

5. ชดขอมล Airfoil Self-Noise .................................................................................................... 15

6. ชดขอมล Mini Market Basket ................................................................................................ 16

7. ชดขอมล Simulated Online Shopping Carts ...................................................................... 16

8. ชดขอมล Mushroom .............................................................................................................. 17

9. ชดขอมล Carbon Nanotubes ................................................................................................ 20

10. ชดขอมล VIX Prices ................................................................................................................ 20

ปฏบตการท 1 การเตรยมแฟมขอมลและการนำเขาขอมลสเครองมอวเคราะหขอมล ................................ 21

1. ชดขอมลปฏบตการ ................................................................................................................... 21

Page 3: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

ii

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

2. ขนตอนปฏบตการ ..................................................................................................................... 21

3. แบบฝกปฏบตการ ..................................................................................................................... 24

ปฏบตการท 2 การจดเตรยมขอมลกอนการวเคราะห ................................................................................ 25

1. ชดขอมลปฏบตการ ................................................................................................................... 25

2. ขนตอนปฏบตการ ..................................................................................................................... 25

3. แบบฝกปฏบตการ ..................................................................................................................... 29

ปฏบตการท 3 การคำนวณคาสถตเชงพรรณาจากตารางขอมลหลก .......................................................... 31

1. ชดขอมลปฏบตการ ................................................................................................................... 31

2. ขนตอนปฏบตการ ..................................................................................................................... 31

3. แบบฝกปฏบตการ ..................................................................................................................... 33

ปฏบตการท 4 การใชเครองมอวเคราะหกลมของขอมล ............................................................................. 34

1. ชดขอมลปฏบตการ ................................................................................................................... 34

2. ขนตอนปฏบตการ ..................................................................................................................... 34

3. แบบฝกปฏบตการ ..................................................................................................................... 38

ปฏบตการท 5 การใชเครองมอการวเคราะหตะกราตลาด.......................................................................... 40

1. ชดขอมลปฏบตการ ................................................................................................................... 40

2. ขนตอนปฏบตการ ..................................................................................................................... 40

3. แบบฝกปฏบตการ ..................................................................................................................... 42

ปฏบตการท 6 การใชเครองมอวเคราะหการจำแนกขอมล......................................................................... 44

1. ชดขอมลปฏบตการ ................................................................................................................... 44

2. ขนตอนปฏบตการ ..................................................................................................................... 44

3. แบบฝกปฏบตการ ..................................................................................................................... 48

ปฏบตการท 7 การใชเครองมอวเคราะหการถดถอย .................................................................................. 50

1. ชดขอมลปฏบตการ ................................................................................................................... 50

Page 4: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

iii

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

2. ขนตอนปฏบตการ ..................................................................................................................... 50

3. แบบฝกปฏบตการ ..................................................................................................................... 55

ปฏบตการท 8 การใชเครองมอวเคราะหขอมลอนกรมเวลา ....................................................................... 56

1. ชดขอมลปฏบตการ ................................................................................................................... 56

2. ขนตอนปฏบตการ ..................................................................................................................... 56

3. แบบฝกปฏบตการ ..................................................................................................................... 62

ปฏบตการท 9 การนำโมเดลการวเคราะหขอมลไปใชงานผานบรการผานเวบ ............................................ 63

1. ชดขอมลปฏบตการ ................................................................................................................... 63

2. ขนตอนปฏบตการ ..................................................................................................................... 63

3. แบบฝกปฏบตการ ..................................................................................................................... 69

Page 5: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

แนะนำเครองมอปฏบตการ

1. Microsoft Azure Machine Learning Studio (ML Studio) เปนเครองมอสำหรบการวเคราะหขอมลดวยวธการทางวทยาการขอมลในรปแบบเวบแอพพลเคชน

(Web Application) ทถกพฒนาข นโดยบรษทไมโครซอฟท เครองมอมลกษณะเปนพ นทท างาน

(Workspace) ทผใชสามารถสราง ทดสอบ และเผยแพรโมเดลส าหรบการวเคราะหขอมลของผใช ผาน

เครองมอแบบลาก-วาง ซงผใชไมจ าเปนตองมความสามารถทางดานการเขยนภาษาโปรแกรม

คอมพวเตอร ยงไปกวานนยงรอบรบการพฒนาโมดลตางๆ ดวยภาษาไพทอน (Python) หรอภาษาอาร

(R Programming Language) ซงท าใหการวเคราะหขอมลมความยดหยนมากยงขน สามารถเพมเตม

วธการวเคราะหขอมลขนสงได ทงนการประมวลผลทงหมดจะถกด าเนนการในลกษณะการประมวลผล

แบบคลาวด (Cloud Computing) ความเรวของการประมวลผลขนอยกบบรการทผใชเลอก อยางไรก

ตามหากการประมวลผลใชระยะเวลานานผใชสามารถออกจากโปรแกรมแลวกลบเขามาตดตามการ

ประมวลผลได โดยการท างานนนยงคงด าเนนการอย (สามารถศกษาขอมลเพมเตมไดท เวบไซต

https://docs.microsoft.com/en-us/azure/machine-learning/studio/) กระบวนวชาน นกศกษา

มหาวทยาลยเชยงใหมสามารถเขาใชเครองมอไดผานทางบญช อเมลของมหาวทยาลยโดยไมเสย

คาใชจาย

1.1. การเขาใชงานเบองตน

นกศกษาสามารถเขาใชงาน ML Studio ไดโดยไปยงเวบไซต https://studio.azureml.net/

คลกทปม Sign In จากนนเขาสระบบโดยใชบญชอเมลของมหาวทยาลยในการเขาสระบบ เมอเขาสระบบ

แลวจะปรากฏ พนทท างานของบญชนกศกษา ดงรปท 1

Page 6: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

2

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

รปท 1 หนาตางพนททำงานของบญชผใช

ภายในหนาตางพ นทท างานประกอบดวยแถบหมวดหม (Section Tab) ทางดานซาย ซง

ประกอบดวย

• Projects แสดงรายการโครงการตางๆ ทผใชสรางขน ผใชสามารถเลอกและจดการโครงการ

ตางๆ ได

• Experiments แสดงรายการการทดลองตางๆ ทงทผใชสรางขนเองและตวอยางท ML Studio

เตรยมไวใหผใชไดศกษา

• Web Services แสดงรายการบรการออนไลนทผใชสรางขน เพอใหบคคลอนสามารถเขาใชงาน

โมเดลการวเคราะหขอมลจากการทดลองตางๆ ของผใช

• Notebooks แสดงรายการเอกสารจดบนทกทมค าอธบายและ รหสค าสง (Code) ทสามารถสง

ประมวลได ซงเปนเอกสารจดบนทกทผใชสรางขน

• Datasets แสดงรายการชดขอมลทผใชน าเขาสพนทท างานและชดขอมลทดลองท ML Studio

เตรยมไวให

• Trained Models แสดงรายการโมเดลส าหรบการวเคราะหขอมลตางๆ ทผใชสรางและจดเกบ

ไวส าหรบน าไปใชในงานอนๆ ตอไป

• Settings การตงคาตางๆ ส าหรบพนทท างานของผใช

Page 7: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

3

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

เมอผใชคลกแถบหมวดหมแลว บรเวณพนทท างานจะเปลยนการแสดงผล ตามหมวดหมทถกเลอก

นกศกษาจะไดเรยนรวธการใชงานเครองมอตางๆ ในแตละแถบหมวดหมผานกจกรรมการทดลองตอไป

สวนแถบค าสงดานลางจะเปลยนไปตามงานทผใชก าลงท าอย มค าสงหนงทถกใชงานบอยครง

คอ ค าสง +NEW เปนค าสงส าหรบการสรางหรอน าเขาชดขอมล (Dataset) โมดล (Module) โครงการ

(Project) การทดลอง (Experiment) และเอกสารจดบนทก (Notebook) จากแหลงภายนอกเขาสพนท

ท างาน

1.2. การนำชดขอมลจากคอมพวเตอรสวนตวเขาส ML Studio1

สำหรบการนำเขาชดขอมลจากเครองของผใชเขาสพนทท างานใน ML Studio นน ผใชจะตอง

เตรยมแฟมขอมล โดย ML Studio รอบรบการนำเขาแฟมขอมลชนดตางๆ ดงน

• Plain text (.txt) • Comma-separated values (CSV) with a header (.csv) or without (.nh.csv) • Tab-separated values (TSV) with a header (.tsv) or without (.nh.tsv) • Excel file • Azure table • Hive table • SQL database table • OData values • SVMLight data (.svmlight) • Attribute Relation File Format (ARFF) data (.arff) • Zip file (.zip) • R object or workspace file (.RData)

โดยแฟมขอมลทจะนำเขาส ML Studio จะตองมขนาดรวมไมเกน 10 GB

1 แหลงขอมลจาก https://docs.microsoft.com/en-us/azure/machine-learning/studio/import-data คนเมอวนท 18 ธนวาคม 2562

Page 8: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

4

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

การนำเขาขอมลจากเครองของผใชมขนตอน ดงน

1. คลกคำสง +NEW ตรงแถบคำสงดานลาง 2. จากนนเลอกตวเลอก DATASET และ FROM LOCAL FILE ตามลำดบ

รปท 2 ขนตอนการนำเขาแฟมขอมลจากเครองผใชงานเขาส ML Studio (1)

3. ในไดอะลอก Upload a new dataset dialog ทำการเลอกแฟมขอมลทตองการ 4. กรอกชอเรยกชดขอมล เลอกชนดแฟมขอมล และกรอกคำอธบายชดขอมล (ถาม) ในกรณทเปน

ชดขอมลทเคยถกนำเขาส ML Studio แลว และตองการปรบปรงชดขอมลนน ใหคลกเลอกตวเลอก This is the new version of an existing dataset และกรอกชอเรยกชดขอมล ใหตรงกบชอชดขอมลทตองการปรบปรง

5. จากนนคลกปม ตรงมมลางขวาของไดอะลอก

Page 9: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

5

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

รปท 3 ขนตอนการนำเขาแฟมขอมลจากเครองผใชงานเขาส ML Studio (2)

6. ระยะเวลาในการอพโหลดแฟมขอมลขนอยกบขนาดแฟมขอมลและความเรวของการเชอมตอกบเครองใหบรการ (Server) ทงนผใชสามารถใชงาน ML Studio ไดขณะรอการอพโหลดแฟมขอมลโดยไมปดหนาตางจนกวาจะอพโหลดแฟมขอมลเสรจ

7. เมออพโหลดแฟมขอมลสำเรจ จะปรากฎชอชดขอมลในรายการชดขอมล สามารถดไดโดยการคลกแถบหมวดหม DATASETS

นอกจากจะสามารถนำเขาชดขอมลจากแฟมขอมลทมอยในเครองคอมพวเตอรสวนตวของผใชแลว ML Studio ยงมเครองมอทชวยในการนำเขาขอมลจากแหลงขอมลออนไลนอนๆ ไดอกดวย ซงสามารถศกษาขอมลเพมเตมไดจากเวบไซต https://docs.microsoft.com/en-us/azure/machine-learning/studio/import-data

1.3. การนำเขาโมดลจาก Azure AI Gallery

เครองมอในการวเคราะหขอมลใน ML Studio จะอยในรปโมดลททำหนาทเฉพาะอยาง เชน โมดล Fisher Linear Discriminant Analysis สำหรบการเลอกลกษณะเดน (Feature Selection) โมดล Summarize Data สำหรบคำนวณคาสถตเชงพรรณาของแตละตวแปรในชดขอมล และโมดลชดขอมลตางๆ เปนตน ใน ML Studio ไดเตรยมโมดลสำหรบใชเปนเครองมอวเคราะหดวยวธการตางๆ ทเปนทรจกและ

Page 10: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

6

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

นยมใชกนอยางแพรหลาย โดยไมตองนำเขาโมดล อยางไรกตามผใชสามารถนำเขาโมดลอนๆ ทตองการได 2 วธคอ นำเขาโมดลจากภายนอกทพฒนาขนเอง และนำเขาโมดลทถกพฒนาและรวบรวมไวใน Azure AI Gallery ในทนจะกลาวถงการคนหาและนำเขาโมดลจาก Azure AI Gallery ซงมขนตอน ดงน

1. คลกคำสง +NEW ตรงแถบคำสงดานลาง 2. จากนนเลอกตวเลอก MUDULE จะปรากฏไดอะลอกสำหรบเลอกโมดล 3. ผใชสามารถคนหาโมดลไดโดยการกรอกคำคนในกลองขอความ Search custom modules จะ

ปรากฏรายการโมดลทคนหาดานลาง

รปท 4 การนำเขาโมดลจาก Azure AI Gallery (1)

4. นำเมาสไปวางบนโมดลทตองการ แลวคลก IMPORT MODULE

รปท 5 การนำเขาโมดลจาก Azure AI Gallery (2)

5. โมดลทถกนำเขา สามารถเรยกมาใชงานไดในขณะสรางการทดลอง โดยจะอยภายในหนาตางยอย Modules ภายใตกลม Custom

Page 11: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

7

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

รปท 6 การนำเขาโมดลจาก Azure AI Gallery (3)

1.4. การสรางการทดลอง

การสรางการทดลองถอเปนขนตอนเรมตนกอนการทดลองซงนกศกษาจะตองทราบและสามารถทำไดดวยตนเอง การทดลองหนงๆ นนประกอบดวยขนตอนของการวเคราะหขอมลดวยวธทางวทยาการขอมลสำหรบแกปญหาใดปญหาหนงเทานน เราจะไมสรางการทดลองเพยงหนงการทดลองทใชสำหรบแกปญหาหลายปญหา การสรางการทดลองมขนตอน ดงน

1. คลกคำสง +NEW ตรงแถบคำสงดานลาง 2. จากนนเลอกตวเลอก EXPERIMENT และ Blank Experiment ตามลำดบ

รปท 7 ขนตอนการสรางการทดลอง (1)

Page 12: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

8

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

3. จะปรากฏหนาตางสำหรบดำเนนการทดลอง ดงรปท 8 ผใชสามารถแกไขชอการทดลองไดโดยการคลกบรเวณ Experiment Title แลวแกไขช อการทดลองไดตามตองการ จากนนคลกปม SAVE ทแถบคำสงดานลาง

รปท 8 ขนตอนการสรางการทดลอง (2)

1.5. สวนประกอบของหนาตางการทดลอง

รปท 9 สวนประกอบของหนาตางการทดลอง

หนาตางการทดลองประกอบดวยสวนสำคญ ดงน

• Experiment Title ชอการทดลองซงผใชสามารถแกไขได • Experiment Status สถานะของการทดลอง • Commands คำสงตางๆ ไดแก

o RUN HISTORY รายการประวตการประมวลผลการทดลอง o SAVE คำสงบนทกการแกไข o SAVE AS คำสงบนทกการทดลองเปนชอการทดลองอน

Modules

Workspace

Experiment Title

Properties

Commands

Experiment Status

Page 13: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

9

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

o DISCARD CHANGES คำสงยกเลกการแกไข o RUN คำสงดำเนนการประมวลผลการทดลอง

▪ RUN คำสงดำเนนการประมวลผลการทดลองทงหมด ▪ RUN SELECTED คำสงดำเนนการประมวลผลเฉพาะโมดลทเลอก

o DEPLOY WEB SERVICE คำสงสรางบรการออนไลนสำหรบการทดลอง o PUBLISH TO GALLERY คำสงเผยแพรการทดลองไปยงแกลลอรเวบไซต ML Studio

• Properties หนาตางยอยทจะแสดงคณสมบตของการทดลอง หรอโมดล ซงจะเปลยนแปลงไปตามโมดลทเลอก

• Modules รายการโมดลตางๆ สำหรบการวเคราะหขอมล ซงถกจดกลมไวเปนหมวดหม ผใชสามารถเลอกโมดลทตองการโดยลากโมดลทตองการวางไวบนพนททำการทดลอง (Workspace) รายละเอยดโมดลตางๆ สามารถศกษาไดจากเวบไซต https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/index

• Workspace พนททำการทดลอง ผใชสามารถลากโมดลจากรายการทางดานซายวางบนพนทการทดลอง เพอใหพนททำการทดลองมความเปนระเบยบ การวางโมดลในพนทการทดลองจะวางเรยงจากบนลงลางตามลำดบการทำงานกอน-หลง นอกจากนภายในพนททำการทดลองจะมหนาตางขนาดเลกบรเวณมมซายลางแสดงพนททำการทดลองทงหมดเพอใหเหนภาพรวมของการทดลอง ผใชยงสามารถยอ-ขยาย พนททำการทดลองไดโดยใชเครองมอในแถบมมมองบรเวณดานลางของพนททำการทดลอง

1.6. การออกแบบการทดลองเบองตน

การออกแบบขนตอนการวเคราะหขอมลทำไดโดยการลากโมดลจากรายการโมดลวางลงบนพนททำการทดลอง โดยปกตแลวขนตอนการทดลองจะเรมตนดวยชดขอมล ซงชดขอมลตางๆ ทนำเขาส ML Studio จะถกรวมไวในหมวดหม Saved Datasets สวนโมดลเครองมอการวเคราะหขอมลนนจะถกแยกจดหมวดหมตามประเภทการวเคราะห (รปท 9 หนาตาง Modules)

เมอมการลาก-วางโมดลลงในพนททำการทดลอง จะปรากฏกลองโมดลดงรปท 10 กลองโมดลหนงกลองประกอบดวยชอโมดล และโหนดสวนตอประสาน (Interface) โหนดดานบนกลองโมดลคอสวนตอประสานสำหรบขอมลเขา (Input Interface) และโหนดดานลางกลองโมดลคอสวนตอประสานขอมลออก (Output Interface) จำนวนโหนดสวนตอประสานจะมจำนวนแตกตางกนไปขนอยกบวธการวเคราะหขอมล

Page 14: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

10

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

ทเลอก ผใชสามารถอานคำอธบายสวนตอประสานไดโดยการนำเมาสไปวางไวบนโหนดทตองการ จะปรากฏคำอธบายของสวนตอประสานนน

รปท 10 กลองโมดลบนพนททำการทดลอง

เมอมการเลอกกลองโมดลใดบนพนททำการทดลอง หนาตาง Properties จะแสดงพารามเตอรทจะตองกำหนดใหกบวธการวเคราะหขอมลทเลอก ในรปท 11 แสดงตวอยางของพารามเตอรของวธการเลอกลกษณะเดน (Feature Selection) ดวยวธ Fisher Linear Discriminant Analysis

รปท 11 พารามเตอรของวธการเลอกลกษณะเดน (Feature Selection) ดวยวธ Fisher Linear Discriminant Analysis

การตดตอกนระหวางโมดลตางๆ มลกษณะเปนการถายโอนขอมลเขา-ออกระหวางกน การตอประสานโมดลตางๆ เขาดวยกนทำไดโดยคลกทโหนดสวนตอประสานขอมลออกของกลองโมดลตนทาง แลวลากไปยงโหนดสวนตอประสานขอมลเขาของกลองโมดลปลายทาง เมอกลองโมดลสามารถเชอมตอกนไดจะปรากฏลกศรจากกลองตนทางมายงกลองปลายทางแทนการไหลของขอมล ดงรปท 12 ทงนผใชสามารถยกเลกการเชอมตอไดโดยการคลกเลอกเสนเชอมทตองการลบ จากนนคลกขวา เลอก Delete

Output Interface

Input Interface

Page 15: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

11

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

รปท 12 การตอประสานระหวางโมดล 2 โมดล ลกศรเชอมระหวางโมดลแทนทศทางการไหลของขอมล

เมอตองการประมวลผลขอมลตามขนตอนทไดออกแบบไว สามารถทำไดโดยกลายคลก RUN ในแถบคำสง ระหวางทโปรแกรมทำการประมวลทโมดลใด จะปรากฏสญลกษณ บนกลองโมดล หากระหวางการประมวลผลเกดขอผดพลาดทโมดลใด จะปรากฏสญลกษณ บนกลองโมดล ซงสามารถดคำอธบายขอผดพลาดไดโดยคลกทสญลกษณ และเมอการประมวลผลของโมดลใดเสรจสนแลว จะปรากฏสญลกษณ บนกลองโมดล

นอกจากผใชยงสามารถดาวนโหลดผลลพธ (Download) บนทกผลลพธ (Save As…) แสดงภาพของผลลพธ (Visualize) ของแตละโมเดลไดโดยการคลกขวาตรงโหนดสวนตอประสานขอมลออกของโมดลทตองการ จากนนเลอกคำสงทตองการดำเนนการ

Page 16: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

ชดขอมลทใชในปฏบตการ

1. ชดขอมล Comic Characters แฟมขอมล comics.csv เปนชดขอมลตวละครจากหนงสอการตนชด Marvel และ DC ซงถก

รวบรวมจากเวบไซต Marvel Wikia2 และ DC Wikia3 ประกอบขอมลทงหมด 23,272 ระเบยน มตวแปร (Variable) ดงน

ตวแปร คำอธบาย name ชอตวละคร id สถานะของตวระบอตลกษณของตวละคร มคาทเปนไปได คอ secret, public หรอ

no dual align แนวรวมของตวละคร มคาทเปนไปได คอ Good Bad หรอ Neutral eye สตาของตวละคร hair สผมของตวละคร gender เพศของตวละคร gsm เพศสภาพของตวละคร alive การมอยของตวละคร มคาทเปนไปได คอ alive หรอ deceased appearances จำนวนครงการปรากฏตวในหนงสอการตน first_appear เดอนและป (ค.ศ.) ทตวละครปรากฏตวขนครงแรก publisher ชอชดหนงสอการตนทตวละครถกตพมพ มคาทเปนไปได คอ marvel หรอ dc * คาขอมลสญหาย (Missing Data) ถกระบเปนคา NA

แหลงขอมล: ถกรวมมาจากชดขอมล 2 ชด คอ dc-wikia-data และ marvel-wikia-data ซงสามารถ ดาวน โหลดได จ าก เว บ ไซต https://github.com/fivethirtyeight/data/tree/master/comic-characters หมายเหต การรวมชดขอมลทง 2 ชด ซงมมาตรฐานการลงขอมลตางกน ทำใหตวแปร first_appear ในชดขอมล comics มความไมเปนมาตรฐานเดยวกน โดยตวละครจากชดหนงสอการตน Marvel ระบคาตวแปร first_appear ในรปแบบ เดอน-ป (mmm-yy) สวนตวละครจากชดหนงสอการตน DC ระบคาตวแปร first_appear ในรปแบบ ป, เดอน (yyyy, mmm) ขอมล first_appear ของบางตวละครไมสมบรณ คอ ระบเฉพาะป

2 https://marvel.fandom.com/wiki/Marvel_Database 3 https://dc.fandom.com/wiki/DC_Comics_Database

Page 17: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

13

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

2. ชดขอมล 2004 New Car and Truck แฟมขอมล cars04.csv เปนชดขอมลรถยนตและรถบรรทกทออกจำหนายในป 2004 จำนวน

428 รน ประกอบดวยตวแปร (Variable) ดงน

ตวแปร คำอธบาย name ชอรนของรถยนตหรอรถบรรทก sports_car ตวระบวาเปน sports car หรอไม มคาทเปนไปได คอ TRUE หรอ FALSE suv ตวระบวาเปน Sport Utility Vehicle หรอไม มคาทเปนไปได คอ TRUE หรอ

FALSE wagon ตวระบวาเปน Wagon หรอไม มคาทเปนไปได คอ TRUE หรอ FALSE minivan ตวระบวาเปน Minivan หรอไม มคาทเปนไปได คอ TRUE หรอ FALSE pickup ตวระบวาเปน Pickup หรอไม มคาทเปนไปได คอ TRUE หรอ FALSE all_wheel ตวระบวาเปน All-Wheel Drive หรอไม มคาทเปนไปได คอ TRUE หรอ FALSE rear_wheel ตวระบวาเปน Rear-Wheel Drive หรอไม มคาทเปนไปได คอ TRUE หรอ FALSE msrp ราคาขายปลกทแนะนำโดยผผลต (หนวย: ดอลลาร) dealer_cost ราคาขายจรง (หนวย: ดอลลาร) eng_size ขนาดเครองยนต (หนวย: ลตร) ncyl จำนวนกระบอกสบ (มคาเปน -1 เมอเปนเครองยนตโรทาร) horsepwr กำลงมา city_mpg คาความคมคาของรถยนตเมอขบในเมอง (หนวย: ไมลตอแกลลอน) hwy_mpg คาความคมคาของรถยนตเมอบนทางหลวง (หนวย: ไมลตอแกลลอน) weight นำหนก (หนวย: ปอนด) wheel_base ขนาดฐานลอ (หนวย: นว) length ความยาวตวรถ (หนวย: นว) width ความกวางตวรถ (หนวย: นว) * คาขอมลสญหาย (Missing Data) ถกระบเปนคา NA

แหลงขอมล: http://jse.amstat.org/datasets/04cars.dat.txt

Page 18: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

14

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

3. ชดขอมล 120 Years of Olympic History athletes and Results แฟมขอมล athlete_events.csv เปนขอมลผลการแขงขนโอลมปก ระหวางป ค.ศ. 1896 ถง

2016 ซงรวบรวมมาจากเวบไซต www.sports-reference.com ประกอบดวยขอมล 271,116 ระเบยน มตวแปร (Variable) ดงน

ตวแปร คำอธบาย ID หมายเลขระบนกกฬา Name ชอนกกฬา Sex เพศ Age อาย Height ความสง (หนวย: เซนตเมตร) Weight นำหนก (หนวย: กโลกรม) Team ชอทม NOC คณะกรรมการโอลมปกแหงชาต (3-letter code) Games ชอเกมการแขงขน (ป-ฤดแขงขน) Year ปทจดการแขงขน Season ฤดแขงขน มคาทเปนไปได คอ Summer หรอ Winter City ประเทศเจาภาพ Sport ชนดกฬา Event ประเภทการแขงขน Medal รางวล มคาทเปนไปได คอ Gold Silver Bronze หรอ NA-ไมไดเหรยญรางวล * คาขอมลสญหาย (Missing Data) ถกระบเปนคา NA

แหลงขอมล: https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results

Page 19: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

15

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

4. ชดขอมล Iris แฟมขอมล iris.csv เปนขอมลตวอยางของดอกไอรซ 3 สายพนธ ไดแก Setosa Versicolour

และ Virginica ทงหมด 150 ตวอยาง ประกอบดวยตวแปร (Variable) ดงน

ตวแปร คำอธบาย sepal_length ความยาวของกลบเลยง (หนวย: เซนตเมตร) sepal_width ความกวางของกลบเลยง (หนวย: เซนตเมตร) petal_length ความยาวของกลบดอก (หนวย: เซนตเมตร) petal_width ความกวางของกลบดอก (หนวย: เซนตเมตร) species สายพนธ คาทเปนไปได คอ Setosa Versicolour หรอ Virginica ชดขอมลนไมมคาสญหาย

แหลงขอมล: https://pennyanalytics.com/free-trial/

5. ชดขอมล Airfoil Self-Noise แฟมขอมล airfoil_self_noise.csv เปนชดขอมลจากการทดสอบทางอากาศพลศาสตรและ

เสยงของใบพดแพนอากาศ (airfoils blade) แบบสองและสามมตในอโมงคลมทไมมเสยงสะทอนกลบ ประกอบดวยขอมล 1,503 ระเบยน มตวแปร (Variable) ดงน

ตวแปร คำอธบาย frequency ความถ (หนวย: เฮรตซ) angle_of_attack มมของการปะทะ (หนวย: องศา) chord_length ความยาวของใบพดแพนอากาศ (หนวย: เมตร) free_stream_velocity ความเรวของของไหลทระยะใดๆ ทไกลจากวตถ (หนวย: เมตรตอ

วนาท) displacement_thickness ความหนาระยะขจดของดานดด (หนวย: เมตร) sound_pressure_level ระดบความดนเสยง (หนวย: เดซเบล) ชดขอมลนไมมคาสญหาย

แหลงขอมล: https://archive.ics.uci.edu/ml/datasets/Airfoil+Self-Noise

Page 20: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

16

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

6. ชดขอมล Mini Market Basket แฟมขอมล mini_market_basket.csv เปนชดขอมลการจำหนายสนคาของรานสะดวกซอแหง

หนง ประกอบดวยขอมลตะกราสนคาจำนวน 202 ตะกรา มตวแปร (Variable) ดงน

ตวแปร คำอธบาย id หมายเลขตะกราสนคา items รายการสนคาในตะกราสนคา แตละรายการสนคาแยกดวยเครองหมาย comma (,)

แหลงขอมล: ขอมลชดนสรางขนโดยการสมขอมลจากชดขอมล Market Basket Optimisation สามารถเขาถงไดจากเวบไซต https://www.kaggle.com/roshansharma/market-basket-optimization

7. ชดขอมล Simulated Online Shopping Carts แฟมขอมล simulated_online_shopping_carts.csv เปนชดขอมลจำลองของการจำหนาย

สนคาของรานคาออนไลนแหงหนง ประกอบดวยขอมลตะกราสนคาจำนวน 100,000 ตะกรา มตวแปร (Variable) ดงน

ตวแปร คำอธบาย transaction_id หมายเลขรายการคา products รายการสนคาในรายการคา แตละรายการสนคาแยกดวยเครองหมาย comma (,)

แหลงขอมล: ชดขอมล simulated online shopping carts เปนชดขอมลทถกจำลองขนสำหรบใชประกอบการทดลองการหากฏความสมพนธ โดยใชโมดล Discover Association Rules ซงถกเผยแพรผาน Azure AI Gallery ในชอเรอง Frequently Bought Together Product Suggestions via Association Rule Mining สามารถเขาถงไดจากเวบไซต https://gallery.azure.ai/Experiment/Frequently-Bought-Together-Product-Suggestions-via-Association-Rule-Mining-1

Page 21: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

17

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

8. ชดขอมล Mushroom แฟมขอมล mushrooms.csv เปนชดขอมลทรวบรวมตวอยางของเหด 23 ชนดในวงศ

Agaricus และ Lepiota แตละชนดถกระบวาเปนเหดชนดรบประทานได (Edible) หรอเหดพษ (Poisonous) ซงรวมเหดชนดทไมสามารถระบวารบประทานไดหรอไมและเหดชนดทไมแนะนำใหรบประทาน ชดขอมลนประกอบดวยตวอยางทงหมด 8,124 ตวอยาง มตวแปร (Variable) ดงน

ตวแปร คำอธบาย class ปายระบวาเปนเหดชนดทรบประทานได (Edible) หรอเปนพษ (Poisonous) ม

คาทเปนไปได คอ e แทน Edible หรอ p แทน Poisonous cap-shape ลกษณะหมวกเหด มคาทเปนไปได คอ

b แทน bell c แทน conical x แทน convex f แทน flat k แทน knobbed s แทน sunken

cap-surface พนผวของหมวกเหด มคาทเปนไปได คอ f แทน fibrous g แทน grooves y แทน scaly s แทน smooth

cap-color สของหมวกเหด มคาทเปนไปได คอ n แทน brown b แทน buff c แทน cinnamon g แทน gray r แทน green p แทน pink u แทน purple e แทน red w แทน white y แทน yellow

bruises รอยจำของเหด มคาทเปนไปได คอ t แทน เหดมรอยจำ หรอ n แทน เหดไมมรอยจำ

odor กลนของเหด คาทเปนไปได คอ a แทน almond l แทน anise c แทน creosote y แทน fishy f แทน foul m แทน musty n แทน none p แทน pungent s แทน spicy

gill-attachment การตดของครบ มคาทเปนไปได คอ a แทน attached d แทน descending f แทน free n แทน notched

gill-spacing ระยะหางของครบ มคาทเปนไปได คอ c แทน close หรอ w แทนcrowded หรอ d แทน distant

gill-size ขนาดของครบ มคาทเปนไปได คอ b แทน broad หรอ n แทน narrow gill-color สของครบ มคาทเปนไปได คอ

k แทน black n แทน brown b แทน buff h แทน chocolate g แทน gray r แทน green

Page 22: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

18

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

ตวแปร คำอธบาย o แทน orange p แทน pink u แทน purple e แทน red w แทน white y แทน yellow

stalk-shape รปรางของกานเหด มคาทเปนไปได คอ e แทน enlarging หรอ t แทน tapering

stalk-root รปรางของฐานกานหรอโคนเหด มคาทเปนไปได คอ b แทน bulbous c แทน club u แทน cup e แทน equal z แทน rhizomorphs r แทน rooted ? แทน missing value*

stalk-surface-above-ring

พนผวของกานเหนอวงแหวนเหด มคาทเปนไปได คอ f แทน fibrous y แทน scaly k แทน silky s แทน smooth

stalk-surface-below-ring

พนผวของกานใตวงแหวนเหด มคาทเปนไปได คอ f แทน fibrous y แทน scaly k แทน silky s แทน smooth

stalk-color-above-ring

สของกานเหนอวงแหวนเหด มคาทเปนไปได คอ n แทน brown b แทน buff c แทน cinnamon g แทน gray o แทน orange p แทน pink e แทน red w แทน white y แทน yellow

stalk-color-below-ring

สของกานใตวงแหวนเหด มคาทเปนไปได คอ n แทน brown b แทน buff c แทน cinnamon g แทน gray o แทน orange p แทน pink e แทน red w แทน white y แทน yellow

veil-type ชนดของเยอหมกาน มคาทเปนไปได คอ p แทน partial หรอ u แทนuniversal

veil-color สของเยอหมกาน มคาทเปนไปได คอ n แทน brown o แทน orange w แทน white y แทน yellow

ring-number จำนวนวงแหวน มคาทเปนไปได คอ n แทน none หรอ o แทน one หรอ t แทน two

ring-type ชนดของวงแหวน มคาทเปนไปได คอ c แทน cobwebby e แทน evanescent f แทน flaring l แทน large n แทน none p แทน pendant s แทน sheathing z แทน zone

Page 23: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

19

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

ตวแปร คำอธบาย spore-print-color

สของสปอร มคาทเปนไปได คอ k แทน black n แทน brown b แทน buff h แทน chocolate r แทน green o แทน orange u แทน purple w แทน white y แทน yellow

population ลกษณะการกระจายของประชากรเหด มคาทเปนไปได คอ a แทน abundant c แทน clustered n แทน numerous s แทน scattered v แทน several y แทน solitary

habitat ถนทอย มคาทเปนไปได คอ g แทน grasses l แทน leaves m แทน meadows p แทน paths u แทน urban w แทน waste d แทน woods

* คาขอมลสญหาย (Missing Data) ถกระบเปนคา ? แหลงขอมล: https://www.kaggle.com/uciml/mushroom-classification

Page 24: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

20

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

9. ชดขอมล Carbon Nanotubes แฟมขอมล carbon_nanotubes.csv เปนชดขอมลทถกสรางขนดวยโปรแกรม CASTEP โดยใช

วธการการหาคาเหมาะทสดเชงเรขาคณตของทอนาโนคารบอน (CNT geometry optimization) ขอมลพกดเรมตนของอะตอมคารบอน (u, v, w) และ ไครลเวกเตอร (n, m) ถกปอนใหเปนขอมลเขาของโปรแกรม CASTEP และขอมลพกดของอะตอมคารบอน (u’, v’, w’) ทคำนวณไดเปนผลลพธจากโปรแกรม CASTEP ชดขอมลนประกอบดวยตวอยางทงหมด 10,721 ตวอยาง มตวแปร (Variable) ดงน

ตวแปร คำอธบาย CI_n คาพารามเตอร n ของไครลเวกเตอรทถกเลอกใช CI_m คาพารามเตอร m ของไครลเวกเตอรทถกเลอกใช Init_coor_u พกดเรมตนของอะตอมคารบอนแนวแกน u ทถกสรางขนโดยวธสม Init_coor_v พกดเรมตนของอะตอมคารบอนแนวแกน v ทถกสรางขนโดยวธสม Init_coor_w พกดเรมตนของอะตอมคารบอนแนวแกน w ทถกสรางขนโดยวธสม Cal_coor_u พกดของอะตอมคารบอนแนวแกน u ทถกคำนวณไดจากโปรแกรม CASTEP Cal_coor_v พกดของอะตอมคารบอนแนวแกน v ทถกคำนวณไดจากโปรแกรม CASTEP Cal_coor_w พกดของอะตอมคารบอนแนวแกน w ทถกคำนวณไดจากโปรแกรม CASTEP

แหลงขอมล: https://archive.ics.uci.edu/ml/datasets/Carbon+Nanotubes ขอมลเพมเตม: ACI, M , AVCI, M . (2016). ARTIFICIAL NEURAL NETWORK APPROACH FOR ATOMIC COORDINATE PREDICTION OF CARBON NANOTUBES. Applied Physics A, 122, 631.

10. ชดขอมล VIX Prices แฟมขอมล vix_prices.csv เปนชดขอมลราคาของดชนซงคำนวณโดยตลาดซอขายอนพนธ

Chicago Board Options Exchange (CBOE) ตงแตป ค.ศ.1990 ถงป ค.ศ. 2019 ชดขอมลนประกอบดวยตวอยางทงหมด 3,532 ตวอยาง มตวแปร (Variable) ดงน

ตวแปร คำอธบาย date ขอมลระบวน-เดอน-ปของขอมล ในรปแบบ mm/dd/yyyy vix_open ราคาเปดตลาดของ vix ณ วนทระบในตวแปร date vix_high ราคาสงสดของ vix ณ วนทระบในตวแปร date vix_low ราคาตำสดของ vix ณ วนทระบในตวแปร date vix_close ราคาปดตลาดของ vix ณ วนทระบในตวแปร date

แหลงขอมล: https://github.com/NathanMaton/vix_prediction

Page 25: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

ปฏบตการท 1 การเตรยมแฟมขอมลและการนำเขาขอมลสเครองมอวเคราะหขอมล

วตถประสงค 1. เพอใหสามารถจดเตรยมขอมลใหอยในรปแบบทเหมาะสมสำหรบการนำไปวเคราะหดวย

เครองมอวเคราะหขอมลทางวทยาการขอมล 2. เพอใหสามารถนำขอมลเขาสเครองมอวเคราะหขอมลเพอประมวลผลตอไปได

1. ชดขอมลปฏบตการ − ชดขอมล Comic Characters (สำหรบการสาธต) − ชดขอมล 2004 New Car and Truck (สำหรบการฝกปฏบตการ)

2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน

1. เปดแฟมขอมล comics.csv ดวยโปรแกรม Microsoft Excel แถวขอมลแรกระบชอคอลมน (ตวแปร) แถวขอมลท 2 ถง 23,273 เปนระเบยนขอมลของตวละครแตละตว

2. ทำการแทนทขอมลในเซลลขอมลทมคา NA ดวยคา วางเปลา เนองจาก ML Studio กำหนดใหเซลลขอมลใดทเปนขอมลสญหาย ตองเปนเซลลวางเปลา

Page 26: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

22

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

3. บนทกแฟมขอมล comics.csv 4. เปดโปรแกรม ML Studio (ดหวขอ Microsoft Azure Machine Learning Studio การ

เขาใชงานเบองตน) 5. นำชดขอมลจากแฟมขอมล comics.csv เขาส ML Studio (ดหวขอ Microsoft Azure

Machine Learning Studio การนำชดขอมลจากคอมพวเตอรสวนตวเขาส ML Studio) โดยกำหนดชอชดขอมลเปน “comics” และเลอกชนดของชดขอมลเปน “Generic CSV File with a header (.csv)”

6. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 1” (ดหวขอ Microsoft Azure Machine Learning Studio การสรางการทดลอง)

7. นำชดขอมล comics เขาสการทดลองโดยลากโมดลชดขอมล comics ทอยภายใต Saved Datasets My Datasets ในหนาตางยอย Modules มาวางบน Workspace

8. เขาดขอมลในชดขอมล comics โดยการคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏหนาตางแสดงขอมลภายในชดขอมล ดงรป

จำนวนคอลมนและแถว

ตารางขอมล

Statistics และ Visualizations

Page 27: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

23

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

9. ในหนาตางแสดงขอมล ประกอบดวยสวนตางๆ ดงน • จำนวนคอลมนและแถว แสดงจำนวนตวแปรและระเบยนขอมลตามลำดบ • ตารางขอมล ประกอบดวย

▪ ชอคอลมน เมอคลกทชอคอลมนขอมลในสวน Statistics และ Visualizations ซงอธบายขอมลทางสถตของตวแปรนนในชดขอมล

▪ การกระจายของขอมลในแตละตวแปร แสดงใตชอคอลมน ▪ ขอมลแตละระเบยน (อาจไมแสดงครบทกขอมล)

• Statistics และ Visualizations แสดงคาทางสถตและการกระจายของขอมล 10. สรปขอมลในชดขอมล comics โดยลากโมดล Summarize Data ทอยภายใต Statistical

Functions ในหนาตางยอย Modules มาวางบน Workspace (ไวดานลางกลองโมดลชดขอมล comics)

11. คลกท โหนดสวนตอประสานขอมลออก ของกลองโมดลชดขอมล comics แลวลากวางยง โหนดสวนตอประสานขอมลเขาของกลองโมดลชดขอมล Summarize Data

12. คลกคำสง RUN 13. เมอโปรแกรมประมวลผลเรยบรอย ดผลลพธของโมดล Summarize Data โดยการคลกทโหนด

สวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏหนาตาง ดงรป

Page 28: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

24

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

3. แบบฝกปฏบตการ ใหนกศกษานำชดขอมล 2004 New Car and Truck จากแฟมขอมล cars04.csv เขาส

โปรแกรม ML Studio กำหนดชอชดขอมลเปน “Cars04” และสรางการทดลอง กำหนดชอเปน “Lab 1” โดยใหนำชดขอมล Cars04 เขาสการทดลอง และใชโมดล Summarize Data ในการสรปขอมลในชดขอมล

สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_01_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th

ชอ Workspace

Page 29: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

ปฏบตการท 2 การจดเตรยมขอมลกอนการวเคราะห

วตถประสงค 1. เพอใหสามารถแปลงชนดขอมล (Datatype) ของตวแปรใหอยรปแบบทเหมาะสมสำหรบ

การวเคราะหได 2. เพอใหสามารถจดการกบคาสญหาย (Missing Value) โดยวธการเตมคาขอมลหรอลบขอมล

ได

1. ชดขอมลปฏบตการ − ชดขอมล Comic Characters (สำหรบการสาธต) − ชดขอมล 120 Years of Olympic History athletes and Results (สำหรบการฝกปฏบตการ)

2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน

1. นำเขาชดขอมล Comic Characters จากแฟมขอมล comics.csv โดยเปลยนคาในเซลลทมคา NA เปนคาวางเปลาดวย และตงชอชดขอมลเปน comics (ดหวขอ ปฏบตการท 1)

2. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 2” 3. นำชดขอมล comics เขาสการทดลองโดยลากโมดลชดขอมล comics ทอยภายใต Saved

Datasets My Datasets ในหนาตางยอย Modules มาวางบน Workspace 4. เขาดขอมลในชดขอมล comics โดยการคลกทโหนดสวนตอประสานขอมลออก แลวเลอก

Visualize จะปรากฏหนาตางแสดงขอมลภายในชดขอมล ดงรป

Page 30: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

26

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

5. ตรวจสอบพรอมจดบนทกชนดขอมลและจำนวนคาสญหาย (Missing Values) ของแตละตวแปร โดยคลกทชอคอลมน แลวสงเกตคา Feature Type และ Missing Values ในหนาตางยอย Statistics

6. หากตองการเปลยนแปลงชนดขอมลของตวแปร สามารถทำไดโดยใชโมดล Edit Metadata (ภายใต Data Transformation Manipulation)

7. ลากโมดล Edit Metadata มาวางบน Workspace แลวเชอมโยงโมดลชดขอมล comics กบโมดล Edit Metadata โดยใหชดขอมล comics เปนขอมลเขา

8. คลกทโมดล Edit Metadata ทหนาตางยอย Properties จะปรากฏฟอรมสำหรบกำหนดพารามเตอรของโมดล ดงน (สามารถศกษาเพมเตมไดทเวบไซต https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/edit-metadata)

9. คลก Launch column selector เพอเลอกตวแปรทตองการเปลยนชนดขอมล จะปรากฏไดอะลอก Select columns ดงรป

Page 31: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

27

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

10. ในทนจะแกไขชนดขอมลของตวแปร eye และ hair โดยคลกเลอกตวแปร eye จากสวน AVALIABLE COLUMNS แลวคลกปม > ตอมาเลอกตวแปร hair จากสวน AVALIABLE COLUMNS แลวคลกปม > (สามารถเลอกตวแปรหลายตวพรอมกนกนโดยการกดปม CTRL พรอมกบคลกเลอก) จะสงเกตไดวาทงตวแปร eye และ hair ถกยายมายงสวน SELECTED COLUMNS เสรจแลวคลกปม

11. ตอมาเลอกชนดขอมลทตองการจากลสต Data type ในทนเลอกเปน String และกำหนดใหเปนขอมลทจดเปนกลม โดยเลอกตวเลอก Make categorical จากลสต Categorical กรณนจะทำใหตวแปร eye และ hair เปนขอมลทจดเปนกลม (Categorical Data)

12. คลก RUN แลวดผลลพธของโมดล Edit Metadata เปรยบเทยบกบผลลพธของโมดลชดขอมล comics จะพบวากอนการเรยกใชโมดล Edit Metadata ชนดของขอมลตวแปร eye และ hair เปน String Feature หลงจากการแปรชนดขอมลของตวแปรทงสองแลว ชนดของขอมลตวแปรเปน Categorical Feature ขอแนะนำ หากตองการเปลยนแปลงชนดขอมลตวแปรอนๆ เพมเตมสามารถทำไดโดยใชงานโมดล Edit Metadata โดยทสงผลลพธของโมดลกอนหนาเปนขอมลเขา ทำเชนนเปนทอดๆ จนกวาชนดขอมลของทกตวแปรเปนไปตามทตองการ

13. การจดการคาสญหาย (Missing Value) ทำไดโดยใชโมดล Clean Missing Data (ภายใต Data Transformation Manipulation)

14. เมอลากโมดล Clean Missing Data วางบน Workspace แลว เชอมโยงโมดล Edit Metadata กบโมดล Clean Missing Data โดยใหผลลพธจากโมดล Edit Metadata เปนขอมลเขาของโมดล Clean Missing Data และเพมขอความอธบาย (Comment) โดยการคลกขวาทโมดล เลอก Edit Comment พมพขอความอธบายเปน “For gsm”

Page 32: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

28

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

15. คลกทโมดล Clean Missing Data ทหนาตางยอย Properties จะปรากฏฟอรมสำหรบกำหนดพารามเตอรของโมดล ดงน (สามารถศกษาเพมเตมไดทเวบไซต https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/clean-missing-data)

16. คลก Launch column selector เพอเลอกตวแปรทตองการจดการกบคาสญหาย จะปรากฏไดอะลอก Select columns คลกท BY NAME เพอเลอกจากชอคอลมน

17. ทำการเลอกตวแปรทตองการ ในทนจะเลอกตวแปร gsm แลวคลก ปม ขอแนะนำ สามารถเลอกตวแปรเพอจดการกบคาสญหายไดครงละหลายตวแปร อยางไรกตามตวแปรเหลานนจะตองใชวธการจดการคาสญหายดวยวธเดยวกน หากตองการจดการคาสญหายของตวแปรอนๆ ดวยวธการไมเหมอนกน สามารถทำไดโดยใชงานโมดล Clean Missing Data แยกเฉพาะกลมตวแปรทใชวธการจดการคาสญหายเดยวกน โดยทสงผลลพธของโมดลกอนหนาเปนขอมลเขา ทำเชนนเปนทอดๆ

18. ตอมาเลอกวธการจดคาสญหายจากลสต Cleaning Mode เปน Remove entire column เนองจากสงเกตไดวาโดยสวนมากคา gsm ของขอมลทกแถวจจะสญหาย

19. คลก RUN แลวดผลลพธของโมดล Clean Missing Data โดยโมดลนใหผลลพธ 2 อยาง คอ 1) ชดขอมลมลทถกจดการคาสญหายแลว (Cleaned Dataset) สำหรบนำขอมลชดนไปใชในการวเคราะหตอไป และ 2) ตวแปลงขอมล (Cleaning Transformation) สำหรบนำไปใชกบขอมลชดใหมทมโครงสรางขอมลเดยวกนและตองใชวธการจดการกบคาสญหายดวยวธเดยวกน

20. คลกเลอก Visualize จากโหนดสวนตอประสานขอมลออกโหลดแรกของ โมดล Clean Missing Data จะพบวาคอลมน gsm หายไป

Page 33: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

29

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

21. ตอมาทำการจดการคาสญหายของตวแปร appearance โดยการลากโมดล Clean Missing Data ใหมมาวางบน workspace และเพมขอความอธบาย (Comment) เปน For appearance แลวใหผลลพธของโมดล Clean Missing Data สำหรบตวแปร gsm เปนขอมลเขาของโมดล Clean Missing Data สำหรบตวแปร appearance

22. ทำการเลอกตวแปร appearance แลวเลอกวธการจดคาสญหายจากลสต Cleaning Mode เปน Replace with mean

23. คลก RUN แลวดผลลพธของโมดล Clean Missing Data สำหรบตวแปร appearance จะพบวาจำนวนขอมลสญหายของตวแปร appearance มคาเทากบ 0 (จากเดมมจำนวนขอมลสญหาย 1,451 ขอมล)

3. แบบฝกปฏบตการ ใหนกศกษาทำแบบฝกปฏบตการ ตามลำดบขนตอนตอไปน

1. นำชดขอมล 120 Years of Olympic History athletes and Results จากแฟมขอมล athlete_events.csv เขาสโปรแกรม ML Studio (ทำการเปลยนคาระบขอมลสญหายจาก NA เปนคา วางเปลา ดวย) กำหนดชอชดขอมลเปน “athlete events”

2. สรางการทดลอง กำหนดชอเปน “Lab 2” โดยใหนำชดขอมล athlete events เขาสการทดลอง

3. จดบนทกชนดขอมลและจำนวนคาสญหายของแตละตวแปร 4. ทำการเปลยนชนดขอมล และจดการคาสญหายของแตละตวแปร ตามรายละเอยดในตาราง

ดานลางน

Page 34: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

30

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

ตวแปร ชนดขอมล วธการจดการคาสญหาย ID String Feature (ไมม Missing Value) Name String Feature (ไมม Missing Value) Sex Categorical Feature (ไมม Missing Value) Age Numeric Feature (Integer) Replace with median Height Numeric Feature (Floating Point) Replace with mean Weight Numeric Feature (Floating Point) Replace with mean Team Categorical Feature (ไมม Missing Value) NOC Categorical Feature (ไมม Missing Value) Games String Feature (ไมม Missing Value) Year Numeric Feature (Integer) (ไมม Missing Value) Season Categorical Feature (ไมม Missing Value) City Categorical Feature (ไมม Missing Value) Sport Categorical Feature (ไมม Missing Value) Event String Feature (ไมม Missing Value) Medal Categorical Feature Custom substitution value

(Replacement value = None)

สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_02_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th

Page 35: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

ปฏบตการท 3 การคำนวณคาสถตเชงพรรณาจากตารางขอมลหลก

วตถประสงค 1. เพอใหสามารถใชเครองมอวเคราะหขอมลในการคำนวณคาสถตเชงพรรณนา เพออธบาย

ลกษณะของขอมลได 2. เพอใหสามารถใชเครองมอวเคราะหขอมลในการคำนวณหาคาสหสมพนธ (Correlation)

ระหวางตวแปรได

1. ชดขอมลปฏบตการ − ชดขอมล Iris (สำหรบการสาธต) − ชดขอมล Airfoil Self-Noise (สำหรบการฝกปฏบตการ)

2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน

1. นำเขาชดขอมล Iris จากแฟมขอมล iris.csv ตงชอชดขอมลเปน iris 2. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 3” 3. นำชดขอมล iris เขาสการทดลองโดยลากโมดลชดขอมล iris ทอยภายใต Saved Datasets

My Datasets ในหนาตางยอย Modules มาวางบน Workspace 4. เขาดขอมลในชดขอมล iris (คลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize)

ตรวจสอบชนดขอมล กำหนดใหแตละตวแปรตองมชนดขอมล ดงน

ตวแปร ชนดขอมล sepal_length Numeric Feature (Floating Point) sepal_width Numeric Feature (Floating Point) petal_length Numeric Feature (Floating Point) petal_width Numeric Feature (Floating Point) species Categorical Feature

Page 36: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

32

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

5. ทำการแกไขชนดขอมลของตวแปร (ใชโมดล Edit Metadata) หากชนดขอมลเดมไมตรงกบชนดขอมลทกำหนด

6. คำนวณคาสถตเขงพรรณาของแตละตวแปรในชดขอมล iris โดยใชโมดล Summarize Data (อยภายใต Statistical Functions)

7. คลกคำสง RUN เมอโปรแกรมประมวลผลเรยบรอย ดผลลพธของโมดล Summarize Data โดยการคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏหนาตาง ดงรป

8. ศกษาคาสถตเชงพรรณาของตวละตวแปรจากผลลพธของโมดล Summarize Data 9. คำนวณคาสหสมพนธเชงเสนตรงของแตละคตวแปรในชดขอมล iris โดยใชโมดล Compute

Linear Correlation (อยภายใต Statistical Functions) 10. คลกคำสง RUN เมอโปรแกรมประมวลผลเรยบรอย ดผลลพธของโมดล Compute Linear

Correlation โดยการคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏหนาตาง ดงรป

11. ศกษาคาสหสมพนธเชงเสนตรงของแตละคตวแปรในชดขอมล iris จากผลลพธของโมดล Compute Linear Correlation

Page 37: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

33

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

3. แบบฝกปฏบตการ ใหนกศกษาทำแบบฝกปฏบตการ ตามลำดบขนตอนตอไปน

1. ใหนกศกษานำชดขอมล Airfoil Self-Noise จากแฟมขอมล airfoil_self_noise.csv เขาสโปรแกรม ML Studio กำหนดชอชดขอมลเปน “airfoil self-noise”

2. สรางการทดลอง กำหนดชอเปน “Lab 3” โดยใหนำชดขอมล airfoil self-noise เขาสการทดลอง

3. คำนวณคาสถตเขงพรรณาของแตละตวแปรในชดขอมล airfoil self-noise โดยใชโมดล Summarize Data แลวศกษาและอภปรายผลลพธ

4. คำนวณคาสหสมพนธเชงเสนตรงของแตละคตวแปรในชดขอมล airfoil self-noise โดยใชโมดล Compute Linear Correlation แลวศกษาและอภปรายผลลพธ

สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_03_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th

Page 38: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

ปฏบตการท 4 การใชเครองมอวเคราะหกลมของขอมล

วตถประสงค 1. เพอใหสามารถใชเครองมอวเคราะหกลมขอมลดวยวธการ k-mean ได 2. เพอใหสามารถใชเครองมอวเคราะหกลมขอมลดวยวธการ Hierarchical Clustering ได 3. เพอใหสามารถใชเครองมอวเคราะหกลมขอมลดวยวธการ DBSCAN ได

1. ชดขอมลปฏบตการ − ชดขอมล Iris (สำหรบการสาธต) − ชดขอมล 2004 New Car and Truck (สำหรบการฝกปฏบตการ)

2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน

1. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 4” 2. นำชดขอมล iris เขาสการทดลองโดยลากโมดลชดขอมล iris มาวางบน Workspace 3. เขาดขอมลในชดขอมล iris (คลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize)

ตรวจสอบชนดขอมล กำหนดใหแตละตวแปรตองมชนดขอมล ดงน

ตวแปร ชนดขอมล sepal_length Numeric Feature (Floating Point) sepal_width Numeric Feature (Floating Point) petal_length Numeric Feature (Floating Point) petal_width Numeric Feature (Floating Point) species Categorical Feature

4. ทำการแกไขชนดขอมลของตวแปร (ใชโมดล Edit Metadata) หากชนดขอมลเดมไมตรงกบชนดขอมลทกำหนด

5. ในปฏบตการนจะเลอกใชขอมลตวแปร sepal_length sepal_width petal_length และ petal_width ในการวเคราะหกลม โดยใชโมดล Select Columns in Dataset (ภายใต Data Transformation Manipulation) ใหทำการลากโมดลดงกลาวมาวางบน workspace

6. นำขอมลสงออกจากโมดล iris เปนขอมลนำเขาของโมดล Select Columns in Dataset

Page 39: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

35

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

7. คลกทกลองโมดล Select Columns in Dataset ทหนาตางยอย Properties คลก Launch column selector แลวเลอกตวแปรทตองการนำมาใชวเคราะห จากนนคลก

8. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Select Columns in Dataset จะพบวาตารางขอมลเหลอเพยง 4 คอลมน ไดแก sepal_length sepal_width petal_length และ petal_width

9. ตอมาทำการวเคราะหกลมขอมลดวยวธการ k-mean โดยการลากโมดล K-Means Clustering (ภายใต Machine Learning Initialize Model Clustering) มาวางบน workspace

10. คลกทกลองโมดล K-Means Clustering ทหนาตางยอย Properties จะปรากฏฟอรมสำหรบกำหนดพารามเตอรของโมดล ดงน (สามารถศกษาเพมเตมไดทเวบไซต https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/k-means-clustering)

11. กำหนดคาพารามเตอร Number of Centroids เปน 3 12. ตอมาลากโมดล Train Clustering Model (ภายใต Machine Learning Train) มาวางบน

workspace 13. นำขอมลสงออกจากโมดล K-Means Clustering เปนขอมลนำเขา Untrained model ของ

โมดล Train Clustering Model และนำขอมลสงออกจากโมดล Select Columns in Dataset เปนขอมลนำเขา Dataset ของโมดล Train Clustering Model

Page 40: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

36

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

14. คลกทกลองโมดล Train Clustering Model ทหนาตางยอย Properties คลก Launch column selector แลวเลอกตวแปร sepal_length sepal_width petal_length และ petal_width เพอใชในการวเคราะหกลม จากนนคลก

15. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Train Clustering Model โดยคลกทโหนดสวนตอประสานขอมลออก Results dataset แลวเลอก Visualize จะปรากฏผลลพธดงรป

16. ตอมาทำการวเคราะหกลมขอมลดวยวธการ Hierarchical Clustering โดยการลากโมดล Fit Hierarchical Clusters (ภายใต Custom หากไมพบโมดลดงกลาวใหทำการนำเขามาจาก Azure AI Gallery ดเนอหาหวขอ การนำเขาโมดลจาก Azure AI Gallery) มาวางบน workspace

Page 41: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

37

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

17. นำขอมลสงออกจากโมดล Select Columns in Dataset เปนขอมลนำเขา Dataset ของโมดล Fit Hierarchical Clusters

18. คลกทกลองโมดล Fit Hierarchical Clusters ทหนาตางยอย Properties จะปรากฏฟอรมสำหรบกำหนดพารามเตอรของโมดล ดงน (สามารถศกษาเพมเตมไดทเวบไซต https://gallery.azure.ai/CustomModule/Fit-Hierarchical-Clusters-1)

19. กำหนดคาพารามเตอร Number of clusters เปน 3 20. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Fit Hierarchical

Clusters โดยคลกทโหนดสวนตอประสานขอมลออก Clustered dataset แลวเลอก Visualize จะปรากฏผลลพธดงรป

21. ตอมาทำการวเคราะหกลมขอมลดวยวธการ DBSCAN โดยการลากโมดล Fit DBSCAN Clusters (ภายใต Custom หากไมพบโมดลดงกลาวใหทำการนำเขามาจาก Azure AI Gallery ดเนอหาหวขอ การนำเขาโมดลจาก Azure AI Gallery) มาวางบน workspace

22. นำขอมลสงออกจากโมดล Select Columns in Dataset เปนขอมลนำเขา Dataset ของโมดล Fit DBSCAN Clusters

23. คลกทกลองโมดล Fit DBSCAN Clusters ทหนาตางยอย Properties จะปรากฏฟอรมสำหรบกำหนดพารามเตอรของโมดล ดงน (สามารถศกษาเพมเตมไดทเวบไซต https://gallery.azure.ai/CustomModule/Fit-DBSCAN-Clusters-1)

หมายเลข Cluster ของขอมลแตละระเบยน

Page 42: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

38

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

24. กำหนดคาพารามเตอร Epsilon เปน 0.5 25. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Fit DBSCAN Cluste

โดยคลกทโหนดสวนตอประสานขอมลออก Clustered dataset แลวเลอก Visualize จะปรากฏผลลพธดงรป

3. แบบฝกปฏบตการ ใหนกศกษาทำแบบฝกปฏบตการ ตามลำดบขนตอนตอไปน

1. ใหนกศกษานำชดขอมล 2004 New Car and Truck จากแฟมขอมล cars04.csv เขาสโปรแกรม ML Studio กำหนดชอชดขอมลเปน “cars04”

2. สรางการทดลอง กำหนดชอเปน “Lab 4” โดยใหนำชดขอมล cars04 เขาสการทดลอง 3. เตมคาสญหายของขอมลของทกตวแปรดวยวธการแทนคาดวยคาเฉลย (Replace with mean) 4. เลอกใชขอมลตวแปร msrp dealer_cost eng_size ncyl horsepwr city_mpg

hwy_mpg weight wheel_base length และ width ในการวเคราะหกลม โดยใชโมดล Select Columns in Dataset

5. ทำการวเคราะหกลมขอมลดวยวธการ k-mean กำหนดคาพารามเตอร Number of Centroids เปน 7 แลวศกษาและอภปรายผลลพธ

6. ทำการวเคราะหกลมขอมลดวยวธการ Hierarchical Clustering กำหนดคาพารามเตอร Number of clusters เปน 7 แลวศกษาและอภปรายผลลพธ

หมายเลข Cluster ของขอมลแตละระเบยน

Page 43: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

39

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

7. ทำการวเคราะหกลมขอมลดวยวธการ DBSCAN กำหนดคาพารามเตอร Epsilon เปน 1 แลวศกษาและอภปรายผลลพธ

8. ทดลองเปลยนคาพารามเตอรตางๆ ของแตละวธการวเคราะหกลมขอมลเปนคาอนๆ และศกษาผลลพธทเกดขน ลองหาคำตอบวาพารามเตอรแตละตวสงผลตอผลลพธทเกดขนอยางไร

สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_04_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th

Page 44: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

ปฏบตการท 5 การใชเครองมอการวเคราะหตะกราตลาด

วตถประสงค 1. เพอใหสามารถใชเครองมอวเคราะหตะกราตลาด (Market Basket Analysis) ในการหา

frequent item set ได 2. เพอใหสามารถใชเครองมอวเคราะหตะกราตลาด (Market Basket Analysis) ในการหากฏ

ความสมพนธ (Association Rule) ได

1. ชดขอมลปฏบตการ − ชดขอมล Mini Market Basket (สำหรบการสาธต) − ชดขอมล Simulated Online Shopping Carts (สำหรบการฝกปฏบตการ)

2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน

1. นำเขาชดขอมล Mini Market Basket จากแฟมขอมล mini_market_basket.csv ตงชอชดขอมลเปน mini market basket

2. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 5” 3. นำชดขอมล mini market basket เขาสการทดลองโดยลากโมดลชดขอมลซงทอยภายใต

Saved Datasets My Datasets ในหนาตางยอย Modules มาวางบน Workspace 4. หา Frequent Item Sets ในชดขอมล mini market basket โดยลากโมดล Discover

Association Rules (ภายใต Custom หากไมพบโมดลดงกลาวใหทำการนำเขามาจาก Azure AI Gallery ดเนอหาหวขอ การนำเขาโมดลจาก Azure AI Gallery) มาวางยง workspace และเพมขอความอธบาย (Comment) โดยการคลกขวาทโมดล เลอก Edit Comment พมพขอความอธบายเปน “Find Frequent Item Sets”

5. นำขอมลสงออกจากโมดลขอมล mini market basket เปนขอมลนำเขา Dataset ของโมดล Discover Association Rules

6. คลกทกลองโมดล Discover Association Rules ทหนาตางยอย Properties จะปรากฏฟอรมสำหร บกำหนดพาราม เ ตอร ของ โมด ล (สามารถศ กษา เพ ม เต ม ได ท เ ว บ ไซต https://gallery.azure.ai/CustomModule/Discover-Association-Rules-1)

Page 45: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

41

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

24. กำหนด Input Dataset Type เปน Items list แลวคลก Launch column selector เพอเลอกตวแปรทจดเกบรายการสนคาทตองการประมวลผล ในทนเลอกตวแปร items แลวคลก

7. กำหนดคาพารามเตอร ดงน • Minimal Support: 0.1 • Minimal Confidence: 0.1 • Minimal Number of Items in a Rule: 1 • Maximal Number of Items in a Rule: 5 • Return type: Frequent Itemsets

8. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Discover Association Rules โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป

9. หากฏความสมพนธ (Association Rules) ในชดขอมล mini market basket โดยลากโมดล Discover Association Rules มาวางยง workspace และเพมขอความอธบาย (Comment) เปน “Find Association Rules”

10. นำขอมลสงออกจากโมดลขอมล mini market basket เปนขอมลนำเขา Dataset ของโมดล Discover Association Rules (สำหรบหากฏความสมพนธ)

25. คลกทกลองโมดล Discover Association Rules (สำหรบหากฏความสมพนธ) กำหนด Input Dataset Type เปน Items list แลวคลก Launch column selector เพอเลอกตวแปรทจดเกบรายการสนคาทตองการประมวลผล ในทนเลอกตวแปร items แลวคลก

11. กำหนดคาพารามเตอร ดงน • Minimal Support: 0.1 • Minimal Confidence: 0.1 • Minimal Number of Items in a Rule: 1

Frequent Item Sets

Page 46: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

42

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

• Maximal Number of Items in a Rule: 5 • Return type: Rules

12. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Discover Association Rules (สำหรบหากฏความสมพนธ) โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป

3. แบบฝกปฏบตการ ใหนกศกษาทำแบบฝกปฏบตการ ตามลำดบขนตอนตอไปน

1. ใหนกศกษานำชดขอมล Simulated Online Shopping Carts จากแฟมขอมล simulated_online_shopping_carts.csv เขาสโปรแกรม ML Studio กำหนดชอชดขอมลเปน “simulated online shopping carts”

2. สรางการทดลอง กำหนดชอเปน “Lab 5” โดยใหนำชดขอมล simulated online shopping carts เขาสการทดลอง

3. หา Frequent Item Sets ในชดขอมล simulated online shopping carts จากตวแปร products โดยกำหนดคาพารามเตอร ดงน (เพมขอความอธบาย (Comment) โมดล เปน “Find Frequent Item Sets”

• Minimal Support: 0.01 • Minimal Confidence: 0.2 • Minimal Number of Items in a Rule: 1 • Maximal Number of Items in a Rule: 5

กฏความสมพนธถกอธบายในรปแบบ lhs rhs

Page 47: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

43

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

4. หากฏความสมพนธ (Association Rules) ในชดขอมล simulated online shopping carts จากตวแปร products โดยกำหนดคาพารามเตอร ดงน (เพมขอความอธบาย (Comment) โมดล เปน “Find Association Rules”

• Minimal Support: 0.1 • Minimal Confidence: 0.2 • Minimal Number of Items in a Rule: 2 • Maximal Number of Items in a Rule: 5

5. ทดลองเปลยนคาพารามเตอรตางๆ ของโมดลการหา Frequent Item Sets และกฏความสมพนธเปนคาอนๆ และศกษาผลลพธทเกดขน ลองหาคำตอบวาพารามเตอรแตละตวสงผลตอผลลพธทเกดขนอยางไร

สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_05_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th

Page 48: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

ปฏบตการท 6 การใชเครองมอวเคราะหการจำแนกขอมล

วตถประสงค 1. เพอใหสามารถใชเครองมอแบงขอมลในการแบงชดขอมลเรยนร (Training Dataset) และ

ชดขอมลทดสอบ (Test Dataset) ได 2. เพอใหสามารถใชเครองมอวเคราะหการนำแนกขอมลได 3. เพอใหสามารถใชเครองมอวดประสทธภาพของวธการนำแนกขอมลได

1. ชดขอมลปฏบตการ − ชดขอมล Iris (สำหรบการสาธต) − ชดขอมล Mushroom (สำหรบการฝกปฏบตการ)

2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน

1. นำเขาชดขอมล Iris จากแฟมขอมล iris.csv ตงชอชดขอมลเปน iris 2. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 6” 3. นำชดขอมล iris เขาสการทดลองโดยลากโมดลชดขอมลซงทอยภายใต Saved Datasets

My Datasets ในหนาตางยอย Modules มาวางบน Workspace 4. ในปฏบตการนจะสรางโมเดลสำหรบทำนายชนด (Specie) ของดอก iris กำหนดใหตวแปร

species เปนปายระบขอมล (Label) เปลยนแปลงชนดขอมลของตวแปร species โดยใชโมดล Edit Metadata (ภายใต Data Transformation Manipulation)

5. เลอกชนดขอมล เปน String และกำหนดใหเปนขอมลทจดเปนกลม โดยเลอกตวเลอก Make categorical จากลสต Categorical และเลอกตวเลอก Label จากลสต Fields

6. ทำการแบงชดขอมล iris ออกเปน 2 ชด คอ ชดขอมลเรยนร (Training Dataset) และชดขอมลทดสอบ (Test Dataset) โดยใชโมดล Split Data (ภายใต Data Transformation Sample and Split)

7. กำหนด Splitting mode เปน Split Rows กำหนดคาอตราสวนขอมลเรยนรตอขอมลทดสอบ (Fraction of rows in the first output dataset) เปน 0.7 และเลอก Randomized split จะทำใหขอมลออกจากโหนดสวนตอประสานขอมลออกท 1 มจำนวนรอยละ 70 ของขอมลทงหมด

Page 49: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

45

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

(ใหถอวาเปนชดขอมลเรยนร) และ ขอมลออกจากโหนดสวนตอประสานขอมลออกท 2 มจำนวนรอยละ 30 ของขอมลทงหมด (ใหถอวาเปนชดขอมลทดสอบ)

13. ตอมาทำการสรางโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest โดยการลากโมดล Multiclass Decision Forest (ภ า ย ใ ต Machine Learning Initialize Model Classification สามารถศกษาเพ มเต มได ท เว บไซต https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/multiclass-decision-forest) มาวางบน workspace โดยกำหนดคาพารามเตอร ดงน

• Number of decision trees: 5 • Maximum depth of the decision trees: 10 • Number of random splits per node: 128 • Minimum number of samples per leaf node: 1 • พารามเตอรอนๆ ใชตามคาทกำหนดมาโดยอตโนมต

14. ตอมาลากโมดล Train Model (ภายใต Machine Learning Train) มาวางบน workspace 15. นำขอมลสงออกจากโมดล Multiclass Decision Forest เปนขอมลนำเขา Untrained model

ของโมดล Train Model และนำขอมลสงออกจากโมดล Split Data จากโหนดสวนตอประสานขอมลออกท 1 ซงเปนชดขอมลเรยนร เปนขอมลนำเขา Dataset ของโมดล Train Model

16. คลกทกลองโมดล Train Model ทหนาตางยอย Properties คลก Launch column selector แลวเลอกตวแปร species เพอใชเปนปายระบขอมล ซงเปนคาทตองการทำนาย จากนนคลก

17. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Train Model โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป

Page 50: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

46

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

18. ทำการทดสอบโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest โดยใชโมดล Score Model (ภายใต Machine Learning Score) นำขอมลสงออกจากโมดล Train Model เปนขอมลนำเขา Trained model ของโมดล Score Model และนำขอมลสงออกจากโมดล Split Data จากโหนดสวนตอประสานขอมลออกท 2 ซงเปนชดขอมลทดสอบ เปนขอมลนำเขา Dataset ของโมดล Score Model

19. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Score Model โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป

Page 51: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

47

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

20. ทำการทดสอบประสทธภาพของโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest โดยใชโมดล Evaluate Mode (ภายใต Machine Learning Evaluate) นำขอมลสงออกจากโมดล Score Model เปนขอมลนำเขา Scored dataset ของโมดล Evaluate Mode

21. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Evaluate Mode โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป

คา species จรง คา species ททำนายได

Page 52: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

48

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

3. แบบฝกปฏบตการ ใหนกศกษาทำแบบฝกปฏบตการ ตามลำดบขนตอนตอไปน

1. ใหนกศกษานำชดขอมล Mushrooms จากแฟมขอมล mushrooms.csv เขาสโปรแกรม ML Studio กำหนดชอชดขอมลเปน “mushrooms” กอนนำเขาขอมลทำการแทนทขอมลในเซลลขอมลทมคา ? ดวยคา วางเปลา

2. สรางการทดลอง กำหนดชอเปน “Lab 6” โดยใหนำชดขอมล mushrooms เขาสการทดลอง 3. ทำการเปลยนชนดขอมลของตวแปรทงหมด ยกเวนตวแปร class ใหเปนชนดขอมล

Categorical Feature

Page 53: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

49

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

4. ทำการเปลยนชนดขอมลของตวแปร class ใหเปนชนดขอมล Categorical Feature และกำหนดใหเปนตวแปร Label

5. แบงขอมลออกเปน 2 ชด คอ ชดขอมลเรยนรและชดขอมลทดสอบ ในอตราสวน 7 ตอ 3 6. สรางโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest โดยกำหนดคาพารามเตอร ดงน

• Number of decision trees: 1 • Maximum depth of the decision trees: 32 • Number of random splits per node: 128 • Minimum number of samples per leaf node: 1 • Allow unknown values for categorical features: Select • พารามเตอรอนๆ ใชตามคาทกำหนดมาโดยอตโนมต

7. ดผลลพธจากการสรางโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest และอธบายโมเดล

8. ทำการทดสอบโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest กบชดขอมลทดสอบ (ใชโมดล Score Model)

9. ทำการทดสอบประสทธภาพของโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest (ใชโมดล Evaluate Mode)

10. ศกษาและอธปรายผลการทดสอบประสทธภาพของโมเดลสำหรบการจำแนกขอมล 11. ทดลองเปลยนคาพารามเตอรของโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest และ

ทำการทดสอบประสทธภาพของโมเดล ศกษาและอธปรายผลการทดสอบประสทธภาพของโมเดล

สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_06_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th

Page 54: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

ปฏบตการท 7 การใชเครองมอวเคราะหการถดถอย

วตถประสงค 1. เพอใหสามารถใชเครองมอวเคราะหการถดถอยของขอมลได 2. เพอใหสามารถใชเครองมอวดประสทธภาพของวธการวเคราะหการถดถอยได

1. ชดขอมลปฏบตการ − ชดขอมล Carbon Nanotubes (สำหรบการสาธตและการฝกปฏบตการ)

2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน

1. นำเขาชดขอมล Carbon Nanotubes จากแฟมขอมล carbon_nanotubes.csv ตงชอชดขอมลเปน carbon nanotubes

2. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 7” 3. นำชดขอมล carbon nanotubes เขาสการทดลองโดยลากโมดลชดขอมลซงทอยภายใต

Saved Datasets My Datasets ในหนาตางยอย Modules มาวางบน Workspace 4. ในปฏบตการนจะสรางโมเดลการวเคราะหการถดถอยเชงเสนตรง (Linear Regression

Model) เพอทำนายพกดของอะตอมคารบอนแนวแกน u ทถกคำนวณไดจากโปรแกรม CASTEP

𝐶𝑎𝑙_𝑐𝑜𝑜𝑟_𝑢 = 𝛽0 + (𝛽1 × 𝐼𝑛𝑖𝑡_𝑐𝑜𝑜𝑟_𝑢) + (𝛽2 × 𝐶𝐼_𝑛) + (𝛽3 × 𝐶𝐼_𝑚) 5. ทำการแบงชดขอมล carbon nanotubes ออกเปน 2 ชด คอ ชดขอมลเรยนร (Training

Dataset) และชดขอมลทดสอบ (Test Dataset) โดยใชโมดล Split Data (ภายใต Data Transformation Sample and Split)

6. กำหนด Splitting mode เปน Split Rows กำหนดคาอตราสวนขอมลเรยนรตอขอมลทดสอบ (Fraction of rows in the first output dataset) เปน 0.7 และเลอก Randomized split จะทำใหขอมลออกจากโหนดสวนตอประสานขอมลออกท 1 มจำนวนรอยละ 70 ของขอมลทงหมด (ใหถอวาเปนชดขอมลเรยนร) และ ขอมลออกจากโหนดสวนตอประสานขอมลออกท 2 มจำนวนรอยละ 30 ของขอมลทงหมด (ใหถอวาเปนชดขอมลทดสอบ)

7. คลก RUN เพอทำการประมวลผล

Page 55: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

51

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

8. เลอกตวแปรทจะใชในการสรางสมการถดถอยเชงเสนตรง นนคอ ตวแปร CI_n CI_m Init_coor_u และ Cal_coor_u โดยใชโมดล Select Columns in Dataset (ภายใต Data Transformation Manipulation) ใหทำการลากโมดลดงกลาวมาวางบน workspace

9. นำขอมลสงออกจากโมดล Split Data จากโหนดสวนตอประสานขอมลออกท 1 ซงเปนชดขอมลเรยนร เปนขอมลนำเขาของโมดล Select Columns in Dataset

10. เพมคำอธบายให โมดล Select Columns in Dataset นวา “For training dataset” 11. คลกทกลองโมดล Select Columns in Dataset ทหนาตางยอย Properties คลก Launch

column selector แลวเลอกตวแปรทตองการนำมาใชวเคราะห จากนนคลก 12. ตอมาทำการสร างโมเดลสำหรบสำหร บการว เคราะหการถดถอยเชงเส นตรง Linear

Regression โ ด ยกา รล าก โ มด ล Linear Regression (ภาย ใต Machine Learning Initialize Model Regression ส า ม า ร ถ ศ ก ษ า เ พ ม เ ต ม ไ ด ท เ ว บ ไ ซ ต https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/linear-regression) มาวางบน workspace โดยกำหนดคาพารามเตอร ดงน

• Solution method: Ordinary least squares • L2 regularization weight: 0.001 • Include intercept term: • พารามเตอรอนๆ ใชตามคาทกำหนดมาโดยอตโนมต

13. ตอมาลากโมดล Train Model (ภายใต Machine Learning Train) มาวางบน workspace 14. นำขอมลสงออกจากโมดล Linear Regression เปนขอมลนำเขา Untrained model ของโมดล

Train Model และนำขอมลสงออกจากโมดล Select Columns in Dataset ทเปนชดขอมลเรยนร เปนขอมลนำเขา Dataset ของโมดล Train Model

Page 56: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

52

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

15. คลกทกลองโมดล Train Model ทหนาตางยอย Properties คลก Launch column selector แลวเลอกตวแปร Cal_coor_u เพอใชเปนตวแปรตาม (Dependent Variable) ซงเปนคาทตองการประมาณ จากนนคลก

16. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Train Model โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป

จากผลลพธของโมดล Train Model ทำใหไดสมการถดถอยเชงเสนตรง เพอทำนายคาตวแปร Cal_coor_u คอ

𝐶𝑎𝑙_𝑐𝑜𝑜𝑟_𝑢 = −0.007597 + (1.015370 × 𝐼𝑛𝑖𝑡_𝑐𝑜𝑜𝑟_𝑢)

+ (−0.000015 × 𝐶𝐼_𝑛) + (0.000010 × 𝐶𝐼_𝑚)

17. ทำการเตรยมขอมลทดสอบสำหรบทดสอบโมเดลการวเคราะหการถดถอยเชงเสนตรงทได โดยเลอกตวแปรทจะใชในการสรางสมการถดถอยเชงเสนตรง นนคอ ตวแปร CI_n CI_m Init_coor_u และ Cal_coor_u โดยใชโมดล Select Columns in Dataset (ภายใต Data Transformation Manipulation) ใหทำการลากโมดลดงกลาวมาวางบน workspace

18. นำขอมลสงออกจากโมดล Split Data จากโหนดสวนตอประสานขอมลออกท 2 ซงเปนชดขอมลทดสอบ เปนขอมลนำเขาของโมดล Select Columns in Dataset

19. เพมคำอธบายให โมดล Select Columns in Dataset นวา “For test dataset” 20. คลกทกลองโมดล Select Columns in Dataset ทหนาตางยอย Properties คลก Launch

column selector แลวเลอกตวแปรทตองการนำมาใชวเคราะห จากนนคลก 21. ทำการทดสอบโมเดลการวเคราะหการถดถอยเชงเสนตรงทไดโดยใชโมดล Score Model

(ภายใต Machine Learning Score) นำขอมลสงออกจากโมดล Train Model เปนขอมล

คาพารามเตอรทของโมเดลไดจากการเรยนรจากขอมลเรยนร

Page 57: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

53

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

นำเขา Trained model ของโมดล Score Model และนำขอมลสงออกจากโมดล Select Columns in Dataset ทเปนชดขอมลทดสอบ เปนขอมลนำเขา Dataset ของโมดล Score Model

22. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Score Model โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป

23. ทำการทดสอบประสทธภาพของโมเดลการวเคราะหการถดถอยเชงเสนตรง โดยใชโมดล Evaluate Mode (ภายใต Machine Learning Evaluate) นำขอมลสงออกจากโมดล Score Model เปนขอมลนำเขา Scored dataset ของโมดล Evaluate Mode

คา Cal_coor_u ทไดจากการประมาณคา

Page 58: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

54

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

24. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Evaluate Mode โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป

Page 59: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

55

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

3. แบบฝกปฏบตการ ใหนกศกษาทำแบบฝกปฏบตการ ตามลำดบขนตอนตอไปน

1. กำหนดใหนกศกษาทำแบบฝกปฏบตการน ตอจากการทดลองสาธต โดยใหนกศกษาใชชดขอมล Carbon Nanotubes สรางโมเดลการวเคราะหการถดถอยเชงเสนตรง (Linear Regression Model) เพอทำนายพกดของอะตอมคารบอนแนวแกน v และ w ทถกคำนวณไดจากโปรแกรม CASTEP ดงตอไปน

𝐶𝑎𝑙_𝑐𝑜𝑜𝑟_𝑣 = 𝛽0 + (𝛽1 × 𝐼𝑛𝑖𝑡_𝑐𝑜𝑜𝑟_𝑣) + (𝛽2 × 𝐶𝐼_𝑛) + (𝛽3 × 𝐶𝐼_𝑚) 𝐶𝑎𝑙_𝑐𝑜𝑜𝑟_𝑤 = 𝛽0 + (𝛽1 × 𝐼𝑛𝑖𝑡_𝑐𝑜𝑜𝑟_𝑤) + (𝛽2 × 𝐶𝐼_𝑛) + (𝛽3 × 𝐶𝐼_𝑚)

2. ดผลลพธจากการสรางโมเดลการวเคราะหการถดถอยเชงเสนตรง และจดบนทกสมการถอดถอยทได

3. ทำการทดสอบโมเดลการวเคราะหการถดถอยเชงเสนตรง กบชดขอมลทดสอบ (ใชโมดล Score

Model) 4. ทำการทดสอบประสทธภาพของโมเดลการวเคราะหการถดถอยเชงเสนตรง (ใชโมดล Evaluate

Mode) 5. ศกษาและอธปรายผลการทดสอบประสทธภาพของโมเดลสำหรบการจำแนกขอมล

สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_07_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th

Page 60: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

ปฏบตการท 8 การใชเครองมอวเคราะหขอมลอนกรมเวลา

วตถประสงค 1. เพอใหสามารถใชเครองมอวเคราะหขอมลอนกรมเวลาได 2. เพอใหรวธการเพมหรอพฒนาเครองมอการวเคราะหขอมลดวยการพฒนาคำสงขนาดเลก

1. ชดขอมลปฏบตการ − ชดขอมล VIX Prices (สำหรบการสาธตและการฝกปฏบตการ)

2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน

1. นำเขาชดขอมล VIX Prices จากแฟมขอมล vix_prices.csv ตงชอชดขอมลเปน vix prices 2. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 8” 3. นำชดขอมล vix prices เขาสการทดลองโดยลากโมดลชดขอมลซงทอยภายใต Saved

Datasets My Datasets ในหนาตางยอย Modules มาวางบน Workspace 4. ตรวจสอบชนดขอมลของตวแปร date โดยจะตองเปนชนดขอมล DateTime Feature หากไม

ใชใหทำการแกไขชนดขอมลใหถกตองโดยใชโมดล Edit Metadata 5. ทำการแบงชดขอมล vix prices ออกเปน 2 ชด คอ ชดขอมลเรยนร (Training Dataset) และ

ชดขอมลทดสอบ (Test Dataset) โดยใชโมดล Split Data (ภายใต Data Transformation Sample and Split)

6. ใหขอมลในชดขอมลเรยนรเปนขอมลหลงป ค.ศ.2005 สวนขอมลในชดขอมลทดสอบเปนขอมลระหวางป ค.ศ.2005 ถง 2019 ทำไดโดยเลอก Splitting mode เปน Relative Expressions และกำหนด Relational expression เปน \"date" < 1/1/2005

7. คลก RUN เพอทำการประมวลผล 8. ในปฏบตการนจะสรางโมเดล ARIMA ในการวเคราะหขอมลอนกรมเวลาเพอการทำนายคาใน

อนาคต โดยทำการวเคราะหขอมลราคาตำสดของดชนตลาดซอขายอนพนธ Chicago Board Options Exchange (CBOE)

Page 61: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

57

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

9. เลอกตวแปรทจะใชในการสรางโมเดล ARIMA นนคอ ตวแปร date และ vix_low โดยใชโมดล Select Columns in Dataset (ภายใต Data Transformation Manipulation) ใหทำการลากโมดลดงกลาวมาวางบน workspace

10. นำขอมลสงออกจากโมดล Split Data จากโหนดสวนตอประสานขอมลออกท 1 ซงเปนชดขอมลเรยนร เปนขอมลนำเขาของโมดล Select Columns in Dataset

11. เพมคำอธบายให โมดล Select Columns in Dataset นวา “For training dataset” 12. คลกทกลองโมดล Select Columns in Dataset ทหนาตางยอย Properties คลก Launch

column selector แลวเลอกตวแปรทตองการนำมาใชวเคราะห จากนนคลก 13. ทำการเตรยมขอมลทดสอบสำหรบทดสอบโมเดล ARIMA โดยเลอกตวแปรทจะใชในการ

ทดสอบ นนคอ ตวแปร date และ vix_low โดยใชโมดล Select Columns in Dataset 14. นำขอมลสงออกจากโมดล Split Data จากโหนดสวนตอประสานขอมลออกท 2 ซงเปนชดขอมล

ทดสอบ เปนขอมลนำเขาของโมดล Select Columns in Dataset 15. เพมคำอธบายให โมดล Select Columns in Dataset นวา “For test dataset” 16. คลกทกลองโมดล Select Columns in Dataset ทหนาตางยอย Properties คลก Launch

column selector แลวเลอกตวแปรทตองการนำมาใชวเคราะห จากนนคลก 17. คลก RUN เพอทำการประมวลผล 18. เปลยนชอคอลมน vix_low เปน data ทงในชดขอมลเรยนรและชดขอมลทดสอบทเปนผลลพธ

จากโมดล Select Columns in Dataset โดยใชโมดล Edit Metadata 19. คลกทกลองโมดล Edit Metadata ทหนาตางยอย Properties คลก Launch column

selector แลวเลอกตวแปร vix_low จากนนคลก เลอกตวเลอก Label จากลสต Fields และทกลองขอความ New column names กรอกขอความ “data” ทำเชนนสำหรบทงชดขอมลเรยนรและชดขอมลทดสอบ

20. คลก RUN เพอทำการประมวลผล 21. ตอมาทำการคำนวณคา autocorrelation function (ACF) และ partial autocorrelation

function (PACF) ในทนจะใชภาษาโปรแกรม R ในการพฒนาชดคำสงขนาดเลก โดยลากโมดล Execute R Script (ภายใต R Language Modules)

22. เพมคำอธบายให โมดล Execute R Script นวา “Plot ACF and PACF for low prices” 23. นำขอมลสงออกจากโมดล Edit Metadata สำหรบชดขอมลเรยนร จากโหนดสวนตอประสาน

ขอมลออก เปนขอมลนำเขาของโมดล Execute R Script (Plot ACF and PACF of low prices) แสดงตวอยางดงรป

Page 62: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

58

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

24. คลกทกลองโมดล Execute R Script (Plot ACF and PACF of low prices) ทหนาตางยอย Properties ในชอง R Script ใหพมพชดคำสงดงน

ชดคำสง คำอธบาย dataset1 <- maml.mapInputPort(1) seasonality<-1 labels <- as.numeric(dataset1$data) timeseries <- ts(labels,frequency=seasonality) acf(timeseries, lag.max=24) pacf(timeseries, lag.max=24)

- นำขอมลจากโหนดสวนตอประสานขอมลเขาท 1 เกบไวในตวแปร dataset1 - สรางตวแปร timeseries เพ อเกบขอมลจากคอลมน data ใหอยในรปแบบอนกรมเวลา - คำนวณและแสดงกราฟของคา ACF และ PACF โดยกำหนดใหจำนวนขอมลยอยหลงทพจารณามากทสด 24 ขอมล ผลลพธจะแสดงทโหนดสวนตอประสานขอมลออกท 2

25. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกท 2 ของโมดล Execute R Script (Plot ACF and PACF of low prices) โดยคลกทโหนดสวนตอประสานขอมลออกท 2 แลวเลอก Visualize จะปรากฏกราฟแสดงคา ACF และ PACF ผลลพธดงรป

Page 63: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

59

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

26. ตอมาทำการสรางโมเดล ARIMA สำหรบการวเคราะหขอมลอนกรมเวลา ในทน จะใชภาษาโปรแกรม R ในการพฒนาชดคำสงขนาดเลก โดยลากโมดล Execute R Script

27. เพมคำอธบายให โมดล Execute R Script นวา “ARIMA model for low prices” 28. นำขอมลสงออกจากโมดล Edit Metadata สำหรบชดขอมลเรยนร จากโหนดสวนตอประสาน

ขอมลออก เปนขอมลนำเขาท 1 ของโมดล Execute R Script (ARIMA model for low prices)

29. นำขอมลสงออกจากโมดล Edit Metadata สำหรบชดขอมลทดสอบ จากโหนดสวนตอประสานขอมลออก เปนขอมลนำเขาท 2 ของโมดล Execute R Script (ARIMA model for low prices)

30. คลกทกลองโมดล Execute R Script ทหนาตางยอย Properties ในชอง R Script ใหพมพชดคำสงดงน

ชดคำสง คำอธบาย library(forecast) library(ggplot2) dataset1 <- maml.mapInputPort(1) dataset2 <- maml.mapInputPort(2) seasonality<-1 labels <- as.numeric(dataset1$data) timeseries <- ts(labels,frequency=seasonality) model <- auto.arima(timeseries) numPeriodsToForecast <- dim(dataset2)[1] fc <- forecast(model, h=numPeriodsToForecast) forecastedData <- as.numeric(fc$mean) summary(model) autoplot(fc) output <- data.frame(time=dataset2$date, data=dataset2$data,forecast=forecastedData) data.set <- output attr(data.set$forecast, "feature.channel") <- "Regression Scores" attr(data.set$forecast, "score.type") <- "Assigned Labels" maml.mapOutputPort("data.set");

- นำเขาไลบลาร forecast และ ggplot2 - นำขอมลจากโหนดสวนตอประสานขอมลเขาท 1 และ 2 เ ก บ ไ ว ใ นต ว แปร dataset1 และ dataset2 ตามลำดบ - สรางตวแปร timeseries เพอเกบขอมลจากคอลมน data ใหอยในรปแบบอนกรมเวลา - สร างโมเดล ARIMA สำหรบการวเคราะหขอมลอนกรมเวลา timeseries - หาจำนวนขอมลในชดขอมลทดสอบ เกบไวในตวแปร numPeriodsToForecast - ทำการทำนายคาจำนวน numPeriodsToForecast โดยใชโมเดล ARIMA ทสรางขน - แสดงรายละเอยดของโมเดล ARIMA ทสรางขน และแสดงกราฟผลลพธของการทำนายคาในอนาคต ผลลพธจะแสดงทโหนดสวนตอประสานขอมลออกท 2 - นำผลลพธการทำนายคาและขอมลจรงในชดขอมลทดสอบสงออกไปยงสวนตอประสานขอมลออกท 1

Page 64: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

60

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

31. คลก RUN เพอทำการประมวลผล 32. ดผลลพธจากขอมลออกท 1 ของโมดล Execute R Script (ARIMA model for low prices)

โดยคลกทโหนดสวนตอประสานขอมลออกท 1 แลวเลอก Visualize จะปรากฏผลลพธดงรป

33. ดผลลพธจากขอมลออกท 2 ของโมดล Execute R Script (ARIMA model for low prices) โดยคลกทโหนดสวนตอประสานขอมลออกท 2 แลวเลอก Visualize จะปรากฏผลลพธดงรป

คาทำนายราคาตำสดทไดจากการทำนายดวยโมเดล ARIMA

คา AIC AICc และ BIC สำหรบโมเดล ARIMA ทได

โมเดล ARIMA(p,d,q) ทไดจากการเรยนรของโปรแกรม

Page 65: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

61

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

34. ทำการทดสอบประสทธภาพของโมเดล ARIMA โดยใชโมดล Evaluate Mode (ภายใต Machine Learning Evaluate) นำขอมลสงออกท 1 จากโมดล Execute R Script (ARIMA model for low prices) เปนขอมลนำเขา Scored dataset ของโมดล Evaluate Mode

35. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Evaluate Mode โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป

กราฟแสดงขอมลการทำนายของโมเดล ARIMA พรอมชวง

ความเชอมนท 80% และ 95%

Page 66: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

62

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

3. แบบฝกปฏบตการ ใหนกศกษาทำแบบฝกปฏบตการ ตามลำดบขนตอนตอไปน

1. กำหนดใหนกศกษาทำแบบฝกปฏบตการน ตอจากการทดลองสาธต โดยใหนกศกษาใชชดขอมล VIX Prices สรางโมเดล ARIMA พรอมทงคำนวณและแสดงคา ACF และ PACF สำหรบการวเคราะหอนกรมเวลา บนตวแปร ราคาสงสดของ vix (vix_high) เพอทำนายคาราคาสงสดของ VIX ตงแตวนท 3 มกราคม ค.ศ.2005 ถง วนท 15 มกราคม ค.ศ. 2019

2. สงเกตผลลพธจากการคา ACF และ PACF และบนทกจำนวนคายอนหลงทสงผลตอคาราคาสงสดของ VIX อยางมนยสำคญ

3. สงเกตผลลพธจากการสรางโมเดล ARIMA บนทกคา hyperparameter ของโมเดล (p,d,q) ท

ไดจากโปรแกรม บนทกสมการโมเดล ARIMA ทได พรอมคา AIC AICc และ BIC ARIMA( , , ) =

AIC =

AICc =

BIC =

4. ทำการทดสอบประสทธภาพของโมเดล ARIMA (ใชโมดล Evaluate Mode) และบนทกคาวด

ประสทธภาพ Mean Absolute Error =

Root Mean Squared Error =

5. ศกษาและอธปรายผลการทดสอบประสทธภาพของโมเดลสำหรบการจำแนกขอมล

สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_08_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th

Page 67: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

ปฏบตการท 9 การนำโมเดลการวเคราะหขอมลไปใชงานผานบรการผานเวบ

วตถประสงค 1. เพอใหสามารถนำโมเดลการวเคราะหขอมลไปใชงานจรงได 2. เพอใหสามารถสรางและใชงานโปรแกรมเสรมของโปรแกรม Microsoft Office Excel

สำหรบใชงานโมเดลการวเคราะหขอมลได

1. ชดขอมลปฏบตการ − ชดขอมล Iris (สำหรบการสาธต) − ชดขอมล Mushroom (สำหรบการฝกปฏบตการ)

2. ขนตอนปฏบตการ จากปฏบตการท 6 เราไดสรางโมเดลสำหรบการทำนายชนด (species) ของดอก iris โดยใช

ขอมลความยาวของกลบเลยง (sepal_length) ความกวางของกลบเลยง (sepal_width) ความยาวของกลบดอก (petal_length) และ ความกวางของกลบดอก (petal_width) ในปฏบตการนจะทำการสรางบรการผานเวบ (Web Service) และโปรแกรมเสรมของโปรแกรม Microsoft Office Excel สำหรบนำโมเดลการจำแนกขอมลทสรางขนมาใชงานจรง

ขนตอนปฏบตการ มดงน

1. เปดการทดลอง Practice 6 (จากการทำปฏบตการท 6) ดงรป

Page 68: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

64

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

2. ทำการบนทกเปนการทดลองใหม โดยคลกคำสง SAVE AS กำหนดชอการทดลองเปน “Practice 9” หมายเหต ในทน โมดล Score Model เปนโมดลทนำโมเดลการวเคราะหขอมลมาใชในการทำนายชนดของดอก iris จากขอมลใหม

3. คลกคำสง RUN เพอทำการประมวลผล 4. คลกคำสง SET UP WEB SERVICE แลวเลอก Predictive Web Service จะปรากฏโมดล Web

service input และ Web service output และมการเปลยนแปลงอนๆ ใน workspace (ดงรปดานลาง) โมดล Web service input เปนโมดลสวนตอประสานสำหรบรบขอมลเขาจากบรการผานเวบ และโมดล Web service output เปนโมดลสวนตอประสานสำหรบสงออกขอมลทเปนผลลพธของการประมวลผลไปยงบรการผานเวบ

5. คลก RUN เพอทำการประมวลผล อกครง 6. ตอมาคลก Deploy Web Service โปรแกรมจะทำการปรบใชการทดลองทสรางขนใหอยใน

รปแบบบรการผานเวบ และนำไปสหนาตาง DASHBOARD ดงรป

7. จากหนา DASHBOARD สามารถกลบไปยงหนาการทดลองโดยคลกท View snapshot หรอ View latest

Page 69: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

65

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

8. เราสามารถกำหนดคาใหกบบรการผานเวบทสรางขนไดโดยคลกทแทบ CONFIGURATION จะปรากฏหนาตางดงรป

9. จากหนาตางน เราสามารถกำหนดชอและคำอธบายบรการ พรอมทงสามารถเลอกแสดงตวอยางขอมลทใชในการเรยนรของโมเดล (โดยเลอก YES ท ENABLE SAMPLE DATA?) และยงกำหนดคำอธบายขอมลเขา (Input) และขอมลออก (Output) ได

10. ในทนกำหนดการตงคา ดงน

Setting Value Display Name Practice 9 Service for Iris Classification Description This is a service for categorizing Iris data into

three species (setosa, versicolor and virginica) based on sepal and petal characteristics.

ENABLE SAMPLE DATA? YES 11. เมอกำหนดการตงแตเรยบรอยแลว คลก SAVE 12. ตอมาทำการทดสอบบรการเวบแอปพลเคชน โดยกลบไปยงแทบ DASHBOARD

คลก Test preview ในสวน Default Endpoint จะปรากฏหนาตางดงรป

Page 70: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

66

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

13. กรอกคา sepal_length sepal_width petal_length และ petal_width จากนนคลก Text request-Response เพอทดสอบการทำงาน เมอประมวลผลเสรจแลวและไมเกดขอผดพลาด ผลลพธจะปรากฏในสวน Output1 ดงรป

14. ตอมาทำการกลบไปยงหนาตาง DASHBOARD ในสวน Default Endpoint จะสงเกตเหน API 2 ประเภท คอ

• REQUEST/RESPONSE เปนบรการสำหรบการประมวลผลขอมลโดยสงขอมลนำเขาทละขอมล

• BATCH EXECUTION เปนบรการสำหรบการประมวลผลขอมลโดยสงขอมลนำเขาแบบกลมขอมล

ซงสามารถเลอกให API ไดตามความเหมาะสม บรการผานเวบนนกพฒนาโปรแกรมสามารถเรยนใชงานไดผาน API ซงสามารถศกษารายละเอยดไดท https://docs.microsoft.com/en-us/azure/machine-learning/studio/consume-web-services

15. ในทนจะใชงาน API แบบ REQUEST/RESPONSE ผาน โปรแกรมเสรมของโปรแกรม Microsoft Office Excel โดยดานหลง REQUEST/RESPONSE จะสงเกตเหนวาสามารถดาวนโหลดแฟมขอมลสำหรบโปรแกรม Microsoft Office Excel ได ใหนกศกษาเลอกดาวนโหลดไฟลใหเหมาะสมกบโปรแกรม Microsoft Office Excel ของนกศกษา

16. เมอดาวนโหลดไฟล Excel เรยบรอยแลว จากนนทำการเปดไฟลทดาวนโหลดมา จะปรากฏหนาตาง ดงรป

Page 71: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

67

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

17. จะสงเกตเหนหนาตางยอย Azure Machine Learning ทางดานขวา คลกท Practice 9 Service for Iris Classification หนาตางยอยจะแสดงผลดงรป

18. หนาตางยอย Azure Machine Learning จะถกแบงเปน 3 สวน คอ • VIEW SCHEMA เปนสวนแสดงคำอธบายขอมลนำเขา (Input) และขอมลทไดจากการ

ประมวลผล (Output) • PREDICT เปนสวนสำหรบเลอกขอมลนำเขาและสวนสำหรบแสดงขอมลผลลพธ • ERRORS เปนสวนแสดงขอผดพลาดจากการประมวลผล

19. คลก Use sample data ในสวน PREDICT จะปรากฏตวอยางขอมลในตาราง Excel นกศกษาสามารถใชตวอยางขอมลนในการสรางชดขอมล iris ชดใหม สำหรบวเคราะหการจำแนกขอมล

20. ใหนกศกษาใชขอมลจากแฟมขอมล iris_new.csv โดยคดลอกขอมลจากแฟมขอมลไปวางทบยงตวอยางขอมล พรองทงลบขอมล species แสดงตวอยาง ดงรป

Page 72: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

68

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

21. หนาตางยอย Azure Machine Learning ในกลองขอความ Input: input 1 ใหเลอกชวงของขอมลนำเขา นนคอ Sheet1!A1:E46 (สามารถใชเครองมอ ในการเลอกชวงขอมลได)

22. หากชวงขอมลทเลอกครอบคลมชอคอลมนของตาราง ใหทำเครองหมาย ในชอง My data has headers

23. ตอมาทำการเลอกบรเวณสำหรบการแสดงผลลพธ โดยในกลองขอความ Output: output1 เลอกเซลลเรมตนสำหรบการแสดงผล ในทนเลอกเซลล G1 และทำเครองหมาย ในชอง Include headers

24. จากนนคลกปม Predict โปรแกรมจะทำการประมวลและแสดงผลลพธ ดงรป

หมายเหต ยงมเทคนคอกมากในการสรางบรการจากเวบสำหรบการนำโมเดลการวเคราะหขอมลไปใชงานจรง ซ งสามารถศกษาเพ มเตมไดท https://docs.microsoft.com/en-us/azure/machine-learning/studio/deploy-a-machine-learning-web-service

สวนแสดงผลลพธ

Page 73: คู่มือปฏิบัติการ · 204123 - วิทยาการข้อมูลเบื้องต้น ... • SQL database table • OData values •

69

204123 - วทยาการขอมลเบองตน (Introduction to Data Science)

3. แบบฝกปฏบตการ 1. ใหนกศกษานำฝกปฏบตการท 6 ซงเปนการจำแนกชนดของเหด (กนได และ มพษ) บนชด

ขอมล Mushrooms บนทกเปน (Save As) การทดลองใหม กำหนดชอ Lab 9 2. ใหสรางบรการผานเวบ (Web Service) ของการทดลองน โดยกำหนดใหชอบรการเปน Lab 9

Service for Mushrooms Classification และอธบายบรการตามความเหมาะสม (กำหนดในสวน Configuration)

3. เมอสรางบรการผานเวบพรอมทงทดสอบการทำการเรยบรอยแลว ใหนกศกษาใชงานบรการดงกลาวผาน API แบบ REQUEST/RESPONSE จากโปรแกรมเสรมของโปรแกรม Microsoft Office Excel โดยดาวนโหลดแฟมขอมลสำหรบโปรแกรม Microsoft Office Excel และทำการวเคราะหขอมลทใหในแฟมขอมล mushrooms_new.csv

สงทตองสงเปนการบาน แฟมขอมล Excel ทบนทกผลลพธหลงจากการวเคราะหขอมลดวย บรการผานเวบสำหรบจำแนกจำแนกชนดของเหดแลว โดยตงชอไฟลในรปแบบ Lab_09_id.xlsx โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th