การวิเคราะห์ข้อมูลสุขภาพ - psu...บทท...

142

Upload: others

Post on 18-Aug-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช
Page 2: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

Page 3: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

การวเคราะหขอมลสขภาพ ในระบบสาธารณสขไทย โดยใชโปรแกรม R

ผเขยน ดร.กมลทพย วจตรสนทรกล สำ�นกโรคไมตดตอ กรมควบคมโรค

พญ.พนธนย ธตชย สำ�นกระบ�ดวทย� กรมควบคมโรค

นพ.กตตพนธ ฉลอม โรงพย�บ�ลเชยงด�ว

ดร.อรพนธ อนตม�นนท ศนยพฒน�วช�ก�รอ�ชวอน�มยและสงแวดลอม

จงหวดสมทรปร�ก�ร

รศ.ดร.นงเย�ว เกษตรภบ�ล คณะพย�บ�ลศ�สตร มห�วทย�ลยเชยงใหม

ผศ.สพ.ญ.ดร.กรรณก�ร ณ ลำ�ป�ง คณะสตวแพทยศ�สตร มห�วทย�ลยเชยงใหม

ดร.นรนดร อนทรตน คณะแพทยศ�สตร มห�วทย�ลยมห�ส�รค�ม

ผศ.ดร.เชษฐ� ง�มจรส คณะส�ธ�รณสขศ�สตร มห�วทย�ลยขอนแกน

รศ.ดร.อภรด แซลม คณะวทย�ศ�สตรและเทคโนโลย

มห�วทย�ลยสงขล�นครนทร ปตต�น

ISBN 978-616-271-574-7

พมพครงท 1 จำ�นวน 200 เลม

ปทพมพ 2563

ผจดพมพ สถ�บนวจยและพฒน�สขภ�พภ�คใต คณะแพทยศ�สตร มห�วทย�ลยสงขล�นครนทร

พมพท ไอคว มเดย, สงขล� (089-4660752)

Page 4: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บคล�กรส�ธ�รณสขถอเปนตวแปรสำ�คญตอก�รพฒน�สขภ�พประช�ชนเปนอย�งม�ก เนองจ�กบคล�กร

ดงกล�วมฐ�นขอมลสขภ�พของประช�ชนในพนทและรวบรวมม�อย�งตอเนองหล�ยสบปอยในมอ แตยงข�ด

ทกษะด�นสถตและก�รวเคร�ะหเพอก�รแปลผลของขอมล

สถ�บนวจยและพฒน�สขภ�พภ�คใต คณะแพทยศ�สตร มห�วทย�ลยสงขล�นครนทรจงไดดำ�เนนโครงก�ร

ก�รสร�งคว�มรด�นระบ�ดวทย�ของโรคไมตดตอในประเทศไทย ภ�ยใตก�รสนบสนนงบประม�ณจ�กสำ�นกง�น

กองทนสนบสนนก�รสร�งเสรมสขภ�พ (สสส.) เพอพฒน�ศกยภ�พบคล�กรส�ธ�รณสขด�นก�รวเคร�ะหขอมล

โดยไดดำ�เนนก�รจดอบรมเชงปฏบตก�รวเคร�ะหขอมลชดสขภ�พ 43 แฟม (ซงปจจบนม 52 แฟม) โดยใชโปรแกรม R

ทวทงประเทศไทย แบงเปนโครงก�รยอยแตละภมภ�ค ไดแก ภ�คเหนอ ภ�คตะวนออกเฉยงเหนอ ภ�คกล�ง และ

ภ�คใต เพอใหครอบคลมหนวยง�นหลกไดแก โรงพย�บ�ลประจำ�จงหวด สำ�นกง�นส�ธ�รณสขประจำ�จงหวด

สำ�นกง�นปองกนควบคมโรค ทง 12 เขต โดยเชญเจ�หน�ทไอทและเจ�หน�ทด�นโรคไมตดตอ รวมแลว 367 คน

เข�รวมโครงก�รอบรม ทำ�ใหผเข�รบก�รอบรมจำ�นวนม�กมเครองมอและทกษะทส�ม�รถกลบไปวเคร�ะหขอมล

ด�นสขภ�พทตนเองมอย แลวพฒน�ก�รทำ�ง�นของตนเองและหนวยง�นได

จ�กคว�มสำ�เรจดงกล�ว โครงก�รฯ จงไดรวบรวมแนวท�งก�รวเคร�ะหขอมลเพอใหสะดวกตอก�รใชง�น

จงเกดเปน หนงสอก�รวเคร�ะหขอมลสขภ�พในระบบส�ธ�รณสขไทยโดยใชโปรแกรม R ภ�ยใตคว�มรวมมอของ

วทย�กรทกภมภ�ค เพอตองก�รใหบคล�กรส�ธ�รณสขและบคคลทวไปใชเปนคมอประกอบก�รวเคร�ะห โดยท�ง

โครงก�รเลอกใชโปรแกรม R เนองจ�กเปนโปรแกรมทมประสทธภ�พในก�รวเคร�ะหขอมลท�งสถตสง เปน

โปรแกรมทใชง�นฟร (Free software) กล�วคอเปนลกษณะทเปน open source หม�ยถง โปรแกรมทส�ม�รถ

นำ�ไปใชไดอย�งเสร โดยส�ม�รถเขยน package สงไปยง R-CRAN เพอเพมฟงกชนก�รทำ�ง�น อกทงยงส�ม�รถ

แขวนไวในเวบไซตของโปรแกรม R เพอแบงปนใหผอนไดใชง�น ทำ�ใหโปรแกรม R เปนโปรแกรมทมก�รพฒน�

อย�งไมหยดยง เนอห�ของหนงสอเลมนมเนอห�ทอธบ�ยถงโครงสร�งขอมล 43 แฟม ก�รตดตงโปรแกรม R คว�มร

ด�นสถตและก�รวเคร�ะหขอมลตงแตก�รทำ�คว�มสะอ�ดขอมลจนถงก�รวเคร�ะหเชงตวแบบ ดงนน ผทไมมพนฐ�น

ท�งสถตหรอไมมพนฐ�นด�นก�รเขยนภ�ษ�โปรแกรมกส�ม�รถอ�นและเข�ใจเนอห�ในหนงสอเลมนไดไมย�ก

ทงน ท�งโครงก�รขอขอบคณผเขยนทกท�นทใหคว�มรวมมอ รวมแรงรวมใจในก�รชวยกนเขยนหนงสอ

เลมนเพอเปนประโยชนตอส�ธ�รณชน และขอขอบคณคณะผทรงคณวฒ ดร.วทย วชยดษฐ น�งส�วนนทนภส

พรเพชรแกว น�งจร�วรรณ จ�ยพนธ นกวจยสงกดหนวยระบ�ดวทย�และน�งฉนทน� เจรญสน พย�บ�ลวช�ชพ

โรงพย�บ�ลสงขล�นครนทรทชวยกรณ�ใหขอเสนอแนะและตรวจสอบคว�มถกตอง และขอขอบคณหนวยระบ�ด

วทย� คณะแพทยศ�สตร มห�วทย�ลยสงขล�นครนทร และคณะผรวมโครงก�รทกท�นทคอยสนบสนน ใหกำ�ลงใจ

และเปนแรงผลกดนใหหนงสอเลมนสำ�เรจลลวงไปดวยด

ศาสตราจารย ดร.นพ.วระศกด จงสววฒนวงศ

สถ�บนวจยและพฒน�สขภ�พภ�คใต

คณะแพทยศ�สตร มห�วทย�ลยสงขล�นครนทร

คำานำา

Page 5: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

สารบญบทท 1 ความเปนมาของ 9 voluntary global targets 1บทท 2 โครงสรางชดขอมลดานการแพทยและสขภาพ 43 แฟม 11 2.1 แฟมขอมล PERSON 13 2.2 แฟมขอมล HOME/ADDRESS 14 2.3 แฟมขอมล DEATH 14 2.4 แฟมขอมล SERVICE 15 2.5 แฟมขอมล DIAGNOSIS (DIAGNOSIS_OPD และ DIAGNOSIS_IPD) 15 2.6 แฟมขอมล DRUG (DRUG_OPD และ DRUG_IPD) 15 2.7 แฟมขอมล CHRONIC 16 2.8 แฟมขอมล CHRONICFU 16 2.9 แฟมขอมล LABFU 17 2.10 แฟมขอมล NCDSCREEN 17 2.11 บรรณ�นกรม 20บทท 3 การใชงานโปรแกรม R เบองตน 23 3.1 คว�มสำ�คญของ R 24 3.2 ก�รตดตงโปรแกรม R 25 3.3 ก�รตดตงโปรแกรม R-studio 26 3.4 ก�รใชง�นโปรแกรม R- studio 28 3.5 ก�รใช R เบองตน 29 3.6 โครงสร�งขอมลใน R 31 3.7 แบบฝกหดท�ยบท 34 3.8 บรรณ�นกรม 35บทท 4 การเลอกใชสถต 37 4.1 คว�มหม�ยของสถต ขอมล ส�รสนเทศ และก�รประมวลผล 39 4.2 คำ�ศพททเกยวของกบสถต 39 4.3 ประเภทของขอมล 40 4.4 ก�รตรวจสอบคณภ�พขอมลและก�รจดก�รขอมล 41 4.5 ประเภทของสถต 41 4.6 ก�รวเคร�ะหขอมลท�งระบ�ดวทย�พนฐ�น 46 4.7 บรรณ�นกรม 49

Page 6: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 5 การนำาเขาและการจดการขอมลโดยใชโปรแกรม R 51 5.1 คำ�สงพนฐ�นกอนก�รนำ�เข�ขอมลเข�สโปรแกรม R 52 5.2 ก�รนำ�ขอมลเข�สโปรแกรม R 54 5.3 ก�รตรวจสอบขอมล 55 5.4 ก�รจดก�รขอมลแฟม person_35_random 58 5.5 ก�รนำ�เข�และก�รจดก�รขอมลจ�กแฟม ncdscreen_35_random 68 5.6 ก�รรวมชดขอมล person_35_random กบ ncdscreen_35_random 70 5.7 แบบฝกหดท�ยบท 73บทท 6 สถตเชงพรรณนา (Descriptive Statistics) 75 6.1 ก�รพรรณน�ขอมลตวแปรตอเนอง 76 6.2 ก�รพรรณน�ขอมลตวแปรกลม 79 6.3 แบบฝกหดท�ยบท 81บทท 7 สถตเชงอนมาน (Inferential Statistic) 83 7.1 ก�รทดสอบสมมตฐ�นท�งสถต 84 7.2 ก�รทดสอบสมมตฐ�นท�งสถตสำ�หรบขอมลโรคไมตดตอเรอรง 86 7.3 แบบฝกหดท�ยบท 98 7.4 บรรณ�นกรม 98บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis) 99 8.1 ก�รสร�งแผนภ�พแสดงคว�มสมพนธ 100 8.2 วเคร�ะหสถตเชงพรรณน�เบองตน 102 8.3 ก�รถดถอยเชงเสนอย�งง�ย (Simple linear regression) 108 8.4 ก�รแปลงขอมล (Data transformation) 114 8.5 ก�รวเคร�ะหแยกกลม (Stratified analysis) 116 8.6 ก�รวเคร�ะหคว�มสมพนธแบบตวแปรเชงเดยว (Univariate analysis) 118 8.7 ก�รถดถอยเชงเสนพหคณ (Multiple linear regression) 119 8.8 แบบฝกหดท�ยบท 122 8.9 บรรณ�นกรม 122บทท 9 การวเคราะหการถดถอยโลจสตก (Logistic regression analysis) 125 9.1 ก�รวเคร�ะหคว�มสมพนธแบบตวแปรเชงเดยว (Univariable analysis) 127 9.2 ก�รสร�งตวแบบก�รถดถอยโลจสตก 128 9.3 แบบฝกหด 134

Page 7: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช
Page 8: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 1 ความเปนมาของ 9 Voluntary Global Targets

Page 9: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

2 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

กว�หกทศวรรษทผ�นม� ปญห�โรคไมตดตอ (Non-communicable diseases: NCD) ไดกล�ยเปนปญห�

สขภ�พสำ�คญในประเทศพฒน�แลว และชวงส�มทศวรรษทผ�นม� แนวโนมก�รปวยและก�รเสยชวตดวยโรค

ไมตดตอเพมขนและขย�ยวงกว�งออกไปทวโลก ก�รเพมขนของโรคไมตดตอในประเทศกำ�ลงพฒน�เปนก�รเพมขน

ของปญห�จำ�เปนตองรบแกไขควบคกบก�รพฒน�ประเทศและสงคม ทำ�ใหปญห�โรคไมตดตอจงไมใชก�ร

เปลยนแปลงเฉพ�ะระดบบคคลเท�นน แตยงเปนผลม�จ�กก�รเปลยนแปลงท�งสงคม วฒนธรรม และสงแวดลอม

ทสงผลตอก�รดำ�เนนชวตตงแตวยเดก วยศกษ� วยทำ�ง�น และวยสงอ�ย ก�รคนห�หนท�งแกไขหรอวธก�รปองกน

ควบคมโรคไมตดตอทมประสทธภ�พ จงตองก�รคว�มเข�ใจปญห�ท�งสงคมอย�งถองแท ปญห�โรคไมตดตอ

ต�มแนวท�งก�รแกไขขององคก�รระดบประเทศทสำ�คญมดงน

ความเปนมาของ 9 Voluntary Global Targetsดร.กมลทพย วจตรสนทรกลE-mail: [email protected]

1 บทท

Page 10: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 1 ความเปนมาของ 9 Voluntary Global Targets 3

ตารางท 1.1 แนวท�งก�รแกไขและควบคมโรคไมตดตอขององคกรระดบประเทศ

ชวงเวลา แนวทางแกไขปญหาโรคไมตดตอ

เดอน พฤษภ�คม

พ.ศ. 2554

ปญห�โรคไมตดตอไดรบก�รแสดงถงขน�ดของปญห�และคว�มรนแรงอย�งเรงดวนใน

ก�รประชมประจำ�ปขององคก�รอน�มยโลก จงไดจดทำ�ปฏญญ�กรงมอสโกว�ดวย

NCDs หรอ Moscow Declaration on NCDs ทไดรบก�รรบรองจ�กรฐมนตรว�ก�ร

กระทรวงส�ธ�รณสขประเทศสม�ชก

เดอน สงห�คม

พ.ศ. 2554

หลงจ�กนน 3 เดอน ปญห�โรคไมตดตอไดถกนำ�เข�สก�รประชมผนำ�ประเทศของ

องคก�รสหประช�ช�ต ผนำ�ประเทศไดรวมกนประก�ศเจตน�รมณท�งก�รเมองตอ

องคก�รสหประช�ช�ต ด�น NCDs หรอ UN Political Declaration on NCDs ใน

ก�รจดก�รปญห�โรคไมตดตอ นบว�โรคไมตดตอเปนปญห�สขภ�พทมคว�มสำ�คญเปน

ลำ�ดบทส�มรองจ�กโรคเอดสและโรคม�เลเรย ทมก�รนำ�เข�สก�รประชมขององคก�ร

สหประช�ช�ต

เดอน พฤษภ�คม

พ.ศ. 2556

ตอจ�กนนอกประม�ณ 2 ป ในทประชมประจำ�ปขององคก�รอน�มยโลก ประเทศ

สม�ชกไดรบทร�บและรบรองแผนปฏบตก�รเพอปองกนและควบคมโรคไมตดตอ

พ.ศ. 2556-2563 (Global action plan for prevention and control of non-com-

municable diseases 2013-2020) ทคว�มมงหวงใหประเทศสม�ชกไดดำ�เนนก�ร

ตอสกบปญห�โรคไมตดตออย�งจรงจงและกำ�หนด 9 Voluntary Global Targets ขน

เปนเป�หม�ยวดผลสำ�เรจก�รดำ�เนนง�น

แผนปฏบตก�รเพอปองกนและควบคมโรคไมตดตอ พ.ศ. 2556-2563 (Global action plan for

prevention and control of non-communicable diseases 2013-2020) ไดกล�วถงแนวท�งก�รดำ�เนนง�น

ปองกนควบคมโรคไมตดตอทสำ�คญไว 6 ประก�ร มส�ระสำ�คญดงน

1. สร�งคว�มรวมมอในก�รดำ�เนนง�นและขบเคลอนเชงนโยบ�ยระหว�งประเทศ ภ�ยใตกรอบดำ�เนนง�น

ระหว�งประเทศต�งๆ เพอสนบสนนคว�มพย�ย�มในก�รแกไขปญห�ระหว�งกนในทกด�น เชน เทคโนโลยท�ง

สขภ�พ ก�รพฒน�ขอมล ง�นวจย รวมถงแนวปฏบตท�งสขภ�พ

2. สร�งก�รตอบสนองจ�กทกสวนของสงคม ไดแก ก�รศกษ� ก�รเกษตร อตส�หกรรม ก�รสอส�ร

ก�รค� สงแวดลอม ก�รเงน แรงง�น ฯลฯ และภ�คประช�สงคม มก�รสร�งคว�มแขงแกรงรวมกนในก�รพฒน�

องคคว�มร วช�ก�ร คว�มเชยวช�ญในก�รแกไขปญห� รวมถงพฒน�ศกยภ�พขององคกร สถ�บนและกำ�ลงคน

3. ลดปจจยเสยงและปจจยท�งสงคม มม�ตรก�รสงเสรมสขภ�พ มก�รใชกฎระเบยบ กฎหม�ยควบคม

หรอลดอนตร�ยตอสขภ�พจ�กบหร เครองดมแอลกอฮอล อ�ห�ร เปนตน มกลไกสงเสรมก�รตล�ดอ�ห�รสขภ�พ

สงเสรมก�รมกจกรรมท�งก�ย ครอบคลมเป�หม�ยทกกลมวย

4. สร�งคว�มเขมแขงของระบบส�ธ�รณสขและหลกประกนสขภ�พ ประช�ชนทกคนไดรบบรก�รสขภ�พ

พนฐ�นอย�งเท�เทยม ระบบบรก�รสขภ�พมประสทธภ�พในก�รคนห�คว�มเจบปวยไดรวดเรว มแผนก�รดแล

รกษ�ผปวยโรคไมตดตอระยะย�ว เพมพนคว�มรและทกษะใหเจ�หน�ทอย�งสมำ�เสมอ ใหแรงจงใจและค�ตอบแทน

คว�มก�วหน�ในวช�ชพ พฒน�คว�มเชยวช�ญซงเปนทรพย�กรบคล�กรทสำ�คญ

Page 11: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

4 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

5. สงเสรม สนบสนนง�นวจยและนวตกรรมก�รปองกนและควบคมโรคไมตดตอ เพอขย�ยผลก�รวจย

สำ�หรบก�รตดสนใจพฒน�นโยบ�ย ก�รเพมประสทธภ�พระบบบรก�รสขภ�พ

6. ก�รเฝ�ระวงและก�รตดต�มผล มเป�หม�ยสำ�หรบก�รตดต�มก�รดำ�เนนง�นระดบประเทศและระดบ

โลก เปรยบเทยบแนวโนมระหว�งประเทศ ณ ชวงเวล�ต�งๆ พฒน�ศกยภ�พในก�รเฝ�ระวง คำ�นงถงก�รพฒน�

เทคโนโลยและนวตกรรม เพอเพมประสทธภ�พในก�รเกบขอมลและก�รวเคร�ะหขอมล

นบว�แผนปฏบตก�รเพอปองกนและควบคมโรคไมตดตอ พ.ศ. 2556-2563 (Global action plan for

prevention and control of non-communicable diseases 2013-2020) เปนแนวท�งดำ�เนนง�นระดบ

ประเทศ ซงประเทศสม�ชกจะนำ�แนวท�งม�ปรบก�รดำ�เนนง�นต�มบรบทของประเทศสม�ชกใหประสบคว�มสำ�เรจ

ในก�รลดภ�ระโรค ค�ใชจ�ยด�นสขภ�พ และเพมคณภ�พชวต

ดงนน ก�รกำ�หนด 9 Voluntary Global Targets ขนจงเปนเป�หม�ยจ�กผลก�รดำ�เนนง�นระดบประเทศ

ดงแสดงในต�ร�งท 1.2 ซงประเทศไทยตองใหคว�มสำ�คญและจดก�รดำ�เนนง�นทสอดคลองในทกระดบใหบรรล

คว�มสำ�เรจ

ตารางท 1.2 กรอบ 9 Voluntary Global Targets

เปาหมายท แผนการดำาเนนงาน

เป�หม�ยท 1 ลดก�รเสยชวตกอนวยอนควรของ 4 โรคหลก คอ โรคหวใจและหลอดเลอด โรคมะเรง

โรคเบ�หว�น และโรคปอดเรอรง

เป�หม�ยท 2-7 ลดพฤตกรรมเสยงและปจจยเสยง

ก�รบรโภคเครองดมแอลกอฮอล

ก�รบรโภคย�สบ

ก�รกจกรรมท�งก�ยทไมเพยงพอ

ก�รบรโภคโซเดยม

ภ�วะคว�มดนโลหตสง

ภ�วะอวนและนำ�หนกเกน

โรคเบ�หว�น

เป�หม�ยท 8-9 เพมม�ตรฐ�นระบบบรก�รสขภ�พใหไดรบย�ทจำ�เปน และมเทคโนโลยก�รรกษ�ขนพน

ฐ�นสำ�หรบก�รบรก�รผปวยโรคไมตดตอ

ก�รวดคว�มสำ�เรจแผนง�นต�ม 9 เป�หม�ย ดวยก�รกำ�กบของ 25 ตวชวดสขภ�พ แบบเลอกได สำ�หรบ

ก�รเปรยบเทยบและก�รตดต�มแนวโนม โดยค�พนฐ�น (Baseline) เปนค�เป�หม�ยต�มเกณฑบรบทของประเทศ

สม�ชกในป 2556 และค�เป�หม�ยต�มเกณฑ ป 2568 เปนปสนสด

Page 12: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 1 ความเปนมาของ 9 Voluntary Global Targets 5

ตารางท 1.3 9 เป�หม�ยโดยสมครใจ (9 Voluntary Global Targets and 25 Indicators)

ลำาดบ 9 เปาหมายโดยสมครใจ25 ตวชวดขององคการ

อนามยโลก

การรายงานตวชวดของประเทศไทย/แหลงขอมลทใช

รายงาน

1 A 25% relative reduction in risk of premature mor-tality from cardiovascular disease, cancer, diabetes, or chronic respiratory diseases. ลดก�รเสยชวตกอนวยอนควรจ�กโรคหวใจและหลอดเลอด มะเรง โรคเบ�หว�นหรอโรคท�งเดนห�ยใจเรอรง

1. โอก�สของคว�มน�จะเปนตอก�รเสยชวตระหว�ง 30-70 ป แบบไมมเงอนไข จ�กโรคหวใจและหลอดเลอด โรคมะเรง โรคเบ�หว�น หรอโรคท�งเดนห�ยใจเรอรง (Unconditional p robab i l i t y o f dy ing between 30-70 years from 4 major NCD diseases)

1. โอก�สของคว�มน�จะเปนตอก�รเสยชวตระหว�ง 30-70 ป แบบไมมเงอนไข จ�กโรคหวใจและหลอดเลอด โรคมะเรง โรคเบ�หว�น หรอโรคท�งเดนห�ยใจเรอรง2. อตร�ต�ยระหว�งกลมอ�ย 30-69 ป จ�กโรคหวใจและหลอดเลอด โรคมะเรง โรคเบ�หว�น หรอโรคท�งเดนห�ยใจเรอรง แหลงขอมล Thai Burden of Diseases (ท�งเลอก) 2. อบตก�รณของ

โรคมะเรงแตละประเภทตอประช�กร 100,000 คน

2 At least 10% relative reduction in harmful use of alcohol as appropriate w i th i n the na t i ona l context. ก�รดมเครองดมแอลกอฮอลแบบ harmful (ดมครงละ ม�กกว� 5 แกวม�ตรฐ�น) ลดลงอย�งนอย 10%

3 . ป ร ม � ณ ก � ร บ ร โ ภ คแอลกอฮอ ลต อห ว ( ร วมแอลกอฮอลในระบบภ�ษและนอกระบบภ�ษ) ประช�กรอ�ยตงแต 15 ปขนไป (หนวยลตรของแอลกอฮอลบรสทธ)

3. คว�มชกของก�รดมแอลกอฮอลอย�งหนก ใน 12 เดอนทผ�นม� แหลงขอมล ก�รสำ�รวจสขภ�พประช�ชนโดยก�รตรวจร�งก�ย4. ปรม�ณก�รบรโภคแอลกอฮอล (บรสทธ) ตอหว แ ห ล ง ข อ ม ล ก ร ม ศ ล ก � ก ร กระทรวงก�รคลง

4 . ค ว � ม ช ก ข อ ง ก � ร ด มแอลกอฮอลอย�งหนก

5. อตร�ก�รเสยชวตและอตร�ก�รปวยของวยรนและวยผใหญทเกดจ�กก�รดมแอลกอฮอล

Page 13: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

6 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ลำาดบ 9 เปาหมายโดยสมครใจ25 ตวชวดขององคการ

อนามยโลก

การรายงานตวชวดของประเทศไทย/แหลงขอมลทใช

รายงาน

3 A 10% relative reduction in prevalence of insuffi-ciency physical activity.คว�มชกของผมกจกรรมท�งก�ยไมเพยงพอ ลดลง 10%

6. คว�มชกของผทมกจกรรมท�งก�ยไมเพยงพอของวยรน (หม�ยถง ก�รมกจกรรมท�งก�ยระดบป�นกล�งถงระดบหนกนอยกว� 60 น�ทตอสปด�ห)

5. คว�มชกของผทมกจกรรมท�งก�ยไมเพยงพอในประช�กรอ�ย 15 ปขนไป แหลงขอมล ก�รสำ�รวจสขภ�พประช�ชนโดยก�รตรวจร�งก�ย

7.คว�มชกของผมกจกรรม ท � ง ก � ย ไ ม เ พ ย ง พ อ ข อ งประช�กรอ�ย 18 ปขนไป (หม�ยถง ก�รมกจกรรมท�งก�ยระดบป�นกล�งนอยกว� 150 น�ทตอสปด�ห หรอมระดบทเทยบเท�กน)

4 A 30% relative reduction in mean of population intake in salt /sodium.ค� เฉล ยก�รบร โภคเกลอ/โซเดยมของประช�กรลดลง 30%

8. ค�เฉลยประช�กรปรบฐ�นอ�ยของก�รบรโภคโซเดยมคลอไรด (จำ�นวนกรมตอวน) ในประช�กรอ�ย 18 ป ขนไป

6. ค�เฉลยประช�กรของก�รบรโภคโซเดยมคลอไรด (จำ�นวนกรมตอวน) ในประช�กรอ�ย 18 ปขนไปแหลงขอมล ก�รสำ�รวจสขภ�พประช�ชนโดยก�รตรวจร�งก�ย

5 A 30% relative reduction in prevalence of current tobacco use in person aged 15 years+ คว�มชกก�รบร โภคย�สบ ในปจจบนของผมอ�ย 15 ปขนไป ลดลง 30%

9. คว�มชกของก�รสบบหรใน วยรน

7 . คว�มชกก�รสบบหร ในประช�กรอ�ย 18 ปขนไปแหล ง ขอมล ก�รสำ �รวจของสำ�นกง�นสถตแหงช�ต

10. คว�มชกของก�รสบบหร ในประช�กรอ�ย 18 ปขนไป

6 A 25% relative reduction in prevalence of raise blood pressure or contain of raise blood pressure according to national circumstance. คว�มชกผมคว�มดนโลหตสง ลดลง 25%

11. คว�มชกปรบฐ�นอ�ยของผมภ�วะคว�มดนโลหตสงในประช�กรอ�ย 18 ปขนไป (หม�ยถง คว�มดนซสโตลก ม�กกว� 140 มลลเมตรปรอท และ 3/3 หรอคว�มดนไดแอส- โตลก ม�กกว� 90 มลลเมตรปรอท)

8. คว�มชกภ�วะคว�มดนโลหตสงในประช�กรอ�ย 18 ปขนไปแหลงขอมล ก�รสำ�รวจสขภ�พประช�ชนโดยก�รตรวจร�งก�ย

Page 14: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 1 ความเปนมาของ 9 Voluntary Global Targets 7

ลำาดบ 9 เปาหมายโดยสมครใจ25 ตวชวดขององคการ

อนามยโลก

การรายงานตวชวดของประเทศไทย/แหลงขอมลทใช

รายงาน

7 Halt the raise in diabetes and obesity. หยดก�รเพมขนของโรคเบ�หว�นและภ�วะอวน

12. คว�มชกปรบฐ�นอ�ยของผมภ�วะนำ�ต�ลในเลอดสง / โรคเบ�หว�นในประช�กรอ�ย 18 ปขนไป (ตรวจพบ Fasting blood sugar ม�กกว�หรอเท�กบ 7.0 mmol/l หรอ 126 mg/dl)

9 . คว�มชกโรคเบ�หว�นในประช�กรอ�ย 18 ปขนไป 10. คว�มชกภ�วะนำ�หนกเกนและภ�วะอวนในประช�กรอ�ย 18 ปขนไปแหลงขอมล ก�รสำ�รวจสขภ�พประช�ชนโดยก�รตรวจร�งก�ย

13. คว�มชกภ�วะนำ�หนกเกนและภ�วะอวนในประช�กรวยรน (ต�มเกณฑ WHO Growth Reference)

14. คว�มชกปรบฐ�นภ�วะ นำ�หนกเกนและภ�วะอวนในประช�กรอ�ย 18 ปขนไป (ภ�วะนำ�หนกเกน (BMI) เท�กบหรอม�กกว� 25.00 kg/m2 ภ�วะอวน BMI เท�กบหรอม�กกว� 30.00 kg/m2 ขนไป)

(ท�งเลอก) 15. ค�เฉลยปรบฐ�นอ�ยของสดสวนปรม�ณพลงง�นจ�กก�รบรโภคไขมนอมตว (Saturated fatty acids) ในประช�กรอ�ย 18 ปขนไป

(ท�งเลอก) 16. คว�มชกปรบฐ�นอ�ยผรบประท�นผกและผลไ มน อยกว � 5 หน วยม�ตรฐ�นตอวน (400 กรม ตอวน)

(ท�งเลอก) 17. คว�มชกปรบฐ�นอ�ยผมระดบคลอเลสเตอรอลในเลอดสงในประช�กรอ�ย 18 ปขนไป (ค�คอเลสเตอรอลรวม ม�กกว� 5 mmol/l หรอ 190 mg/dl)

Page 15: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

8 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ลำาดบ 9 เปาหมายโดยสมครใจ25 ตวชวดขององคการ

อนามยโลก

การรายงานตวชวดของประเทศไทย/แหลงขอมลทใช

รายงาน

8 At least 50% of eligible people receives drug therapy and consulting (including glycemic control) to prevent heart attack and stokes.อย�งนอย 50% ผปวยไดรบย�และคำ�แนะนำ�ก�รปฏบตตน (รวมทงไดรบคำ�แนะนำ�ในก�รควบคมระดบนำ�ต�ลในเลอด) เพอปองกนก�รเกดโรคหวใจและโรคหลอดเลอดสมอง

18. สดสวนผอ�ย 40 ปขนไป ทมคว�มเสยงตอก�รเกดโรคหวใจและหลอดเลอดใน 10 ปข � งหน � หร อคว�ม เ สยงม�กกว� 30 % ไดรบก�รรกษ�ดวยย�ควบคมระดบนำ�ต�ล ในเลอด และคำ�แนะนำ�ในก�รปฏบตตนเพอปองกนก�รเกดโรคหวใจว�ยเฉยบพลนและ โรคหลอดเลอดสมอง

ยงไมมก�รร�ยง�น

9 An 80% availability of the affordable basic technolo-gies and essential medi-cine, including generics, required to treat major n o n - c o m m u n i c a b l e diseases in both public and private facilitates.80% ของสถ�นพย�บ�ลรฐและเอกชนมเทคโนโลยพนฐ�นและย�สำ �คญท ประช�ชนส�ม�รถเข�ถงไดซงรวมถงย�สำ�คญในบญชย�หลกเพอรกษ�โรคไมตดตอ

19.คว�มส�ม�รถในก�รจดย�ทจำ�เปนสำ�หรบก�รรกษ�โรค ไมตดตออย�งมคณภ�พ มค ว � ม ป ล อ ด ภ ย แ ล ะ เ ก ดป ร ะ ส ท ธ ภ � พ ร ว ม ท ง มเทคโนโลยขนพนฐ�นในสถ�นพย�บ�ลของภ�ครฐและเอกชน

ยงไมมก�รร�ยง�น

(ท�งเลอก) 20. ก�รเข�ถงวธก�รรกษ�เพอบรรเท�อ�ก�รปวดดวย Morphine equiva-lent ในกลมย� strong opioid analgesic (ยกเวน ก�รใชย� methadone ของผเสยชวตดวยโรคมะเรง)

(ท�งเลอก) 21. ก�รประก�ศใชนโยบ�ยระดบประเทศในก�รควบคมปรม�ณกรดไขมนอมตวในอ�ห�รและหลกเลยงก�รใชนำ �มนประเภท part ial ly hydrogenated vegetable oils (PHVO) ในกระบวนก�รผลตอ�ห�ร

Page 16: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 1 ความเปนมาของ 9 Voluntary Global Targets 9

ลำาดบ 9 เปาหมายโดยสมครใจ25 ตวชวดขององคการ

อนามยโลก

การรายงานตวชวดของประเทศไทย/แหลงขอมลทใช

รายงาน

(ท�งเลอก) 22. คว�มส�ม�รถในก�รจดห�วคซนปองกนมะเรงป�กมดลก (HPV vac-cines) ในร�ค�ทเหม�ะสม ทงน อยกบก�รดำ�เนนก�รนโยบ�ยของประเทศ

(ท�งเลอก) 23. ก�รประก�ศใชนโยบ�ยเพอลดผลกระทบตอเดกจ�กกลยทธท�งก�รตล�ดด�นอ�ห�รและเครองดมทไมมแอลกอฮอล ทมสวนผสมของไขมนอมตว ไขมนทร�นส ส�รใหคว�มหว�นแทนนำ�ต�ล และเกลอในปรม�ณสง

(ท�งเลอก) 24. คว�มครอบคลมก�รไดรบวคซนปองกนโรคตบอกเสบ ครงท 3 ในกลมเดกท�รก

(ท�ง เล อก ) 25 . ส ดส วนประช�กรหญงทมอ�ย 30-49 ป ซงไดรบก�รตรวจคดกรองโรคมะเร งป�กมดลกอย�งนอยหนงครงหรอถม�กกว�น หรอในกลมอ�ยนอยกว�หรอม�กกว� น ไดรบก�รตรวจ คดกรองมะเรงป�กมดลกขนกบนโยบ�ยประเทศต�งๆ

Page 17: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

10 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

Page 18: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 2 โครงสรางชดขอมลดานการแพทยและสขภาพ 43 แฟม 11

บทท 2 โครงสรางชดขอมลดานการแพทย

และสขภาพ 43 แฟม

Page 19: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

12 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

กระทรวงส�ธ�รณสขไดกำ�หนดใหสถ�นพย�บ�ลในสงกดกระทรวงส�ธ�รณสขสงขอมลร�ยง�นกจกรรม

ทสำ�คญใหกบกระทรวง ผ�นสำ�นกง�นส�ธ�รณสขจงหวดแตละแหงทกเดอน โดยมวตถประสงคใหเกดก�รวเคร�ะห

ขอมลเพอใหทร�บสถ�นก�รณสขภ�พของประช�ชนในแตละตำ�บล อำ�เภอ จงหวด และใชขอมลดงกล�วในก�ร

ตดต�มผลก�รดำ�เนนก�รรกษ�โรคและสงเสรมสขภ�พ รวมถงก�รจดสรรทรพย�กรใหกบสถ�นพย�บ�ลไดอย�ง

มประสทธภ�พ

ก�รสงออกขอมลใหกบสำ�นกง�นส�ธ�รณสขจงหวดนน กำ�หนดใหสงขอมลต�มม�ตรฐ�น เพอระบ

ร�ยละเอยดขอมลเฉพ�ะทจำ�เปน โดยกระทรวงส�ธ�รณสขไดกำ�หนดเปนชดแฟมม�ตรฐ�น ม�ตงแต ป พ.ศ.2543

เรยกว� ชดขอมลแฟมม�ตรฐ�น 12 แฟม ตอม�มก�รปรบปรงชดแฟมม�ตรฐ�นหล�ยครง จนเปนชดแฟมม�ตรฐ�น

43 แฟม ด�นก�รแพทยและสขภ�พ เรมใชในป 2559 โดยในปจจบนมจำ�นวนชดแฟมม�ตรฐ�นทงสน 52 แฟม

(version 2.3 ตล�คม 2560) แตสวนใหญกมกจะยงคงเรยกกนว�ขอมล 43 แฟม

โครงสรางชดขอมลดานการแพทยและสขภาพ 43 แฟม พญ.พนธนย ธตชย และ นพ.กตตพนธ ฉลอมE-mail: [email protected]

2 บทท

Page 20: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 2 โครงสรางชดขอมลดานการแพทยและสขภาพ 43 แฟม 13

องคก�รอน�มยโลกไดกำ�หนดคว�มสำ�คญในก�รปองกนและควบคม NCDs อย�งเรงดวนต�ม “4 x 4 x 4

model” อนประกอบไปดวย โรคหลก 4 โรค ไดแก (1) โรคหวใจและหลอดเลอด (2) โรคเบ�หว�น (3) โรคมะเรง

(4) โรคท�งเดนห�ยใจเรอรง ซงเกดจ�กก�รเปลยนแปลงท�งสรรวทย�สำ�คญ 4 ปจจย ไดแก (1) ภ�วะไขมนใน

เลอดสง (2) ภ�วะคว�มดนโลหตสง (3) ภ�วะนำ�ต�ลในเลอดสง (4) ภ�วะนำ�หนกเกนและอวน โดยก�รเปลยนแปลง

ดงกล�ว เกดจ�กก�รมพฤตกรรมทไมเหม�ะสม ซงมปจจยเสยงรวมสำ�คญ 4 ปจจย ไดแก (1) ก�รบรโภคย�สบ

(2) ก�รดมเครองดมแอลกอฮอล (3) ก�รบรโภคอ�ห�รทไมเหม�ะสม (4) ก�รมกจกรรมท�งก�ยไมเพยงพอ

จ�กประเดนข�งตนจะพบว�ขอมลสวนใหญส�ม�รถวเคร�ะหไดโดยใชขอมลจ�กโครงสร�งม�ตรฐ�นขอมล

ด�นก�รแพทยและสขภ�พ กระทรวงส�ธ�รณสข จะมเพยงพฤตกรรมเสยงด�นกจกรรมท�งก�ยและก�รบรโภค

อ�ห�ร ทไมมขอมล สวนประเดนอนๆ ส�ม�รถใชขอมลต�มแฟมทเกยวของเพอใชในก�รวเคร�ะหสถ�นก�รณ

NCDs ในแตละพนทได ไมว�จะเปนประเดนด�นก�รเปลยนแปลงท�งสรรวทย� และก�รวนจฉยโรคต�งๆ (ต�ร�งท

2.1) ทงน ผเขยนขออธบ�ยตวแปรทส�ม�รถนำ�ม�ใชในก�รวเคร�ะหสถ�นก�รณ NCDs ในแตละแฟม โดยกำ�กบ

ชอตวแปรในวงเลบ เพอใหสะดวกตอก�รนำ�ไปใชง�นในขนตอนของก�รสงออกและวเคร�ะหขอมล

2.1 แฟมขอมล PERSON

เปนก�รบนทกขอมลทวไปของประช�ชนในเขตรบผดชอบ และผทม�ใชบรก�ร โดยจะมก�รสำ�รวจปละ 1

ครง และมก�รลงทะเบยนผปวยร�ยใหม หรอปรบแกขอมลในกรณทผปวยม�รบบรก�รในแตละครง โดยจะม

ก�รบนทกขอมลทวไป ไดแก รหสสถ�นบรก�รต�มม�ตรฐ�นกองยทธศ�สตรและแผนง�น (HOSPCODE)

เลขทบตรประช�ชน (CID) ทะเบยนบคคล (PID) ชอ (NAME) น�มสกล (LNAME) เพศ (SEX) วนเกด (BIRTH)

สญช�ต (NATION) และตวแปรทสำ�คญในก�รบอกสถ�นะบคคล (TYPEAREA) ซงจะแบงเปน 5 กลม ไดแก

1) มชออยต�มทะเบยนบ�นในเขตรบผดชอบและอยจรง 2) มชออยต�มทะเบยนบ�นในเขตรบผดชอบแตตว

ไมอยจรง 3) อ�ศยอยในเขตรบผดชอบ (ต�มทะเบยนบ�นในเขตรบผดชอบ) แตทะเบยนบ�นอยนอกเขตรบผดชอบ

4) อ�ศยอยนอกเขตรบผดชอบและทะเบยนบ�นไมอยในเขตรบผดชอบ เข�ม�รบบรก�ร หรอเคยอยในเขต

รบผดชอบ 5) อ�ศยในเขตรบผดชอบแตไมไดอยต�มทะเบยนบ�นในเขตรบผดชอบ เชน คนเรรอน ไมมทพกอ�ศย

เปนตน ซงห�กตองก�รทจะวเคร�ะหสถ�นก�รณเฉพ�ะของพนท มกจะเลอกขอมลเฉพ�ะประช�กรท

ขนทะเบยนในเขตรบผดชอบของพนทนน โดยเลอกเฉพ�ะผทม TYPEAREA = 1 และ 3 เท�นน ขอมลในแฟม

PERSON ส�ม�รถนำ�ม�ใชวเคร�ะหเพอดก�รกระจ�ยของโรคต�มสถ�นพย�บ�ล เพศ อ�ย ได

ผปวยแตละร�ยในสถ�นบรก�รนนๆ จะถกกำ�หนดรหส PID เพอใชสำ�หรบเชอมโยงตวบคคลกบแฟมอนๆ

โดยโปรแกรมจะกำ�หนดรหสขนเองสำ�หรบผปวยแตละร�ย ขอมลในแตละแฟมของฐ�นขอมลจะเชอมตอกนโดยใช

HOSPCODE และ PID โดยจะเหนว�แฟม PERSON ทมตวแปรสำ�คญ คอ เลขบตรประช�ชน และชอ ทส�ม�รถ

ระบตวบคคลเฉพ�ะร�ย นนคอ ห�กผปวย 1 ร�ยไปรบบรก�รม�กกว� 1 สถ�นพย�บ�ล ก�รระบตวตนผปวย

เฉพ�ะร�ยจะตองมก�รเชอมกบแฟม PERSON เพอใชขอมล CID จะไมส�ม�รถระบจ�ก HOSPCODE และ PID

เพยงอย�งเดยวได อย�งไรกต�มจะตองมก�รตรวจสอบคว�มถกตองของขอมลกอนก�รวเคร�ะห เนองจ�กพบว�

มก�รบนทกขอมล CID หรอ ชอ ผดพล�ดอยบ�ง และบ�งร�ยพบตวเลขทไมถกตอง อ�ท “0000000000000”

Page 21: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

14 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ขอควรระวงในการใชขอมล

ก�รประมวลผลตวชวดโดย Health Data Center หรอ HDC นน ตวชวดทแสดงผลใน HDC dashboard

จะประมวลผลเฉพ�ะบคคลท TYPEAREA เปนค� 1 หรอ 3 ของพนทนนๆ เท�นน แตอย�งไรกต�ม โดยปกตหนวยบรก�ร

จะใหบรก�รผปวยทกร�ยทม�โรงพย�บ�ลโดยไมเลอกปฏบต จงมผปวยม�รบบรก�รทง 4 TYPEAREA ดงนน

ก�รเลอกเฉพ�ะบ�ง TYPEAREA ม�วเคร�ะหขอมลอ�จจะทำ�ใหเกดคว�มคล�ดเคลอนได และจ�กก�รเกบขอมล

ในพนทพบว� ขอมล TYPEAREA ยงมคว�มคล�ดเคลอนอยพอสมควร เนองจ�กคว�มเข�ใจผดจ�กประช�ชน

ทถกสำ�รวจ จงทำ�ใหมก�รแจง TYPEAREA คล�ดเคลอน ทำ�ใหเกดกรณ เชน ผปวยบ�งร�ยทเปน TYPEAREA 1

ของโรงพย�บ�ล A แตไมเคยม�รกษ�ทโรงพย�บ�ล A เลย และมผปวยหล�ยร�ยทเปน TYPEAREA 2 หรอ 4

ม�รบบรก�รทโรงพย�บ�ล A

2.2 แฟมขอมล HOME/ADDRESS

แฟม HOME เปนแฟมขอมลทตงของหลงค�เรอนในเขตรบผดชอบของสถ�นบรก�ร โดยบนทกขอมลจ�ก

ก�รสำ�รวจปละครง และขนทะเบยนเมอมหลงค�เรอนใหม คว�มสำ�คญของแฟมนคอก�รใชขอมลทอยในก�ร

พรรณน�ท�งระบ�ดวทย� ในด�นของสถ�นท โดยใชขอมลจ�กตวแปร หมท (VILLAGE) ตำ�บล (TAMBON) อำ�เภอ

(AMPUR) และจงหวด (CHANGWAT) โดยแตละตวแปรมรหส 2 หลก ต�มกำ�หนดของกรมก�รปกครอง กรณ

ไมทร�บใชรหส 99 ทงน แฟม HOME มขอมลหลกของประช�ชนผทอ�ศยในเขตรบผดชอบ สวนขอมลในแฟม

ADDRESS บนทกเฉพ�ะขอมลทอยต�มทะเบยนบ�นเฉพ�ะกรณททะเบยนบ�นไมตรงกบทอยจรงในเขตรบผดชอบ

เท�นน ซงแฟม ADDRESS มตวแปร หมท (VILLAGE) ตำ�บล (TAMBON) อำ�เภอ (AMPUR) และจงหวด (CHANGWAT)

เชนเดยวกน ดงนน ในท�งปฏบตจะใชขอมลทอยจ�กแฟม HOME ซงเปนก�รสำ�รวจทอยจรงของผปวยแตละร�ย

กอน ห�กไมมขอมลจงจะใชขอมลจ�กแฟม ADDRESS โดยเฉพ�ะอย�งยงในผปวยทเปน TYPEAREA 1 หรอ 3

2.3 แฟมขอมล DEATH

เปนแฟมขอมลประวตก�รเสยชวตของประช�ชนทอ�ศยในเขตรบผดชอบ และผปวยทม�รบบรก�ร โดย

จะมก�รสำ�รวจปละ 1 ครง และบนทกกรณมผเสยชวตร�ยใหมเพมเตมระหว�งป โดยจะมตวแปรทสำ�คญคอรหส

โรคทเปนส�เหตก�รต�ย โดยบนทกเปนรหส ICD-10-TM 6 หลก สถ�นทต�ย (PDEATH 1=ในสถ�นพย�บ�ล

2=นอกสถ�นพย�บ�ล) และวนทต�ย (DDEATH) โดยจะมก�รบนทกรหสโรคต�มลำ�ดบต�มหนงสอรบรองก�รต�ย

(CDEATH_A, CDEATH_B, CDEATH_C, CDEATH_D, ODISEASE) ส�เหตก�รต�ยต�มหนงสอรบรองก�รต�ย

(CDEATH) ทงน พบว�ก�รบนทกขอมลในแฟม DEATH อ�จยงไมครบถวน ครอบคลมทงหมด เนองจ�กยงมผเสย

ชวตสวนหนง โดยเฉพ�ะผเสยชวตนอกโรงพย�บ�ล ทไมไดมก�รลงบนทกในระบบขอมลของสถ�นพย�บ�ล

(hospital information system) จงไมมขอมลสงออกม�ยงฐ�นขอมล

ขอควรระวงในการใชขอมล

ควรระวงในก�รใชขอมลจ�กแฟมนในแงของผลก�รรกษ� (treatment outcome/result) โดยไมไดคำ�นง

ถงคว�มไมครอบคลมของก�รลงบนทกขอมล ซงอ�จจะทำ�ใหไดผลก�รรกษ�ทดเกนจรง เนองจ�กข�ดขอมลผเสย

ชวตบ�งสวน นอกจ�กนนยงส�ม�รถตรวจสอบขอมลก�รเสยชวตไดจ�กสถ�นะของผปวยในแฟมอนๆ เชน PERSON

(DISCHARGE), CHRONIC (TYPEDISCH), REFER_RESULT (REFER_RESULT), ADMISSION (DISCHSTATUS)

Page 22: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 2 โครงสรางชดขอมลดานการแพทยและสขภาพ 43 แฟม 15

2.4 แฟมขอมล SERVICE

แฟมนประกอบไปดวยขอมลประวตก�รม�รบบรก�รแตละสถ�นบรก�ร ซงจะมขอมลของผปวยทกครง

ทม�รบบรก�ร ในแฟมนจะมตวแปรทเกยวของกบ NCDs คอ ค�คว�มดนโลหต (SBP และ DBP) และวนทให

บรก�ร (DATE_SERV) ขอมลดงกล�วนส�ม�รถใชในกรณทตองก�รใชขอมลคว�มดนโลหตของผปวยทม�รบบรก�ร

ในแตละครง โดยทไมจำ�เปนว�ผปวยไดขนทะเบยนในแฟม CHRONIC หรอไม อ�ท ก�รเชอมขอมลกบแฟม

DIAGNOSIS เพอดงขอมลคว�มดนโลหตในผปวยทไดรบก�รวนจฉยดวยรหสโรคต�ง ๆ ทไมไดมก�รลงทะเบยน

และสงออกขอมลในแฟม CHRONIC

ขอควรระวงในการใชขอมล

บ�งร�ยทเข�รบบรก�ร เชน ทำ�แผล ฉดย� หรอญ�ตรบย�แทน อ�จจะไมมขอมล SBP DBP

2.5 แฟมขอมล DIAGNOSIS (DIAGNOSIS_OPD และ DIAGNOSIS_IPD)

แฟม DIAGNOSIS_OPD เปนก�รบนทกก�รวนจฉยโรคของผปวยนอก แตละครงทผปวยม�รบบรก�ร

ประกอบไปดวยตวแปรสำ�คญ ไดแก วนทใหบรก�ร (DATE_SERV) รหสโรคทวนจฉยต�มรปแบบ ICD-10-TM

(DIAGCODE) โดย 1 record จะมขอมลรหสโรค 1 โรค ห�กผปวยถกวนจฉยม�กกว� 1 โรคตอ 1 ครงบรก�ร

จะมขอมลม�กกว� 1 record สวนในแฟม DIAGNOSIS_IPD จะเปนขอมลก�รวนจฉยโรคของผปวยใน โดยม

ตวแปรสำ�คญเชนเดยวกนกบ DIAGNOSIS_OPD เพยงแตชอตวแปรวนทใหบรก�รจะเปน DATETIME_ADMIT

ขอควรระวงในการใชขอมล

ควรระวงคว�มถกตองของขอมล ICD-10 เนองจ�กผใหรหสในระบบอ�จจะไมไดเปนผทรบผดชอบหรอ

มคว�มเชยวช�ญด�นก�รลงรหสโรคโดยตรง เชน แพทย พย�บ�ล ทำ�ใหรหสโรคมคว�มคล�ดเคลอน เชน บ�งครง

ผปวยมภ�วะคว�มดนโลหตสงแตยงไมถงเกณฑก�รวนจฉยโรคคว�มดนโลหตสง แตกมก�รใหรหส I10 ซงคอโรค

Hypertension เนองจ�กแพทยไมทร�บว�ควรลงรหสเปน R03 Raised Blood Pressure ม�กกว� ในกรณน

กจะทำ�ให มคว�มชกของโรคคว�มดนโลหตสงม�กกว�ปกตได นอกจ�กนนก�รศกษ�ภ�วะแทรกซอนของโรคคว�ม

ดนโลหตสงและเบ�หว�นกตองระวงก�รใชรหส ICD-10 ซงจะเปนคนละรหสกบโรคทไมมภ�วะแทรกซอน และ

ควรตรวจสอบคว�มถกตองของรหสกอนวเคร�ะหขอมลทกครง

2.6 แฟมขอมล DRUG (DRUG_OPD และ DRUG_IPD)

ขอมลก�รจ�ยย�สำ�หรบผปวยกจะถกสงออกแยกเปน 2 สวนเชนเดยวกบก�รวนจฉย คอ DRUG_OPD

สำ�หรบผปวยนอก และ DRUG_IPD สำ�หรบผปวยใน ทงย�ทจ�ยใหขณะรบก�รรกษ�ในโรงพย�บ�ลและย�ทจ�ย

เพอกลบไปใชตอทบ�น ตวแปรสำ�คญ คอ วน (DATE_SERV สำ�หรบ DRUG_OPD และ DATETIME_ADMIT

สำ�หรบ DRUG_IPD) รหสย� 24 หลกม�ตรฐ�น (DIDSTD) ขอมลจ�กแฟมนส�ม�รถนำ�ม�ใชในกรณทตองก�ร

วเคร�ะหคว�มครอบคลมของก�รรกษ�ดวยย� อ�ท ก�รห�คว�มครอบคลมของก�รไดรบย�ในกลม aspirin หรอ

statin ในกลมผปวย NCDs

ขอควรระวงในการใชขอมล

ควรรวบรวมรหสย�ใหครอบคลมย�ทตองก�รศกษ�ทงหมด เพอใหไดขอมลครบถวนทสด ย�บ�งอย�งท

ไมไดซอในโรงพย�บ�ลทไปรบก�รรกษ� เชน ย�ทมร�ค�แพง ย�ทไมส�ม�รถเบกจ�ยไดดวยสทธก�รรกษ�นนๆ

Page 23: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

16 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

อ�จจะมก�รใชย�ตวนน แตอ�จจะไมไดบนทกในระบบ เนองจ�กเปนก�รซอย�จ�กนอกโรงพย�บ�ล นอกจ�กนน

ไมควรอนม�นว�ย�ทเหนเปนย�ทงหมดทผปวยใชเสมอ เนองจ�กผปวยอ�จใชย�ทรบจ�กโรงพย�บ�ลอน หรอรบ

ย�ไปแตไมไดใชจรง

2.7 แฟมขอมล CHRONIC

แฟมนเปนแฟมสะสมขอมลผปวยโรคเรอรง ของผปวยทอ�ศยในเขตรบผดชอบ และ/หรอผม�รบบรก�รท

คลนกโรคเรอรงของหนวยบรก�ร (NCDs Clinic) โดยทวไปจะตองมก�รขนทะเบยนผปวยในระบบขอมลของสถ�น

พย�บ�ล (Hospital information system: HIS) จงจะมก�รสงออกขอมลม�ยงแฟมน ห�กผปวยถกวนจฉยดวย

NCDs แตไมถกขนทะเบยนในระบบ HIS ขอมลทถกสงออกม�ยงฐ�นขอมล จะมเพยงก�รวนจฉยในแฟม DIAG-

NOSIS เท�นน จะไมมขอมลผปวยในแฟม CHRONIC

ตวแปรสำ�คญในแฟม CHRONIC ไดแก วนทตรวจพบครงแรก (DATE_DIAG) รหสวนจฉยโรคเรอรง

(CHRONIC) วนทจำ�หน�ย (DATE_DISCH) และประเภทของก�รจำ�หน�ย (TYPEDISCH) ซงโดยปกตแลวผปวยท

ถกวนจฉยดวยโรคเรอรงจะถกจำ�หน�ยผปวยเนองจ�กส�เหต “ต�ย” (รหส = 02) เท�นน

ทงน พบว�ขอมลตวแปร DATE_DIAG มขอจำ�กดในบ�งโปรแกรม ซงไมส�ม�รถลงขอมลวนทยอนหลง

ทำ�ใหขอมลทสงออกม�ยงแฟม CHRONIC เปนวนทม�รบบรก�รในวนทขนทะเบยน ซงในคว�มเปนจรงตองมก�ร

ถ�มประวตผปวยยอนหลง แลวบนทกขอมลตงแตวนทผปวยถกวนจฉยครงแรก แมว�จะมก�รแกไขปญห�นแลว

แตขอมลทถกบนทกไปแลวยงอ�จจะมคว�มไมถกตองอยบ�ง ทำ�ใหศนยเทคโนโลยส�รสนเทศและก�รสอส�ร

(Health Data Center, HDC) มก�รสร�งตวแปรขนม�ใน Data Exchange เพอใหแตละพนทส�ม�รถดขอมล

ก�รวนจฉยแรกสดทมก�รบนทกลงในฐ�นขอมล เพอใหไดขอมลก�รวนจฉยแรกทแมนยำ�ยงขน

ขอควรระวงในการใชขอมล

ผปวยทไดรบก�รขนทะเบยนในแฟมน เปนเพยงบ�งสวนของจำ�นวนผปวยทงหมดเท�นน จงควรระวงก�ร

ใชขอมลในแงของก�รคดคว�มชกของโรค นอกจ�กนนขอมลตวแปร DATE_DIAG ซงจะนำ�ม�ใชในก�รห�อบตก�รณ

ของโรคอ�จจะมคว�มค�ดเคลอนทงจ�กตวโปรแกรมเองและคว�มเข�ใจของเจ�หน�ทในก�รลงบนทกขอมล

จงควรระมดระวงหรอมก�รตรวจสอบคว�มถกตองของขอมลกอนวเคร�ะห

2.8 แฟมขอมล CHRONICFU

เปนแฟมขอมลก�รตรวจตดต�มผปวยโรคเบ�หว�น และคว�มดนโลหตสง โดยจะมก�รบนทกขอมลผปวย

ทกครงทม�รบบรก�รผปวยโรคเรอรง (NCDs Clinic) โดยผปวยจะตองถกบนทกในแฟม CHRONIC กอน และ

จะตองมก�รสงตรวจในหองตรวจของคลนกโรคเบ�หว�น หรอ โรคคว�มดนโลหตสง จงจะถกสงออกขอมลม�ยง

แฟม CHRONICFU ตวแปรสำ�คญในแฟมน ไดแก วนทตรวจ (DATE_SERV) นำ�หนก (WEIGHT) สวนสง (HEIGHT)

เสนรอบเอว (WAIST_CM) คว�มดนโลหตซสโตลก (SBP) คว�มดนโลหตไดแอสโตลก (DBP) ก�รตรวจเท� (FOOT)

ก�รตรวจจอประส�ทต� (RETINA) และสถ�นทตรวจตดต�ม (CHRONICFUPLACE)

ก�รใชประโยชนจ�กแฟมน จะใชในก�รวเคร�ะหสถ�นก�รณก�รควบคมคว�มดนโลหตในผปวยโรคคว�ม

ดนโลหตสง ก�รคำ�นวณภ�วะอวนโดยใชดชนมวลก�ย หรอเสนรอบเอว และคว�มครอบคลมของก�รตรวจภ�วะ

แทรกซอน ไดแก ก�รตรวจเท� และก�รตรวจจอประส�ทต�ในผปวยโรคเบ�หว�น

Page 24: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 2 โครงสรางชดขอมลดานการแพทยและสขภาพ 43 แฟม 17

2.9 แฟมขอมล LABFU

เปนก�รบนทกขอมลก�รตรวจท�งหองปฏบตก�รของผปวยโรคเรอรง โดยมกลมเป�หม�ยคอ ผปวย

โรคเบ�หว�น โรคคว�มดนโลหตสง และโรคเรอรงอนๆ ปจจยทเกยวของ ไดแก วนทตรวจ (DATE_SERV) รหส

ก�รตรวจท�งหองปฏบตก�ร (LABTEST) ผลของก�รตรวจท�งหองปฏบตก�ร (LABRESULT) สวนใหญจะใชขอมล

จ�กแฟมนในก�รวเคร�ะหผลตรวจท�งหองปฏบตก�ร อ�ท ระดบนำ�ต�ลในเลอดเพอใชในก�รประเมนสถ�นก�รณ

ควบคมโรคเบ�หว�น ระดบไขมนในเลอดเพอประเมนคว�มเสยงของก�รเกดโรคหวใจและหลอดเลอด ก�รตรวจ

albumin ในปสส�วะหรอก�รตรวจระดบ creatinine เพอประเมนภ�วะแทรกซอนของ NCDs

ตวอย�ง รหสก�รตรวจท�งหองปฏบตก�ร (LABTEST) ทมกจะไดใชในก�รวเคร�ะหขอมล NCDs ไดแก

- 531002 Glucose, serum/plasma ก�รตรวจห�นำ�ต�ลกลโคสในซรม/พล�สม�

- 531004 Glucose, vein (NPO) ก�รตรวจนำ�ต�ลในเลอดจ�กหลอดเลอดดำ� โดยไมอดอ�ห�ร

- 531101 Glucose, semi-quantitative (test strip), whole blood ก�รตรวจห�นำ�ต�ลกลโคส

กงเชงปรม�ณ (โดยใชแถบทดสอบ) ในเลอด

- 531102 Glucose, capillaries ก�รตรวจนำ�ต�ลในเลอดจ�กเสนเลอดฝอย โดยไมอดอ�ห�ร

- 531601 Glycosylated hemoglobin whole blood (HbA1c) ก�รตรวจห� glycosylated

hemoglobin ในเลอด

- 546602 Triglycerides, serum/plasma ก�รตรวจห� triglycerides ในซรม/พล�สม�

- 541602 Cholesterol, total, serum/plasma ก�รตรวจห�คอเลสเตอรอลทงหมดในซรม/พล�สม�

- 541202 HDL Cholesterol, serum/plasma ก�รตรวจห�คอเลสเตอรอลชนด HDL ในซรม/พล�สม�

- 541402 LDL Cholesterol, serum/plasma ก�รตรวจห�คอเลสเตอรอลชนด LDL ในซรม/พล�สม�

- 440203 Albumin, urine ก�รตรวจอลบมนในปสส�วะ/ตรวจโปรตน macroalbumin ในปสส�วะ

(ใน filed ผลก�รตรวจใสค� 0=negative, 1=trace, 2=positive)

- 440204 Microalbumin protein ก�รตรวจโปรตน microalbumin ในปสส�วะ (ใน filed ผลก�ร

ตรวจใสค� 0=negative, 1=trace, 2=positive)

- 581902 Creatinine, serum/plasma ก�รตรวจห� creatinine ในซรม/พล�สม�

- 581903 Creatinine, urine ก�รตรวจห� creatinine ในปสส�วะ

- 581904 eGFR (CKD-EPI formula) ก�รตรวจห�ค� eGFR (ใชสตร CKD-EPI formula)

ขอควรระวงในการใชขอมล

อ�จจะมคว�มคล�ดเคลอนของรหสก�รตรวจท�งหองปฏบตก�ร (LABTEST) กบผลของก�รตรวจท�งหอง

ปฏบตก�ร (LABRESULT) ควรมก�รตรวจสอบขอมลกอนก�รวเคร�ะห

2.10 แฟมขอมล NCDSCREEN

แฟมข�งตนทกล�วม�จะเปนขอมลด�นก�รรกษ�จ�กสถ�นพย�บ�ลเปนหลก แตในแฟม NCDSCREEN

จะเปนขอมลก�รใหบรก�รคดกรองโรคคว�มดนโลหตสงและโรคเบ�หว�น โดยสถ�นพย�บ�ลจะคดกรองเชงรก

ในประช�ชนกลมเป�หม�ยทมอ�ย 35 ปขนไป ทยงไมไดเปนผปวยโรคคว�มดนโลหตสง หรอโรคเบ�หว�น

ต�มแนวท�งของกระทรวงส�ธ�รณสข ปละ 1 ครง

Page 25: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

18 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ตวแปรสำ�คญ ประกอบดวย วนทตรวจ (DATE_SERV) ประวตสบบหร (SMOKE) ประวตดมเครองดม

แอลกอฮอล (ALCOHOL) นำ�หนก (WEIGHT) สวนสง (HEIGHT) เสนรอบเอว (WAIST_CM) คว�มดนโลหต

ครงท 1 (SBP_1 และ DBP_1) คว�มดนโลหตครงท 2 (SBP_2 และ DBP_2) ระดบนำ�ต�ลในเลอด (BSLEVEL)

วธก�รตรวจนำ�ต�ลในเลอด (BSTEST)

ในก�รบนทกขอมลประวตสบบหร จะใหรหสดงตอไปน คอ 1 = ไมสบ 2 = สบน�นๆ ครง 3 = สบเปน

ครงคร�ว 4 = สบเปนประจำ� และ 9 = ไมทร�บ สวนประวตดมเครองดมแอลกอฮอล ใหรหส คอ 1 = ไมดม

(ไมดมในรอบ 12 เดอนทผ�นม�) 2 = ดมน�นๆ ครง (ดม 1-3 วน/เดอน หรอดม 1-11 วน/ป) 3 = ดมเปน

ครงคร�ว (ดม 1-4 วน/สปด�ห) 4 = ดมเปนประจำ� (ดม 5-7 วน/สปด�ห) และ 9 = ไมทร�บ

สวนรหสวธก�รตรวจนำ�ต�ลในเลอด ไดแก 1 = ตรวจนำ�ต�ลในเลอดจ�กหลอดเลอดดำ� หลงอดอ�ห�ร

2 = ตรวจนำ�ต�ลในเลอดจ�กหลอดเลอดดำ� โดยไมอดอ�ห�ร 3 = ตรวจนำ�ต�ลในเลอดจ�กเสนเลอดฝอย

หลงอดอ�ห�ร 4 = ตรวจนำ�ต�ลในเลอดจ�กเสนเลอดฝอย โดยไมอดอ�ห�ร และ 9 = ไมตรวจนำ�ต�ลในเลอด

แฟมนส�ม�รถใชประม�ณสถ�นก�รณ NCDs ในชมชนได เนองจ�กก�รเปนก�รเกบขอมลจ�กก�รสำ�รวจ

ในชมชน นอกจ�กนน ยงส�ม�รถใชขอมลในก�รตดต�มผปวยทคดกรองผดปกต และใชประเมนประสทธภ�พของ

ก�รคดกรองได เชน สดสวนของผปวยทคดกรองผดปกตแลวถกสงตอไปวนจฉยและขนทะเบยนทโรงพย�บ�ล

เปนตน

จะเหนว�ขอมลทมก�รสงออกจ�กสถ�นพย�บ�ลทวประเทศ มขอมลเปนจำ�นวนม�ก แมว�จะพบปญห�

เรองคว�มถกตองหรอครบถวนของขอมลอยบ�ง แตในภ�พรวมกถอว�มคว�มเพยงพอในก�รนำ�ม�ใชประเมน

สถ�นก�รณ NCDs ในพนท ไมว�จะเปนด�นปจจยเสยงด�นพฤตกรรม ปจจยเฉพ�ะบคคล ภ�วะโรค และก�รเสย

ชวต ซงส�ม�รถแสดงใหเหนบรบทเฉพ�ะของพนทเพอนำ�ไปใชในก�รว�งม�ตรก�รทเหม�ะสมในก�รควบคม

ปองกน NCDs นอกจ�กน ก�รใชขอมลดงกล�วในก�รศกษ�วเคร�ะห จะทำ�ใหผศกษ�เข�ใจร�ยละเอยดของตวแปร

และอ�จพบประเดนในก�รพฒน�เรองคว�มครบถวน และคณภ�พของขอมล ซงส�ม�รถนำ�ไปพฒน�คณภ�พ

ขอมล เพอใหมคว�มครบถวน ถกตอง และส�ม�รถนำ�ผลก�รวเคร�ะหม�สะทอนบรบท และปญห�ของพนทได

ชดเจนยงขนตอไป

ขอควรระวงในการใชขอมล

อ�จจะมคว�มค�ดเคลอนของก�รบนทกขอมล เนองจ�กแฟมนเปนสวนหนงของตวชวดคว�มครอบคลม

ของก�รคดกรอง จงอ�จจะทำ�ใหมก�รนำ�เข�ขอมลผดพล�ดได

Page 26: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 2 โครงสรางชดขอมลดานการแพทยและสขภาพ 43 แฟม 19

ตารางท 2.1 ร�ยชอแฟมทเกยวของกบก�รวเคร�ะหขอมล NCDs ในโครงสร�งม�ตรฐ�นขอมลด�นก�รแพทย

และสขภ�พ กระทรวงส�ธ�รณสข

ประเดนสขภาพ

PERS

ON/

HOM

E/AD

DRES

S

DEAT

H

SERV

ICE

DIAG

NOSI

S

DRU

G

CHRO

NIC

CHRO

NICF

U

LABF

U

NCDS

CREE

N

ขอมลทวไป √

พฤตกรรมเสยง

กจกรรมท�งก�ย

โภชน�ก�ร √

ก�รสบบหร √

ก�รดมเครองดมแอลกอฮอล

ก�รเปลยนแปลงท�งสรรวทย� √ √ √ √ √

คว�มดนโลหตสง √ √ √ √ √

นำ�ต�ลในเลอดสง √ √ √ √ √

ไขมนในเลอดสง √ √ √

ภ�วะอวน

โรคสำ�คญ √ √ √ √

โรคหลอดเลอดหวใจ √ √ √ √

โรคเบ�หว�น √ √ √

โรคมะเรง √ √ √ √

โรคท�งเดนห�ยใจเรอรง

Page 27: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

20 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ตารางท 2.2 ตวแปรทเกยวของกบก�รวเคร�ะหขอมล NCDs ในโครงสร�งม�ตรฐ�นขอมลด�นก�รแพทยและ

สขภ�พ กระทรวงส�ธ�รณสข

ลำาดบ ชอแฟม ตวแปรทเกยวของ

1 PERSON CID, NAME, LNAME, SEX, BIRTH, NATION, TYPEAREA

2 HOME VILLAGE, TAMBON, AMPUR, CHANGWAT

ADDRESS VILLAGE, TAMBON, AMPUR, CHANGWAT

3 DEATH DDEATH, CDEATH_A, CDEATH_B, CDEATH_C, CDEATH_D, ODISEASE,

CDEATH, PDEATH

4 SERVICE DATE_SERV, SBP, DBP

5 DIAGNOSIS_OPD DATE_SERV, DIAGCODE

DIAGNOSIS_IPD DATETIME_ADMIT, DIAGCODE

6 DRUG_OPD DATE_SERV, DIDSTD

DRUG_IPD DATETIME_ADMIT, DIDSTD

7 CHRONIC DATE_DIAG, CHRONIC, DATE_DISCH, TYPEDISCH

8 CHRONICFU DATE_SERV, WEIGHT, HEIGHT, WAIST_CM, SBP, DBP, FOOT, RETI-

NA, CHRONICFUPLACE

9 LABFU DATE_SERV, LABTEST, LABRESULT

10 NCDSCREEN DATE_SERV, SMOKE, ALCOHOL, WEIGHT, HEIGHT, WAIST_CM,

SBP_1, DBP_1, SBP_2, DBP_2, BSLEVEL, BSTEST

*ตวแปรหลกทใชในก�รเชอมขอมลระหว�งแฟม ไดแก HOSPCODE และ PID

Page 28: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 2 โครงสรางชดขอมลดานการแพทยและสขภาพ 43 แฟม 21

รปท 2.1 โครงสร�งขอมล 43 แฟม แฟมท 1-31

รปท 2.2 โครงสร�งขอมล 43 แฟม แฟมท 32-43

Page 29: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

22 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

2.11 บรรณานกรม

1. อรรถเกยรต ก�ญจนพบลวงศ, บรรณ�ธก�ร. (2560). ร�ยง�นสถ�นก�รณโรค NCDs ฉบบท 2. นนทบร

: สำ�นกง�นพฒน�นโยบ�ยสขภ�พระหว�งประเทศ.

2. วรรษ� เป�อนทร, มะลวลย ยนยงสวรรณ, บรรณ�ธก�ร. (2559). ม�ตรฐ�นก�รสงออกขอมลต�ม

แฟมม�ตรฐ�นกระทรวงส�ธ�รณสข. กรงเทพฯ : สำ�นกกจก�รโรงพมพ องคก�รสงเคร�ะหทห�รผ�นศก

ในพระบรมร�ชปถมภ.

Page 30: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 3 การใชงานโปรแกรม R เบองตน 23

บทท 3 การใชงานโปรแกรม R เบองตน

Page 31: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

24 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

การใชงานโปรแกรม R เบองตน ดร.อรพนธ อนตมานนทE-mail: [email protected]

3 บทท

3.1 ความสำาคญของ R

R เปนภ�ษ�โปรแกรมทถกออกแบบม�เพอใชในก�รวเคร�ะหขอมลท�งสถต และนำ�เสนอขอมลเปนกร�ฟ

รวมทงส�ม�รถนำ�ม�วเคร�ะหขอมลขน�ดใหญ (Big data) หรอง�นทซบซอนได เชน แผนทท�งภมศ�สตรทสำ�คญ

R เปนโปรแกรมฟร ไมมค�ใชจ�ย จงเปนโปรแกรมทไดรบคว�มนยมในวงวช�ก�รม�กขนเรอยๆ

R เปนโปรแกรมประเภท Open source ทำ�ใหมก�รรวมพฒน�ตอยอดใหมคว�มส�ม�รถทหล�กหล�ย

อย�งตอเนอง ส�ม�รถใชง�นไดทงระบบปฏบตก�ร Windows Mac OS และ Linux โดยก�รทำ�ง�นของ R

เปนทนยม เนองจ�กม built-in function ท�งด�นสถตจำ�นวนม�ก รวมถงมสถตทใชในก�รวเคร�ะหขอมลขน�ดใหญ

และส�ม�รถแสดงผลก�รทำ�ง�นในรปแบบกร�ฟแบบต�งๆ ไดอย�งสวยง�ม ซงปจจบนโปรแกรม R ม package

กว� 10,000 package จ�กเหตผลต�งๆ ทไดกล�วม�ข�งตน จงทำ�ใหคว�มนยมในก�รใชโปรแกรม R เพมขน

อย�งตอเนอง

Page 32: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 3 การใชงานโปรแกรม R เบองตน 25

ภาพท 3.1 เวบไซตสำ�หรบด�วนโหลด R

3.2 การตดตงโปรแกรม R

3.2.1 เปดเวบไซต https://www.r-project.org และคลก download R ต�มภ�พท 3.1

ภาพท 3.2 CRAN Mirrors สำ�หรบด�วนโหลด R

3.2.2 เลอก CRAN Mirrors เพอ download เลอก Thailand, Prince of Songkla University, Hatyai

ต�มภ�พท 3.2

3.2.3 เลอกระบบปฏบตก�รของคอมพวเตอร ตวอย�งนเลอก Download R for Windows ต�มภ�พท 3.3

ภาพท 3.3 ระบบปฏบตก�รทตองก�รตดตง R

Page 33: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

26 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

3.2.4 เลอก install R for the first time ต�มภ�พท 3.4

3.2.5 เลอก Download R 3.6.1 for Windows (เวอรชน ณ วนท 10 เดอน พฤศจก�ยน 2562)

ต�มภ�พท 3.5

ภาพท 3.4 ก�รตดตง R สำ�หรบ Windows

3.2.6 สำ�หรบระบบปฏบตก�ร windows หลงจ�กด�วนโหลดโปรแกรม R ตวตดตงจะอยในโฟลเดอร

Downloads ไฟลทด�วนโหลดมชอว� R-3.6.1-win32.exe ซงเมอ double click ระบบจะแสดงหน�จอก�ร

ตดตงโปรแกรม ใหกด Next ไปเรอยๆ และกดปม Finish เมอก�รตดตงเสรจสน

3.3 การตดตงโปรแกรม R-studio

Rstudio เปนโปรแกรมหนงทชวยใหผใชง�นมคว�มเข�ใจก�รทำ�ง�นของโปรแกรม R ไดดขน และทำ�ให

ก�รทำ�ง�นในโปรแกรม R มคว�มสะดวกและง�ยขน ก�รตดตงโปรแกรม Rstudio จะตองตดตงโปรแกรม R กอนเสมอ

ห�กไมไดตดตงกอน โปรแกรม Rstudio จะใชง�นไมได โดยก�รด�วนโหลดโปรแกรม Rstudio ส�ม�รถทำ�ไดต�ม

ขนตอนตอไปน

ภาพท 3.5 โปรแกรม R สำ�หรบก�รด�วนโหลด

Page 34: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 3 การใชงานโปรแกรม R เบองตน 27

3.3.1 เปดเวบไซต https://rstudio.com/ และคลก DOWNLOAD RSTUDIO ต�มภ�พท 3.6

ภาพท 3.6 เวบไซตสำ�หรบด�วนโหลด Rstudio

3.3.2 เลอนลงม�ท Installers for Supported Platforms สำ�หรบระบบปฏบตก�ร Windows ใหเลอก

RStudio 1.2.5019 - Windows 10/8/7 (64-bit) (เวอรชน ณ วนท 11 เดอน พฤศจก�ยน 2562) ต�มภ�พท 3.7

ภาพท 3.7 ระบบปฏบตก�รและ Rstudio ทใหด�วนโหลด

Page 35: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

28 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

3.3.3 หลงจ�กด�วนโหลดโปรแกรม Rstudio ตวตดตงจะอยในโฟลเดอร Downloads ไฟลทด�วนโหลด

ม�มชอว� 1.2.5019.exe ซงเมอ double click ระบบจะแสดงหน�จอก�รตดตงโปรแกรม ใหกด next ไปเรอยๆ

และกดปม Finish เมอก�รตดตงเสรจสน

3.4 การใชงานโปรแกรม R- studio

โปรแกรม RStudio แบงหน�ต�ง ออกเปน 4 สวน ดงน

- หน�ต�ง R Script ถอไดว�เปนหน�ต�งหลกทเร�จะสอส�รกบโปรแกรม คำ�สงต�งๆ จะถกสงและ

บนทกจ�กหน�ต�งน

- หน�ต�ง Console สำ�หรบก�รพมพคำ�สงและแสดงผลลพธ เมอเขยนคำ�สงในหน�ต�ง R Script แลว

highlight คำ�สงทงหมด จ�กนน กด ctr+enter หรอกด Run ผลก�รวเคร�ะหจะปร�กฏทหน�ต�ง console นน

หม�ยคว�มว� คำ�สง ถกสง แลว และโปรแกรมจะทำ�ก�รประมวลผล

- หน�ต�ง Environment and history แสดงผลของค�ทกำ�หนด เชน จำ�นวนตวแปร ชอตวแปร ขอมล

ทใช เปนตน รวมทงผใชส�ม�รถดประวตก�รใชคำ�สงได

หน�ต�ง Files เปนหน�จอแสดงโฟลเดอร ณ ปจจบนทกำ�ลงทำ�ง�นอย Plots เปนพนทแสดงกร�ฟ,

Packages แสดง package ทมอย แลวยงส�ม�รถคลกเพอ install package และ update package ได Help

แสดงร�ยก�รชวยเหลอทตองก�ร ร�ยละเอยดต�มภ�พท 3.8

ภาพท 3.8 หน�ต�ง Rstudio

Console Environment

Files

1 3

R script

2 4

Page 36: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 3 การใชงานโปรแกรม R เบองตน 29

3.5 การใช R เบองตน

3.5.1 ก�รคำ�นวณใน R

ก�รคำ�นวณท�งคณตศ�สตรใน R ส�ม�รถทำ�ไดง�ยและสะดวกรวดเรว เชน

- สญลกษณพนฐ�นทใชในก�รคำ�นวณ คอ บวก (+) ลบ (-) คณ (*) ห�ร (/) และยกกำ�ลง (^)

- ก�รคำ�นวณฟงกชนท�งคณตศ�สตรต�งๆ เชน ร�กทสอง sqrt() ค�ลอก�รทม log() เอกซโพเนนเชยล

exp() เปนตน แสดงตวอย�งก�รคำ�นวณดวยโปรแกรม R

8+4 [1] 12 8-4 [1] 4 8*4 [1] 32 8/4 [1] 2 8^2 [1] 64 sqrt(9) [1] 3 log(1) [1] 0 exp(0) [1] 1

3.5.2 ก�รเกบค�ก�รกระทำ�ต�งๆ ใน R

ก�รเกบค�ก�รกระทำ�ต�งๆ ใน R มสญลกษณหลกๆ ดงน

<- เปนก�รนำ�ค�หรอผลจ�กก�รคำ�นวณหรอก�รทำ�ง�นของคำ�สงทปล�ยลกศร (ด�นขว�) ไปใสในชอ

วตถทเขยนไวทอยด�นหวลกศร (ด�นซ�ย)

-> เปนก�รนำ�ค�หรอผลจ�กก�รคำ�นวณหรอก�รทำ�ง�นของคำ�สงทปล�ยลกศร (ด�นซ�ย) ไปใสในชอ

วตถทเขยนไวทอยด�นหวลกศร (ด�นขว�)

= มคว�มหม�ยเชนเดยวกบ <- แตไมนยมใช เพร�ะจะสบสนกบเครองหม�ย == ทเปนเครองหม�ย

เท�กบท�งตรรกศ�สตร

Tip ชอวตถหรอตวแปร อกษรตวเลกและใหญถอว�ต�งกน

Page 37: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

30 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

แสดงตวอย�งก�รเกบค�ก�รกระทำ�ต�งๆ ใน R โดย a คอ ผลบวกของ 8 และ 4 สวน b คอ ผลต�งของ

8 และ 4 และ c คอ ผลห�รของ a และ b

a <- 8+4 b <- 8-4 c <- a/b c [1] 3 d <- c^2 sqrt(d) [1] 3

3.5.2 สญลกษณท�งตรรกศ�สตรใน R

สญลกษณท�งตรรกศ�สตรใน R แสดงต�มต�ร�งท 3.1

ตารางท 3.1 สญลกษณท�งตรรกศ�สตรใน R

สญลกษณ ความหมาย

== ก�รเท�กน

!= ก�รไมเท�กน

< นอยกว�

> ม�กกว�

<= นอยกว�หรอเท�กบ

>= ม�กกว�หรอเท�กบ

& และ

| หรอ

ตวอย�งสญลกษณท�งตรรกศ�สตรใน R ซงเปรยบเทยบค� a b และ c โดยผลทออกม�คอ TRUE และ FALSE

a <- 8 b <- 8 c <- 6 a==b [1] TRUE a==c [1] FALSE a != c

[1] TRUE

Page 38: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 3 การใชงานโปรแกรม R เบองตน 31

3.5.4 ชนดของขอมลใน R

ตารางท 3.2 ชนดของขอมลใน R

ชนดของขอมล ตวอยาง ตรวจสอบ

ตรรกะ

Logical

TRUE, FALSE v <- TRUE

class(v)

ผลลพธของคำ�สงเปนดงน

[1] “logical”

ตวเลข (มจดทศนยม)

Numeric

12.3, 5, 999 v <- 23.5

class(v)

ผลลพธของคำ�สงเปนดงน

[1] “numeric”

จำ�นวนเตม (ไมมจดทศนยม)

Integer

2L, 34L, 0L v <- 2L

class(v)

ผลลพธของคำ�สงเปนดงน

[1] “integer”

ขอคว�ม

Character

‘A’, “ด”, “true”, “yellow” v <- c(“Hello”, “Hi”, “Ni Hao”)

class(v)

ผลลพธของคำ�สงเปนดงน

[1] “character”

3.5.5 คำ�สงพนฐ�นใน R

- ก�รกำ�หนด Working directory

getwd() ตรวจสอบว�ขณะนเร�ทำ�ง�นอย directory ไหน

setwd() กำ�หนด directory ทใชทำ�ง�น เชน setwd(“d:/DataNCD”)

dir() เรยกดไฟลทงหมดทจดเกบอยใน directory

- ตงค�ให R อ�นภ�ษ�ไทยได

Sys.setlocale(locale=“Thai”)

- ก�รศกษ�แตละคำ�สงหรอ function จ�ก help() ซงมคว�มสำ�คญอย�งม�ก เชน ถ�ตองก�รอย�กร

ว� setwd คออะไร และ ใชง�นอย�งไร ? ส�ม�รถพมพว� help(setwd) เพอดร�ยละเอยดไดเลย

Page 39: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

32 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

3.6 โครงสรางขอมลใน R

โครงสร�งขอมลใน R หลกๆ ประกอบดวย เวกเตอร (Vector) เมทรกซ (Matrix) อ�รเรย (Array) และ

กรอบขอมล (Data frame)

- เวกเตอร (Vector) เปนโครงสร�งขอมลพนฐ�นใน R

- เมทรกซ (Matrix) เปนเวกเตอรหล�ยๆ เวกเตอรม�ประกอบกน

- Array คอกลมของขอมลทเรยงลำ�ดบกน มจำ�นวนแนนอน ซงขอมลจะเปนประเภทเดยวกน

- กรอบขอมล (Data frame) ขอมลทประกอบดวยแถวและคอลมน

แสดงตวอย�งโครงสร�งขอมลใน R โดยสร�งเวกเตอร อ�ย (age) และ เพศ (sex) จ�กนนสร�ง เมทรกซ

person จ�กเวกเตอรดงกล�ว และสร�งกรอบขอมล dat จ�กเมทรกซดงกล�ว

#Vector age <- c(10,20,30,40,50) age [1] 10 20 30 40 50 sex <- c(“male”, “male”, “female”, “female”, “male”) sex [1] “male” “male” “female” “female” “male” #Matrix person <- cbind(age,sex) person age sex [1,] “10” “male” [2,] “20” “male” [3,] “30” “female” [4,] “40” “female” [5,] “50” “male” #Data frame dat <- data.frame(person) dat age sex 1 10 male 2 20 male 3 30 female 4 40 female 5 50 male

3.6.1 การใช Package ใน R

โปรแกรม R ม Package ม�กกว� 10,000 Package ทส�ม�รถตดตงและนำ�ม�ใชง�นเพอชวยในก�ร

จดก�รขอมล วเคร�ะหขอมล และแสดงผลในรปแบบต�งๆ โดยส�ม�รถตดตงและทำ�ก�ร load package และ

เรยกใช library() เมอเสรจแลว โดยตดตงเพยงครงเดยว หลงจ�กนนใชง�นไดตลอด ก�รตดตงส�ม�รถทำ�ได 2 วธ

คอ ก�รตดตง package ผ�นอนเตอรเนต และก�รตดตง package โดยใชไฟล

Page 40: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 3 การใชงานโปรแกรม R เบองตน 33

- การตดตง package ผานอนเตอรเนต

ไปท Tools เลอก Install Packages เลอก Repository (CRAN) และพมพชอ package ในตวอย�งน

ตดตง package epiDisplay

ภาพท 3.9 ตดตง package ผ�นอนเตอรเนต

ภาพท 3.10 ตดตง package โดยใชไฟล

อกวธหนงคอตดตงผ�นคำ�สง R

installed.packages(“epiDisplay”)

- การตดตง package โดยใชไฟล

ไปท Tools เลอก Install Packages… เลอก Package Archive File (.zip; .tar.gz) และเลอกไฟล

package ทจะตดตง

อกวธหนงคอตดตงผ�นคำ�สง R

installed.packages(“directory file”)

Page 41: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

34 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

3.6.2 การใช package epiDisplay

epiDisplay เปน package ทพฒน�ขนโดย ศ.ดร.นพ.วระศกด จงสววฒนวงศ จ�กหนวยระบ�ดวทย�

คณะแพทยศ�สตร มห�วทย�ลยสงขล�นครนทร โดยเปน package ทใชสำ�หรบก�รคำ�นวณสถตด�นระบ�ดวทย�

ห�กทำ�ก�รตดตงแลวส�ม�รถเรยกใชโดยคำ�สง library (epiDisplay)

- คำ�สงทใชบอยใน epiDisplay

des() ดลกษณะของตวแปรต�งๆ

summ() คำ�สงสำ�หรบสรปค�ท�งสถตเบองตน

codebook() คำ�สงสำ�หรบก�รคำ�นวณค�สถตเชงพรรณน�ทเหม�ะสมกบขอมลแตละประเภท

3.6.3 คำาสงอนๆ ทใชบอยใน R

length() แสดงจำ�นวนของขอมล

str() แสดงโครงสร�งของขอมล

class() แสดงชนดของขอมล

names() แสดงชอตวแปรของขอมล

cbind() รวมขอมลโดยคอลมน

rbind() รวมขอมลโดยแถว

ls() แสดงวตถหรอตวแปร

rm() ลบวตถหรอตวแปร

factor() ใชสำ�หรบเปลยนประเภทตวแปรเปนตวแปรแบบกลม (categorical data)

cut() เปลยนขอมลตวเลข ใหเปนกลมชวง

จ�กก�รศกษ�เนอห�ในบทนค�ดหวงว�ผเรยนส�ม�รถตดตงโปรแกรมทง 2 โปรแกรมทจำ�เปนตองมไว

ในเครองคอมพวเตอรเพอใชในก�รจดก�รและวเคร�ะหขอมล รวมทงส�ม�รถเรยนรคำ�สงเบองตนทงใน R และ

ใน package epiDisplay เพอเตรยมคว�มพรอมเข�สบทอนๆ ทงน ผเรยนส�ม�รถฝกทำ�แบบฝกหดท�ยบทเพอ

ทบทวนก�รใชคำ�สงต�งๆ ทจะใชในก�รจดก�รขอมลตอไป

3.7 แบบฝกหดทายบท

ฝกปฏบตก�รใชคำ�สงใน package epiDisplay จ�กขอมล ชอ Cars93 ซงอยใน package”MASS”

โปรดเรยกขอมลดงกล�วม�สำ�รวจ โดยเรมดวยคำ�สง

library(epiDisplay)

data(Cars93, package= “MASS”)

ขอมลนเปนขอมลเกยวกบรถในสหรฐอเมรก� โปรดตอบคำ�ถ�มตอไปน

1. ขอมลมทงหมดกตวแปร

2. ตวแปรกลมหรอ factor มกตว อะไรบ�ง

3. ร�ค�เฉลย ร�ค�สงสดและตำ�สด ของรถทงหมดเปนเท�ไร

4. มรถขบเคลอนลอหน�กคน คดเปนรอยละเท�ไร (ตวแปร=DriveTrain)

5. รถทผลตในสหรฐอเมรก�มกคน (ตวแปร = Origin)

6. รถทงหมดมยหออะไรบ�ง (ตวแปร = Manufacturer)

Page 42: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 3 การใชงานโปรแกรม R เบองตน 35

3.8 บรรณานกรม

1. ก�นต ยงศรวทย โปรแกรมภ�ษ� R เบองตน มห�วทย�ลยรงสต สบคนเมอ 20 มน�คม 2562

ท�งhttp://hdc.moph.go.th/download/document/training/ visualization2018/dr_karn/

Rprogramming.pdf

2. จร�วรรณ รอนร�ญ โปรแกรม R เบองตน มห�วทย�ลยแมโจ สบคนเมอ 10 สงห�คม 2562 ท�ง

https://erp.mju.ac.th/acticleDetail.aspx?qid=622

a. วโรจน อรณม�นะกล สถตและก�รใชโปรแกรม R จฬ�ลงกรณมห�วทย�ลย สบคนเมอ 15 มน�คม

2561 ท�ง http://pioneer.chula.ac.th/~awirote/courses/res-tech-ling/statistics-and-r.pdf

4. The Comprehensive R Archive Network. Package ‘epiDisplay’ May 10, 2018 สบคนเมอ

15 พฤษภ�คม 2562 ท�ง https://cran.r-project.org/

5. อภรด แซลม. (2559). ก�รจดก�รขอมล กร�ฟ และก�รวเคร�ะหท�งสถต. สงขล� : ไอคว มเดย.

Page 43: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

36 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

Page 44: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 4 การเลอกใชสถต 37

บทท 4 การเลอกใชสถต

Page 45: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

38 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

การเลอกใชสถต รศ.ดร.นงเยาว เกษตรภบาลE-mail: [email protected]

4 บทท

ก�รดำ�เนนง�นท�งด�นส�ธ�รณสขในประเทศไทย มก�รเกบรวบรวมขอมลเกยวกบโรคไมตดตอของ

ผรบบรก�รไวเปนจำ�นวนม�ก โดยเกบไวในฐ�นขอมล 43 แฟม ซงห�กมก�รนำ�ขอมลดงกล�วม�ทำ�ก�รวเคร�ะห

และสงเคร�ะหองคคว�มร กจะกอใหเกดประโยชนแกผรบบรก�ร หนวยง�น และองคกรอย�งมห�ศ�ล องคคว�มร

ทไดจ�กก�รวเคร�ะห และสงเคร�ะหขอมลในหนวยง�นหรอในพนทของตนเองนน จะชวยใหก�รแกไขปญห�

ส�ธ�รณสขของประช�กรในพนทไดตรงประเดน นอกจ�กนองคคว�มรดงกล�วยงส�ม�รถนำ�ม�ใชในก�รพฒน�

องคกร หรอนำ�ไปเผยแพรใหกบหนวยง�นอนทเกยวของได

ก�รทจะไดม�ซงองคคว�มรทถกตองนน บคล�กรส�ธ�รณสขจะตองมคว�มรในก�รตรวจสอบคณภ�พของ

ขอมล ก�รจดก�รขอมล ก�รวเคร�ะหขอมล ก�รแปลผลขอมล ก�รนำ�เสนอขอมล และก�รร�ยง�นขอมล ซงใน

บทนจะกล�วถงเฉพ�ะก�รตรวจสอบคณภ�พของขอมล ก�รจดก�รขอมล คว�มรพนฐ�นท�งสถต ก�รวเคร�ะห

ขอมลเบองตน และก�รแปลผลขอมลท�งระบ�ดวทย�

Page 46: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 4 การเลอกใชสถต 39

4.1 ความหมายของสถต ขอมล สารสนเทศ และการประมวลผล

สถต (statistics) มคว�มหม�ยเปน 2 นย คอ สถต หม�ยถง ตวเลขทแสดงขอเทจจรงของขอมล ซงเปน

ตวเลขทไดม�จ�กก�รวเคร�ะหขอมลหรอประมวลผล อกนยหนง สถต หม�ยถง ศ�สตรหรอวช�ทว�ดวยหลกก�ร

และระเบยบวธท�งสถต ซงประกอบดวยกระบวนก�ร 4 ขนตอน คอ ก�รเกบรวบรวมขอมล ก�รวเคร�ะหขอมล

ก�รแปลคว�มหม�ยขอมล และก�รนำ�เสนอขอมล เพอประโยชนในก�รชวยตดสนใจและกำ�หนดนโยบ�ยต�งๆ

ใหเปนไปอย�งมประสทธภ�พ รวมถงก�รประเมนผลโครงก�ร อนจะนำ�ไปสก�รพฒน�ตอไป

ขอมล (data) หม�ยถง ขอเทจจรงหรอเหตก�รณเกยวกบสงต�งๆ เชน คน สถ�นท สงของต�งๆ ซงม

ก�รเกบรวบรวมเอ�ไว ยงไมมก�รประมวล แตส�ม�รถนำ�ไปประมวลผลไดดวยก�รคำ�นวณดวยมอหรอโปรแกรม

คอมพวเตอร ทงนส�ม�รถเรยกเอ�ม�ใชประโยชนไดในภ�ยหลง โดยขอมลอ�จเปนตวเลข สญลกษณ ตวอกษร

เสยง ภ�พ ภ�พเคลอนไหว เปนตน

ขอมลดานสขภาพ (health data) หม�ยถง ขอเทจจรงทเกยวของกบสขภ�พของผรบบรก�ร ซงอ�จ

เปนขอมลของบคคล ครอบครว หรอชมชน ทบคล�กรส�ธ�รณสขจะนำ�ไปใชประโยชนในก�รรกษ�พย�บ�ล

สารสนเทศ (information) หม�ยถง ขอมลทมส�ระอยในตว ส�ม�รถสอคว�มหม�ยใหผทตองก�รใช

ขอมลนนเกดคว�มเข�ใจ โดยเกดจ�กก�รนำ�ขอมล ผ�นระบบก�รประมวลผล คำ�นวณ วเคร�ะห และแปล

คว�มหม�ยเปนขอคว�ม อย�งเปนระบบต�มหลกวช�ก�ร ทส�ม�รถนำ�ไปใชประโยชนได

การประมวลผล (data processing) หม�ยถง ก�รนำ�ขอมลดบ (raw data) ม�ดำ�เนนก�รบ�งประก�ร

เชน จดหมวดหม จำ�แนก คดแยก คำ�นวณ บนทก เปรยบเทยบ เพอใหขอมลอยในรปทกะทดรด มคว�มหม�ย

และสะดวกตอก�รนำ�ไปใชประโยชนต�มทตองก�ร

4.2 คำาศพททเกยวของกบสถต

ประชากร (population) หม�ยถง กลมของสงต�งๆ ทงหมดทผศกษ�หรอผวจยสนใจ อ�จจะเปนสง

มชวต หรอไมมชวตกได ประช�กรในท�งสถตอ�จหม�ยถง บคคล กลมบคคล องคกรต�งๆ สตว หรอสงของ

กลมตวอยาง (sample) หม�ยถง สวนหนงของประช�กรทผศกษ�หรอผวจยสนใจ กลมตวอย�งถกเลอก

ม�จ�กประช�กรดวยวธก�รใดวธก�รหนงเพอเปนตวแทนในก�รศกษ�และเกบขอมล กลมตวอย�งทดคอกลม

ตวอย�งทมลกษณะต�งๆ ทสำ�คญครบถวนเหมอนกบกลมประช�กร เปนตวแทนทดของกลมประช�กรได ในกรณ

ทกลมประช�กรทจะศกษ�นนเปนกลมขน�ดใหญ เกนคว�มส�ม�รถหรอคว�มจำ�เปนทตองก�ร จะใชกลมตวอย�ง

ในก�รวจยเพอประหยดในด�นงบประม�ณและเวล�

คาพารามเตอร (parameter) หม�ยถง ค�ต�งๆ ทคำ�นวณม�ไดจ�กกลมประช�กร

คาสถต (statistics) หม�ยถง ค�ต�งๆ ทคำ�นวณม�ไดจ�กกลมตวอย�ง ค�ทไดจะเปลยนแปลงไดต�ม

กลมตวอย�งทเลอกสมม�

ตวแปร (variable) ในท�งสถต หม�ยถง ลกษณะบ�งอย�งทผศกษ�หรอผวจยสนใจศกษ� เชน เพศ อ�ย

ประสบก�รณก�รทำ�ง�น เปนตน ค�ของตวแปร อ�จอยในรปขอคว�ม หรอตวเลขกได

คาทเปนไปได (possible value) หม�ยถง ค�ของตวแปรทอ�จจะเกดขนไดจรง

คาจากการสงเกต (observed value) หม�ยถง ค�ทเกบรวบรวมม�ไดจรง

Page 47: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

40 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

4.3 ประเภทของขอมล

ก�รมคว�มรคว�มเข�ใจเกยวกบประเภทของขอมลจะชวยใหส�ม�รถเลอกสถตทใชในก�รวเคร�ะหขอมล

ไดอย�งถกตองเหม�ะสม ก�รแบงประเภทของขอมลส�ม�รถแบงไดหล�ยแบบ ในทนจะกล�วถงก�รแบงประเภท

ขอมลต�มลกษณะของขอมล ต�มระดบของขอมล และต�มแหลงทม�ของขอมล ดงน

4.3.1 แบงตามลกษณะของขอมล ไดดงน

1. ขอมลเชงปรมาณ (quantitative data) เปนขอมลทแสดงคว�มแตกต�งในเรองปรม�ณหรอ

ขน�ด ส�ม�รถวดค�ไดว�มค�ม�กหรอนอย เชน อ�ย สวนสง นำ�หนก แบงเปน 2 ประเภท

- ขอมลแบบไมตอเนอง (discrete data) หม�ยถง ขอมลทมค�เปนเลขจำ�นวนเตมทมคว�มหม�ย

เชน จำ�นวนบตร จำ�นวนก�รตงครรภ จำ�นวนผปวย จำ�นวนผตดเชอ เปนตน

- ขอมลแบบตอเนอง (continuous data) หม�ยถง ขอมลทอยในรปตวเลขทมค�ไดทกค�ในชวง

ทกำ�หนด และมคว�มหม�ย เชน ร�ยได อ�ย นำ�หนก สวนสง ชพจร ก�รห�ยใจ คว�มดนโลหต ระดบนำ�ต�ล

ในเลอด และระดบไขมนในเลอด เปนตน

2. ขอมลเชงคณภาพ (qualitative data) เปนขอมลทแสดงลกษณะทแตกต�งกน แตไมไดอยใน

รปของตวเลข ไมส�ม�รถบอกไดว�มค�ม�กหรอนอย แตส�ม�รถบอกไดว�ดหรอไมด บอกลกษณะคว�มเปนกลม

ของขอมล เชน เพศ แบงเปน เพศช�ย และเพศหญง ก�รเจบปวย แบงเปน ปวย และไมปวย ก�รตดเชอ แบงเปน

ตดเชอ และไมตดเชอ เปนตน

4.3.2 แบงตามระดบของขอมล ไดดงน

1. มาตรานามบญญต (nominal scales) เปนก�รวดทมระดบตำ�สด วดโดยใชตวเลขหรอสญลกษณ

อนๆ บอกถงก�รจำ�แนกหรอแบงกลม สงของ บคคล หรอคณลกษณะต�งๆ ก�รวดแบบนเปนก�รวดเพอใหเหน

คว�มแตกต�งเท�นน แตนำ�ม�เปรยบเทยบคว�มม�กนอยไมได เชน เพศ ก�รเจบปวย สถ�นภ�พสมรส อ�ชพ

เลขทโรงพย�บ�ล หม�ยเลขโทรศพท และบ�นเลขท เปนตน

2. มาตราเรยงลำาดบ (ordinal scales) เปนก�รวดทบอกคว�มแตกต�งระหว�งกลมหรอประเภทได

เมอนำ�ม�เปรยบเทยบกน ส�ม�รถบอกคว�มม�กนอยกว�กนได แตไมส�ม�รถบอกไดว�มปรม�ณแตกต�งกน

อยเท�ใด เชน ระดบก�รศกษ� (ประถม มธยม ประก�ศนยบตร ปรญญ�ตร ปรญญ�โท ปรญญ�เอก) คว�มรนแรง

ของโรค (ม�ก ป�นกล�ง ตำ�) คว�มเกง คว�มสวย คว�มชอบ (ม�ก ป�นกล�ง นอย) และคว�มพงพอใจ (ม�กทสด

ม�ก ป�นกล�ง นอย นอยทสด) เปนตน

3. มาตราอนตรภาค (interval scales) ก�รวดในระดบนจะบอกระยะห�งหรอคว�มแตกต�งระหว�ง

สงทวดได ว�ม�กหรอนอยกว�กนเท�ใด แตไมมค�ศนยแททเกดขนจ�กก�รวดได เชน อณหภม และคะแนน เปนตน

กล�วคอ คนทไดคะแนนศนยคะแนน ไมไดหม�ยคว�มว� ไมมคว�มร

4. มาตราอตราสวน (ratio scales) เปนก�รวดทมคว�มละเอยดและมคว�มสมบรณม�กทสด

ส�ม�รถบอกระยะห�งหรอคว�มแตกต�งระหว�งสงทวดได ว�ม�กหรอนอยกว�กนเท�ใด และมค�ศนยแท

(absolute zero) ทเกดขนจ�กก�รวดได เชน ร�ยได อ�ย นำ�หนก สวนสง ชพจร ก�รห�ยใจ คว�มดนโลหต

ระดบนำ�ต�ลในเลอด และระดบไขมนในเลอด เปนตน

4.3.3 ขอมล แบงตามแหลงทมาของขอมล ไดดงน

1. ขอมลปฐมภม (primary data) หม�ยถง ขอมลทไดจ�กก�รเกบรวบรวมโดยตรงจ�กผรบบรก�ร

ดวยวธก�รต�งๆ เชน ก�รสมภ�ษณ ก�รสงเกต ก�รตรวจร�งก�ย ก�รทดลอง ก�รตอบแบบสอบถ�ม และก�ร

Page 48: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 4 การเลอกใชสถต 41

ประเมนดวยเครองมอ หรอแบบวดชนดต�งๆ ขอมลชนดนส�ม�รถควบคมคณภ�พของขอมลไดง�ยกว�และม

คว�มเปนปจจบนม�กกว�

2. ขอมลทตยภม (secondary data) หม�ยถง ขอมลทผเกบขอมลรวบรวมจ�กผอนหรอแหลงอน

ทมผรวบรวมไวแลว ไมไดเกบขอมลจ�กผรบบรก�รโดยตรง เชน ร�ยง�นผปวย บนทกก�รรกษ�พย�บ�ล และ

ร�ยง�นผลก�รตรวจต�งๆ ของผปวย เชน ผลตรวจเลอด ปสส�วะ อจจ�ระ เสมหะ ผลก�รตรวจท�งรงส เชน

ก�ร X-ray ก�รตรวจมวลกระดก ก�รตรวจดวยคอมพวเตอร และก�รตรวจดวยคลนแมเหลกไฟฟ� เปนตน

4.4 การตรวจสอบคณภาพขอมลและการจดการขอมล

ก�รตรวจสอบคณภ�พขอมล (data validation) และก�รจดก�รขอมล (data management) เปนสงท

มคว�มสำ�คญอย�งยง ตองดำ�เนนก�รอย�งละเอยดรอบคอบกอนนำ�ขอมลไปวเคร�ะห เพร�ะถ�ไมมก�รตรวจสอบ

คณภ�พของขอมลและก�รจดก�รขอมลทไมมประสทธภ�พ จะเปรยบเสมอน “ก�รนำ�ขยะเข�ไปทำ�ก�รวเคร�ะห

สงทไดออกม�คอขยะ (garbage in garbage out)” ดงนน ผวเคร�ะหขอมลตองพงระลกไวเสมอว� กอนวเคร�ะห

ขอมลตองทำ�ก�รตรวจสอบคณภ�พขอมลและจดก�รขอมลใหดกอน

ก�รตรวจสอบคณภ�พขอมล หลงจ�กรวบรวมขอมลแลว ตองมก�รตรวจสอบคว�มถกตองของขอมล กอน

นำ�ชดขอมลไปวเคร�ะห และประมวลผล เพอนำ�ไปใชในก�รอ�งองหรอแปลผลไดอย�งถกตอง ก�รตรวจสอบคว�ม

ถกตองของขอมลทำ�ไดหล�ยวธ เชน ใหผปวย ครอบครว หรอผดแลผปวย เปนผตรวจสอบขอมลว�สงทบนทกกบ

ขอมลทตอบแบบสอบถ�มหรอสมภ�ษณถกตองหรอไม หรอเปรยบเทยบขอมลทไดจ�กก�รสมภ�ษณกบก�รตรวจ

ร�งก�ย ก�รสงเกต หรอกบร�ยง�นบนทก เปนตน สำ�หรบกรณทลงบนทกขอมลไวในระบบฐ�นขอมลเรยบรอย

แลว ส�ม�รถทำ�ก�รตรวจสอบไดโดยใชคำ�สงในโปรแกรมคอมพวเตอร ซงจะกล�วถงร�ยละเอยดในบทตอไป

กรณทตรวจสอบพบว�ขอมลไมถกตองหรอมคว�มผดพล�ดในก�รบนทกขอมล ตองมก�รทำ�คว�มสะอ�ด

ขอมล (data cleaning) กอนก�รวเคร�ะหทกครง

4.5 ประเภทของสถต

สถต แบงออกเปน 2 ประเภท ไดแก

1. สถตเชงพรรณนา (descriptive statistics) เปนวธก�รท�งสถตทใชพรรณน�ลกษณะของขอมล

กลมตวอย�งททำ�ก�รศกษ� โดยผลก�รศกษ�ใชอธบ�ยเฉพ�ะกลมทศกษ�เท�นน ไมส�ม�รถนำ�ไปอ�งองกลมอนๆ

ทไมไดทำ�ก�รศกษ�

สถตเชงพรรณน� เชน คว�มถ (frequency) รอยละ (percentage) อตร� (rate) อตร�สวน (ratio) สดสวน

(proportion) ค�เฉลย (mean) สวนเบยงเบนม�ตรฐ�น (standard deviation) ค�มธยฐ�น (median) ค�พสย

(range) และค�ฐ�นนยม (mode) เปนตน

2. สถตอางอง (inferential statistics) หรอ เรยกอกอย�งหนงว� สถตเชงอนม�น เปนสถตทมงศกษ�

และอธบ�ยลกษณะต�งๆ ของกลมประช�กรเป�หม�ย โดยก�รเกบรวบรวมขอมลจ�กกลมยอยทเรยกว�

กลมตวอย�ง (sample) ซงเปนสวนหนงของกลมประช�กร แลวทำ�ก�รวเคร�ะหขอมลจ�กกลมตวอย�ง หลงจ�ก

นนนำ�ผลก�รศกษ�ไปสรปอ�งองถงกลมใหญทเรยกว� กลมประช�กร (population) ซงเปนกลมเป�หม�ย

ทตองก�รศกษ� ดงนน ค�ทไดจะเปนค�ประม�ณก�ร (estimate) จ�กกลมตวอย�ง เพออธบ�ยลกษณะประช�กร

จงอ�จมคว�มผดพล�ดเกดขนได เชน คว�มผดพล�ดจ�กก�รสมตวอย�ง (sampling error) คว�มแปรปรวนของ

Page 49: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

42 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ค�ประม�ณก�ร (standard error) ถ�คว�มแปรปรวนสง แสดงว�ก�รประม�ณก�รไมเทยง ก�รลดคว�มแปรปรวน

ทำ�ไดโดยก�รเพมขน�ดของกลมตวอย�ง ในท�งระบ�ดวทย�คว�มผดพล�ดแบงเปน 3 ประเภทคอ คว�มผดพล�ด

ในก�รเลอกกลมตวอย�ง (selection bias) คว�มผดพล�ดจ�กก�รเกบรวบรวมขอมล (information bias) และ

คว�มผดพล�ดจ�กตวแปรรบกวน (confounding) เพอใหก�รอ�งองไปถงกลมประช�กรมคว�มถกตองม�กทสด

ตองพย�ย�มควบคมคว�มผดพล�ดต�งๆ ทอ�จเกดขนใหไดม�กทสด ซงสถตอ�งองทใชในก�รวเคร�ะหขอมล

แสดงดงภ�พท 4.1 และ 4.2 และต�ร�งท 4.1

สถตอ�งองทใชทดสอบสมมตฐ�น เมอใดทผวจยตองก�รทดสอบสมตฐ�นเพอนำ�ค�สถตทไดจ�กกลม

ตวอย�งไปอ�งองถงค�ของประช�กร (parameter) จะใชสถตทเรยกว� สถตพ�ร�เมทรกซ (parametric statistic)

อย�งไรกต�ม ห�กจะใชสถตแบบพ�ร�เมทรกซได ขอมลจะตองเปนไปต�มขอตกลงเสยกอน ซงเมอใดทพบว�

ขอมลไมเปนไปต�มขอตกลง กจะไมส�ม�รถใชสถตแบบพ�ร�เมทรกซได ดงนน ก�รทดสอบสมมตฐ�นแบบนอน

พ�ร�เมทรกซจงเปนวธทแกปญห�ดงกล�ว โดยสถตนอนพ�ร�เมทรกซส�ม�รถใชไดทงขอมลทมก�รแจกแจงแบบ

ปกตหรอไมปกตกได และใชไดกบขอมลทอยในม�ตรวดตงแตน�มบญญต (Norminal) ขนไป แตอำ�น�จในก�ร

วเคร�ะหและแปลผลจะลดลง ซงโดยทวไปแลวถ�ขอมลเปนไปต�มขอตกลงของสถตพ�ร�เมทรกซแลว ควรใช

สถตพ�ร�เมทรกซม�กกว�สถตนอนพ�ร�เมทรกซ

Page 50: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 4 การเลอกใชสถต 43

ภาพท 4.1 ชนดของขอมลและสถตเบองตนทใชในก�รวเคร�ะหขอมล

Page 51: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

44 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ภาพท 4.2 สถตอ�งองทใชในก�รวเคร�ะหสดสวน

Page 52: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 4 การเลอกใชสถต 45

ตารางท 4.1 เปรยบเทยบก�รทดสอบแบบพ�ร�เมทรกซและแบบนอนพ�ร�เมทรกซ

จดประสงคของการทดสอบ

การแจกแจงของขอมล

ขอมลเปนเสนโคงปกต (normal distribution)

ขอมลไมเปนเสนโคงปกต(non-normal distribution)

การทดสอบโดยใชสถตพาราเมทรกซ

(parametric statistics)

การทดสอบโดยใชสถตนอนพาราเมทรกซ

(nonparametric statistics)

1. ทดสอบค�เฉลยของประช�กร 1 กลม(one sample)

One sample Z-test or one-sample t-test

Runs test

2. ทดสอบค�เฉลยของประช�กร 2 กลมเมอกลมตวอย�งเปนอสระตอกน (independent samples)

Independent samplet-test

Mann–Whitney U test (Wilcoxon rank-sum test)

3. ทดสอบค�เฉลยของประช�กร 2 กลมเมอกลมตวอย�งไมเปนอสระตอกน (non-independent samples)

Paired t-test Wilcoxon Signed rank test

4. ทดสอบค�เฉลยของประช�กรม�กกว� 2 กลม (k กลม) เมอกลมตวอย�งเปนอสระตอกน (independent samples)

One-way ANOVA Kruskal-Wallis test

5. ทดสอบค�เฉลยของประช�กรม�กกว� 2 กลม (k กลม) เมอกลมต ว อ ย � ง ไ ม เ ป นอ ส ร ะต อก น (non-independent samples)

Repeated measures ANOVA

Friedman test

6. ก�รทดสอบคว�มสมพนธ (correlation coefficient)

Pearson productmomentPartial correlationEta (norminal-interval)

Spearman rankChi-square test for independentCram’er & PhiContingencyLambda *Gamma *Somer’ d *Kendall rank, Kendall partial rank *Kendall coefficient of concordance *

*สถตทใชนอยท�งด�นก�รแพทย

Page 53: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

46 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

4.6 การวเคราะหขอมลทางระบาดวทยาพนฐาน

1. ความถ (frequency) เปนวธก�รทง�ยทสดในก�รวดปรม�ณ หม�ยถง จำ�นวนของเหตก�รณ ทเกด

ขนจรง ในกลมประช�กรทศกษ� หรอมลกษณะบ�งสงบ�งอย�งรวมกน ณ พนททกำ�หนดและในระยะเวล�ทศกษ�

2. อตรา (rate) เปนก�รวดโอก�สทเปนไปไดของก�รเกด เปนก�รเปรยบเทยบจำ�นวนคว�มถของ

ก�รเกดโรคหรอเหตก�รณทสนใจหรอลกษณะบ�งอย�งในกลมประช�กรทศกษ�ในชวงเวล�ทกำ�หนด เปนก�รวด

ก�รเกดโรคขนพนฐ�น ประกอบดวย

อตร� =

เมอ k คอ ค�คงท ซงมค�เท�กบ 100 หรอ 1,000 หรอ 100,000 แลวแตคว�มเหม�ะสม (10n)

ตวอย�ง อตร�ผปวยเบ�หว�นร�ยใหม =

3. อตราสวน (ratio) เปนค�เปรยบเทยบระหว�งตวเลข 2 จำ�นวน หรอ เหตก�รณ 2 เหตก�รณ โดยท

เลขเศษไมไดเปนสวนหนงของเลขตวสวน

ตวอย�ง โรงพย�บ�ลแหงหนงมผปวยทงสน 7,530 คน เปนเพศช�ย 4,110 คน เพศหญง 3,420 คน

อตร�สวนของผปวยเพศช�ยตอเพศหญง = 4,110

3,420

= 1.20

นนคอ อตร�สวนของมผปวยเพศช�ยตอผปวยเพศหญง 1 คน คอ 1.20 คน

4. สดสวน (proportion) เปนคว�มสมพนธของจำ�นวนยอยกบจำ�นวนรวมทงหมด หรอเปนก�รวดก�ร

กระจ�ยของเหตก�รณยอยจ�กเหตก�รณทงหมด โดยใหถอว�จำ�นวนรวมทงหมดเปน 1 สวน (ถ�คณดวย 100

หนวยจะเปนรอยละหรอเปอรเซนต)

ตวอย�ง ในก�รสำ�รวจประช�กรในหมบ�นแหงหนง มประช�กรทงสน จำ�นวน 800 คน เปนหญง 300 คน

และเปนช�ย 500 คน

สดสวนของผหญงในหมบ�นนคอ = 300

800

สดสวนของผช�ยในหมบ�นนคอ = 500

800

5. อตรารอยละหรอเปอรเซนต (percentage) เปนก�รวดรอยละของก�รกระจ�ยของเหตก�รณยอย

จ�กเหตก�รณทงหมด ใหถอจำ�นวนรวมทงหมดเปน 100 สวน

ตวอย�ง โรงพย�บ�ลแหงหนง มผปวย จำ�นวน 750 ร�ย จำ�แนกต�มโรคทเปน ดงน เบ�หว�น 180 ร�ย

คว�มดนโลหตสง 154 ร�ย ระบบประส�ท 145 ร�ย ระบบท�งเดนอ�ห�ร 112 ร�ย ทเหลอเปนโรคอนๆ 159

ร�ย คำ�นวณรอยละหรอเปอรเซนต ไดดงน

จำ�นวนผปวยเบ�หว�นร�ยใหม x 100,000

จำ�นวนประช�กรกลมเสยง

จำ�นวนผปวยหรอจำ�นวนเหตก�รณทเกดขนในชวงเวล�ทกำ�หนด x k

จำ�นวนผทเสยงตอเหตก�รณดงกล�วในชวงเวล�ทกำ�หนด

= 0.37

= 0.63

Page 54: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 4 การเลอกใชสถต 47

โรค คำานวณรอยละ

โรคเบ�หว�น180

750

โรคคว�มดนโลหตสง154

750

ระบบประส�ท145

750

ระบบท�งเดนอ�ห�ร112

750

โรคอนๆ159

750

รวม 100.0

6. อตร�คว�มชก (prevalence rate) จำ�นวนก�รเกดโรคหรอจำ�นวนคนทเปนโรคในชวงระยะเวล�หนง

ห�รดวยประช�กรเสยงในชวงระยะเวล�นนๆ

อตร�คว�มชก (prevalence rate) =

ตวอย�ง ในก�รสำ�รวจทเมอง Framingham รฐ Massachusetts ผวจยไดตรวจส�ยต�ทมอ�ยระหว�ง

52 ถง 85 ป พบว�มคนเปน cataracts 310 คน จ�กทตรวจ 2,477 คน ดงนน คว�มชกของของคนเปนโรค

ส�ม�รถคำ�นวณได ดงน

อตร�คว�มชก = 310x100

2477

= 12.5

7. อตร�อบตก�รณ (incidence density) เปนตวชวยบอกคว�มรวดเรวในก�รเกดโรคของผปวยร�ยใหม

ในประช�กรทศกษ� จำ�นวนผปวยใหมทเกดขน เทยบกบผลรวมของระยะเวล�ทไมปวย คำ�นวณเปน person-time

อตร�อบตก�รณ =

จำ�นวนผปวยเก� + ใหมทเกดขนในชวงระยะเวล�ทศกษ� x k

จำ�นวนประช�กรทเสยงตอก�รเกดโรค

จำ�นวนผปวยใหมทเกดขนในชวงระยะเวล�ทศกษ�หรอจำ�นวนครงทปวยใหม x k

ผลรวมของระยะเวล�ของแตละบคคลทเสยงตอก�รเกดโรค

x 100 = 24.00

x 100 = 20.53

x 100 = 19.33

x 100 = 14.94

x 100 = 21.20

Page 55: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

48 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ตวอย�ง ชวงเวล� 7 ป ทตดต�มผปวยของโรงพย�บ�ลแหงหนง

แปลผล : เวล�ทตดต�ม = 7 + 3 + 0 + 6 + 1 + 0 + 3 = 20 คน-ป

เมอตดต�มกลมเสยงไป 20 คน/ป จะพบผปวย 2 ร�ย คอ คนท 4 และ คนท 7

คำ�ถ�มคอ จะพบผปวย 1 ร�ย จะใชเวล�น�นเท�ไหร นนคอ

= 1/Incidence rate คอ 1 x 20 /2 = 10 ป

8. อตร�ปวยเฉยบพลน (attack rate) เปนอตร�อบตก�รณ (Incidence rate) ซงมกใชกบโรคตดเชอ

เฉยบพลน หรอกรณมก�รระบ�ดของโรค โดยปกตนยมใชหนวยเปนรอยละ

อตร�ปวยเฉยบพลน =

9. อตร�ต�ย (mortality rate) เปนจำ�นวนคนต�ยในชวงระยะเวล�ทศกษ� เทยบกบจำ�นวนประช�กร

เมอเรมตนศกษ�

อตร�ต�ย =

10. อตร�ต�ยอย�งหย�บ (crude death rate) เปนจำ�นวนคนต�ยทงหมดดวยทกส�เหตในชวงระยะเวล�

ทศกษ� เทยบกบจำ�นวนประช�กรทงหมดในชวงเวล�เดยวกนหรอประช�กรกล�งป

อตร�ต�ยอย�งหย�บ =

11. อตร�ต�ยเฉพ�ะ (specific death rate) เปนจำ�นวนคนต�ยเฉพ�ะอย�ง เชน เพศ อ�ย และส�เหต

ในชวงระยะเวล�ทศกษ� เทยบกบจำ�นวนประช�กรทงหมดในชวงเวล�เดยวกนหรอประช�กรกล�งป

อตร�ต�ยเฉพ�ะ =

จำ�นวนผปวยใหมทเกดขนในชวงระยะเวล�ทศกษ� x 100

จำ�นวนประช�กรทเสยง ณ จดเรมตนของก�รศกษ�

จำ�นวนคนต�ยในชวงระยะเวล�ทศกษ� x k

จำ�นวนประช�กรเมอเรมตนศกษ�

จำ�นวนคนต�ยทงหมดดวยทกส�เหตในชวงระยะเวล�ทศกษ� x k

จำ�นวนประช�กรทงหมดในชวงเวล�เดยวกนหรอประช�กรกล�งป

จำ�นวนคนต�ยเฉพ�ะอย�ง (เพศ อ�ย และส�เหต) ในชวงระยะเวล�ทศกษ� x k

จำ�นวนประช�กรทงหมดในชวงเวล�เดยวกนหรอประช�กรกล�งป

Page 56: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 4 การเลอกใชสถต 49

12. อตร�ปวยต�ย (case-fatality rate) เปนจำ�นวนผปวยต�ยจ�กโรคใดโรคหนงในชวงระยะเวล�หนง

เทยบกบจำ�นวนผปวยทถกวนจฉยว�เปนโรคนนในระยะเวล�เดยวกน

อตร�ปวยต�ย =

ก�รวเคร�ะหขอมลท�งระบ�ดวทย�พนฐ�น มประโยชนหล�ยประก�ร ตวอย�งเชน

1. อตร�คว�มชก ใชบอกขน�ดของปญห�ท�งส�ธ�รณสขทมอยในขณะนนหรอชวงเวล�นน ส�ม�รถใช

เปนแนวท�งในก�รว�งแผนและก�รใหบรก�รท�งส�ธ�รณสขแกประช�ชน มประโยชนอย�งม�กสำ�หรบโรค

เรอรง

2. อตร�อบตก�รณและอตร�ปวยเฉยบพลน ทำ�ใหทร�บโอก�สหรอคว�มเสยงของก�รเกดโรค ทร�บ

คว�มรนแรงของก�รระบ�ด ใชเปนขอมลสำ�หรบก�รศกษ�ห�ส�เหตและปจจยเสยงของโรค เปนเครองบงชถง

คว�มเรงดวนในก�รแกไขปญห�และก�รควบคมโรค นอกจ�กนยงส�ม�รถใชในก�รประเมนผลก�รดำ�เนนง�นก�ร

ปองกนและควบคมโรคไดอกดวย

3. อตร�ต�ย ใชบอกสภ�วะอน�มยของประช�ชนในพนท ก�รไดรบบรก�รท�งก�รแพทย ประสทธภ�พ

ก�รรกษ�พย�บ�ล และประสทธภ�พก�รปองกนและควบคมโรค

สรป ก�รทบคล�กรส�ธ�รณสขมคว�มรคว�มเข�ใจทถกตองเกยวกบประเภทของขอมล สถตทใชในก�ร

วเคร�ะหขอมล ก�รวเคร�ะหขอมลท�งระบ�ดวทย�เบองตน และก�รแปลผลขอมลท�งระบ�ดวทย� จะชวยให

บคล�กรส�ธ�รณสขนำ�เสนอขอมลทมคว�มถกตองและน�เชอถอไปยงผเกยวของ ซงขอมลดงกล�วส�ม�รถนำ�ไป

ใชในก�รปองกนและควบคมโรคไมตดตอ รวมถงนำ�ไปใชในก�รพฒน�ง�นด�นโรคไมตดตอในอน�คต

จำ�นวนผปวยต�ยจ�กโรคใดโรคหนงในชวงระยะเวล�หนง x k

จำ�นวนผปวยทถกวนจฉยว�เปนโรคนนในระยะเวล�เดยวกน

Page 57: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

50 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

4.7 บรรณานกรม

1. นงเย�ว เกษตรภบ�ล. (2553). ก�รนำ�เสนอและก�รแปลผลขอมลท�งระบ�ดวทย�ก�รตดเชอ.

ในกลยทธสก�รพฒน�ก�รปองกนและควบคมก�รตดเชอ. เชยงใหม: มงเมอง.

2. บณฑต ถนคำ�รพ. (2543). คมอปฏบตก�รชวสถต: สำ�หรบศกษ�ชวสถตดวยตนเอง. ขอนแกน.

โรงพมพคลงน�น�วทย�.

3. บญธรรม กอปรด�บรสทธ. (2549). สถตวเคร�ะหเพอก�รวจย (พมพครงท 4). กรงเทพฯ: จ�มจร

โปรดกท.

4. บญพชช� จตตภกด, พชร�ภรณ อ�รย, และประทม สรอยวงค. (2561). เอกส�รประกอบก�รสอน

กระบวนวช� 562708: สถตสำ�หรบง�นวจยท�งก�รพย�บ�ล. เชยงใหม: คณะพย�บ�ลศ�สตร

มห�วทย�ลยเชยงใหม.

5. วส�ข เกษประทม. (2544). คว�มน�จะเปน และสถตเบองตน. กรงเทพฯ: สำ�นกพมพพฒน�ศกษ�.

6. ศรชย พงษวชย. (2547). ก�รวเคร�ะหขอมลท�งสถตดวยคอมพวเตอร (พมพครงท 14). กรงเทพฯ :

สำ�นกพมพแหงจฬ�ลงกรณมห�วทย�ลย.

7. สลม แจมอลตรตน. (2540). ระบ�ดวทย�พนฐ�น. สงขล�: โซนพรนท.

8. Polit, D. F. (2010). Data analysis & statistics for nursing research (2nd Ed.). Connecticut:

Appleton & Lange.

Page 58: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 5 การน�าเขาและการจดการขอมลโดยใชโปรแกรม R 51

บทท 5 การนำาเขาและการจดการขอมลโดยใชโปรแกรม R

Page 59: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

52 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

การนำาเขาและการจดการขอมลโดยใชโปรแกรม Rผศ.สพญ.ดร.กรรณการ ณ ลำาปางE-mail: [email protected]

5 บทท

5.1 คำาสงพนฐานกอนการนำาเขาขอมลเขาสโปรแกรม R

คำ�สง rm()

เปนคำ�สงสำ�หรบก�รลบชดขอมลทไมตองก�รใชออกจ�ก R console เชน กอนก�รเรมตนวเคร�ะหขอมล

โดยใชชดขอมลชดใหม ก�รใชคำ�สง rm(list=ls()) เปนก�รลบชดขอมลทอ�จจะมค�งอยใน R console จ�กก�ร

ทำ�ง�นกอนหน�ออกไปทงหมด เพอไมใหเกดคว�มสบสนของก�รเรยกใชชดขอมล ยกตวอย�ง เชน ก�รสร�ง

ชดขอมลขนม�ใหม คอ ps1 และ ps2 จ�กชดขอมลเรมตน คอ ps เมอสร�งชดขอมลเพมขนแลว และตองก�ร

ลบชดขอมลเดมคอ ps ดวยก�รใชคำ�สง rm(ps) ชดขอมลทเหลอคอ ps1 และ ps2 และใชสำ�หรบก�รวเคร�ะห

ขอมลตอไป

คำ�สง getwd()

ใชสำ�หรบตรวจสอบพนททำ�ง�น (working directory) ทกำ�ลงทำ�ง�นในขณะนน

คำ�สง setwd()

ใชสำ�หรบระบ working directory ทตองก�รใชในก�รทำ�ง�นในแตละครง เชน setwd (“E:/ncd”)

เปนก�รระบก�รทำ�ง�น ท drive: E ใน folder ทชอว� ncd

คำ�สง dir()

ใชสำ�หรบก�รตรวจสอบขอมลใน working directory ทระบไวแลว

คำ�สง library()

Page 60: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 5 การน�าเขาและการจดการขอมลโดยใชโปรแกรม R 53

ใชสำ�หรบก�รเรยกใชแพคเกจ (package) ในก�รวเคร�ะหขอมลทเฉพ�ะ นอกเหนอไปจ�กคำ�สงทมอย

แลวในแพคเกจพนฐ�น ทงนตองมก�รดำ�เนนก�รตดตงแพคเกจ (install) ทจะใชกอนเสมอ (อ�นวธก�รตดตง

แพคเกจไดในบทกอนหน�)

คำ�สง Sys.setlocale()

เปนก�รกำ�หนดใหโปรแกรม R ส�ม�รถอ�นค�ขอมลทเปนภ�ษ�อนๆ ได ตวอกษรภ�ษ�ไทยได ห�กชด

ขอมลทจะใชมตวอกษรภ�ษ�ไทย

ตวอย�งก�รแสดงผลจ�กคำ�สงเบองตนกอนเรมนำ�เข�ขอมล

rm(list=ls()) getwd() [1] “E:/ncdlowernorth” setwd(“E:/ncdlowernorth”) dir() [1] “2.Advance” “chronic.txt” [3] “chronicfu.txt” “diagnosis_ipd.txt” [5] “diagnosis_opd.txt” “explore data -lwnorth.R” [7] “explore data sample.R” “explore_data_sample.R” [9] “explore_data_sample.spin.R” “explore_data_sample.spin.Rmd” [11] “handout” “labfu.txt”

library(epiDisplay) Loading required package: foreign Loading required package: survival Loading required package: MASS Loading required package: nnet library(data.table) Sys.setlocale(locale=”Thai”) [1] “LC_COLLATE=Thai_Thailand.874;LC_CTYPE=Thai_Thailand.874;LC_MONE TARY=Thai_Thailand.874;LC_NUMERIC=C;LC_TIME=Thai_Thailand.874”

rm(list=ls()) คำ�สงนจะไมมก�รแสดงผลใดๆ

getwd () คอ โปรแกรมไดระบ working directory ททำ�ง�นอยในขณะนคอ drive: E ใน folder มชอว�

ncdlowernorth

setwd (“E:/ncdlowernorth”) เปนก�รระบใหทำ�ง�นใน drive: E ใน folder ทชอว� ncdlowernorth

dir() คอก�รแสดงไฟลทงหมดทมอยใน working directory ทไดระบไว ซงมจำ�นวนไฟลทงหมด 12 ไฟล

library(epiDisplay) คอเรยกใช package epiDisplay ก�รทโปรแกรม R เรยกใช package น จะม

package ททำ�ง�นรวมกนโหลดม�ดวยคอ foreign, survival, MASS และ nnet

libraty(data.table) จะไมเกดผลลพธทแสดงใหเหน เนองจ�กแพคเกจ data.table ไมไดเรยกแพคเกจ

อนม�ทำ�ง�นรวมดวย

Page 61: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

54 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

Sys.setlocale (locale= “Thai”) เปนก�รกำ�หนดใหโปรแกรม R ส�ม�รถอ�นค�ขอมลทเปนภ�ษ�ไทย

ได ห�กชดขอมลทจะใชมตวอกษรภ�ษ�ไทย

หม�ยเหต

epiDisplay เปนแพคเกจทผเขยนสร�งขนม�สำ�หรบก�รทำ�ง�นในท�งระบ�ดวทย� สวน data.table เปน

แพคเกจทชวยทำ�ใหก�รนำ�เข�ขอมลทมขน�ดใหญทำ�ไดรวดเรวม�กขน ส�ม�รถอ�นเพมเตมไดโดยเลอก epiDisplay

หรอ data.table ในหน�ต�ง package

5.2 การนำาขอมลเขาสโปรแกรม R

ก�รนำ�ขอมลเข�สโปรแกรม R สำ�หรบก�รวเคร�ะหขอมล ตองทร�บกอนว�ชดขอมลทจะนำ�เข�เปนไฟล

ลกษณะใด เชน เปนไฟลทบนทกแบบขอคว�ม (text) ซงจะมน�มสกลเปน .txt หรอ ไฟลทบนทกในรปแบบ

ขอคว�มและคนแตละคอลมนดวยเครองหม�ยจลภ�ค (,) โดยมน�มสกลเปน .csv นอกจ�กน ควรตองทร�บขน�ด

ของไฟลขอมลดวย คำ�สงโดยทวไปในก�รอ�นไฟล คอ read.table() หรอ read.csv() (สำ�หรบก�รอ�นขอมลชนด

อนหรอวธอน ไมไดระบในบทคว�มน)

คำ�สง read.table() และ read.csv()

read.table() ใชสำ�หรบอ�นไฟลขอมลทจดเกบในรปแบบ .txt

read.csv() ใชสำ�หรบอ�นไฟลขอมลทจดเกบในรปแบบ .csv ตวอย�งรปแบบคำ�สง

ps <- read.table(“psncd.txt”,head=T, sep=”\t”)

ps <- read.csv(“psncd.csv”,head=T)

head = T เปนคำ�สงเพมเตมทระบว�ชดขอมลนนมแถวแรกเปนชอตวแปร ถ�ไมระบไวโปรแกรมจะอ�น

แถวแรกเปนขอมลแถวท 1

จ�กตวอย�งคำ�สง เปนก�รนำ�ไฟลทชอว� psncd ซงมน�มสกลเปน .txt หรอ .csv แลวแตกรณ เข�ส

โปรแกรม R เมอนำ�ไฟลเข�ม�แลวใหเกบขอมลไวในชอ ps (หรออ�จจะเปนชออนใดกได แตในทนระบเปน ps)

นอกจ�กน คำ�สง sep=”\t” เปนก�รระบว�ชดขอมล psncd.txt มก�รคนแตละคอลมนดวย tab แตห�กชดขอมล

ใดคนดวยเครองหม�ยจลภ�ค ( , ) กตองระบเปน sep=” , “ โดยทไฟล psncd มแถวแรกเปนชอตวแปร

คำ�สง fread()

เปนคำ�สงทอยในแพคเกจ data.table ใชสำ�หรบก�รอ�นไฟลเหมอนคำ�สง read() แตส�ม�รถอ�นไฟล

ไดรวดเรวกว� จงเหม�ะสมกบก�รใชเมอชดขอมลทจะนำ�ม�วเคร�ะหขอมลมขน�ดใหญ (ไฟลมขน�ด 1 MB)

ps<-fread(“psncd.txt”,verbose=T,sep=”\t “, nrows=20000)

โดยท

verbose=T เปนก�รบอกให R แสดงผลร�ยละเอยดทอ�นจ�กแฟมขอมล

nrows=20000 เปนก�รระบจำ�นวนแถวทตองก�ร ในครงนใช 20000 แถว

ในกรณทมค�ของขอมลบ�งตวข�ดห�ยไป ตองเพม fill=T ในคำ�สงดวย จงจะส�ม�รถนำ�เข�ขอมลได

Page 62: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 5 การน�าเขาและการจดการขอมลโดยใชโปรแกรม R 55

5.3 การตรวจสอบขอมล

คำ�สง head() และ tail()

head() เปนคำ�สงสำ�หรบแสดงขอมล 6 แถวแรกของชดขอมลทระบชอในวงเลบ

tail() เปนคำ�สงทสำ�หรบแสดงขอมล 6 แถวสดท�ยของชดขอมลระบชอในวงเลบ

คำ�สง names()

names() เปนคำ�สงทสำ�หรบแสดงชอตวแปรของชดขอมลทระบชอในวงเลบ และใชเพอก�รเปลยนชอ

ตวแปร

คำ�สง str() และ des()

str() เปนคำ�สงเพอใหแสดงร�ยละเอยดของชดขอมลทระบชอในวงเลบ โดยระบจำ�นวนขอมล จำ�นวน

ตวแปร และแสดงร�ยละเอยดของตวแปรทกตว ประกอบดวยชอตวแปร ชนดของตวแปร และแสดงค�ของตวแปร

ประม�ณ 10 แถวแรก

des() เปนคำ�สงใน package epiDisplay เพอแสดงร�ยละเอยดของชดขอมลทระบชอในวงเลบ โดยระบ

จำ�นวนขอมล ลำ�ดบของตวแปร ชอตวแปร ชนดของตวแปร และคำ�อธบ�ยของแตละตวแปร ก�รแสดงผลทไดจ�ก

ก�รทำ�ง�นดวยชดคำ�สงก�รนำ�เข�ขอมล ก�รตรวจสอบขอมล

หนงสอเลมนใชขอมลจ�กฐ�นขอมลสขภ�พ 43 แฟม โดยใช 2 แฟมขอมลหลกคอ แฟม person และ

ncdscreen เนองจ�กเปนชดขอมลทมขน�ดใหญจงทำ�ก�รคดเลอกขอมลบคคลทมอ�ย 35 ปขนไป และทำ�ก�ร

สมโดยวธสมอย�งง�ย (simple random sampling) จำ�นวน 200,000 แถว ในแตละชดขอมล เพอใหไดชดขอมล

ขน�ดเลก ง�ยตอก�รวเคร�ะห โดยแฟม person เปนชนด csv เกบในชอ “person_35_random.csv” สวนชด

ขอมล ncdscreen ทไดจ�กก�รสมจำ�นวน 200,000 แถว ถกเกบในชอ “ncdscreen_35_random.csv” ซงใน

บทนจะแสดงตวอย�งก�รวเคร�ะห ตงแตก�รนำ�เข�ขอมล ก�รตรวจสอบ ก�รจดก�รและก�รรวมชดขอมล (Data

merging) ซงภ�ยหลงก�รรวมชดขอมลไดทำ�ก�รเกบขอมลชดใหมไวในชอ “person.csv” จะใชในบทถดๆ ไป

นอกจ�กน ขอมลชอ “blevel.csv” เปนก�รดงขอมลบ�งตวแปร ทจะใชม�รวมไวดวยกน โดยจะใชขอมลชดน

ในบทท 8 ทงน ทานสามารถดาวนโหลดขอมลทกชดเพอฝกปฏบตและทำาแบบฝกหดทายบท รวมทงไฟล

หนงสอเลมนในรปแบบ pdf ไดท http://medipe2.psu.ac.th/2019/content?id=30

แสดงตวอย�งก�รนำ�เข�ขอมลโดยใชขอมล “person_35_random.csv” ดงน

ps<-read.csv(“person_35_random.csv”,head=T) head(ps) X hospcode cid pid hid prename name 1 2 5811 ea169af4ab68d985805f03baa8a6d994 10007 1798 003 \\N 2 4 5811 73472b017dad8054b11dc4fb91f0d396 10010 2890 003 \\N 3 8 5811 9e22d2eb57c968a3297c10748a76afad 10021 1660 005 \\N 4 10 5811 c048668ac116cf23e729d1ce298c191a 10023 3615 004 \\N 5 18 5811 55f0eb855b2356c68a8e291a8c9e2543 10034 1899 003 \\N 6 26 5811 5b48a5a5fb288194b34a688cb3317fe5 1006 2847 004 \\N

Page 63: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

56 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

lname hn sex birth mstatus occold occnew race nation religion 1 \\N 10007 1 1962-11-29 1 2 9622 99 99 1 2 \\N 10010 1 1928-07-01 1 901 9999 0 0 1 3 \\N 10021 2 1967-08-24 2 901 9999 0 0 1 4 \\N 10023 2 1965-02-05 1 2 9622 99 99 1 5 \\N 10034 1 1979-02-14 1 2 9622 99 99 1 6 \\N 1006 2 1959-05-30 2 2 9622 99 99 1 edu fstatus father mother couple vstatus movein discharge ddischarge 1 4 2 \\N \\N \\N NA 1962-11-29 9 0000-00-00 2 9 2 \\N \\N \\N NA 1928-07-01 9 0000-00-00 3 9 2 \\N \\N \\N NA 1967-08-24 9 0000-00-00 4 3 2 \\N \\N \\N NA 1965-02-05 9 0000-00-00 5 5 2 \\N \\N \\N NA 1979-02-14 9 0000-00-00 6 3 2 \\N \\N \\N NA 1959-05-30 9 0000-00-00 abogroup rhgroup labor passport typearea update 1 NA NA NA NA 1 2014-03-03 01:57:09 2 NA NA 23 NA 1 2010-11-02 13:23:47 3 NA NA 23 NA 1 2010-11-02 13:23:49 4 NA NA NA NA 1 2014-10-24 10:34:15 5 NA NA NA NA 1 2014-04-01 05:00:13 6 NA NA NA NA 1 2013-12-12 08:53:18 names(ps) [1] “X” “hospcode” “cid” “pid” “hid” [6] “prename” “name” “lname” “hn” “sex” [11] “birth” “mstatus” “occold” “occnew” “race” [16] “nation” “religion” “edu” “fstatus” “father” [21] “mother” “couple” “vstatus” “movein” “discharge” [26] “ddischarge” “abogroup” “rhgroup” “labor” “passport” [31] “typearea” “update” names(ps)<-tolower(names(ps)) str(ps) ‘data.frame’: 200000 obs. of 33 variables: $ x : int 2 4 8 10 18 26 30 32 33 38 ... $ hospcode : int 5811 5811 5811 5811 5811 5811 5811 5811 5811 5811 ... $ cid : Factor w/ 188626 levels “00003dadcb3298cee17d21a699dafafa”,..: 172669 84701 116291 141931 63244 67081 58567 67159 132190 185773 ... $ pid : int 10007 10010 10021 10023 10034 1006 10073 10080 10084 1010 ... $ hid : int 1798 2890 1660 3615 1899 2847 2421 2745 757 1990 ... $ prename : Factor w/ 77 levels “--”,”003”,”004”,..: 2 2 4 3 2 3 2 2 4 4 ... $ name : Factor w/ 1 level “\\N”: 1 1 1 1 1 1 1 1 1 1 ... $ lname : Factor w/ 1 level “\\N”: 1 1 1 1 1 1 1 1 1 1 ... $ hn : int 10007 10010 10021 10023 10034 1006 10073 10080 10084 1010 ... $ sex : int 1 1 2 2 1 2 1 1 2 2 ... $ birth : Factor w/ 19309 levels “1916-01-01”,”1916-01-02”,..: 12703 1471

Page 64: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 5 การน�าเขาและการจดการขอมลโดยใชโปรแกรม R 57

14432 13502 18624 11424 11315 14287 10502 15250 ... $ mstatus : int 1 1 2 1 1 2 2 1 2 2 ... $ occold : int 2 901 901 2 2 2 3 901 2 3 ... $ occnew : int 9622 9999 9999 9622 9622 9622 5221 9999 9622 5221 ... $ race : int 99 0 0 99 99 99 99 0 99 99 ... $ nation : int 99 0 0 99 99 99 99 0 99 99 ... $ religion : int 1 1 1 1 1 1 1 1 1 1 ... $ edu : int 4 9 9 3 5 3 3 9 3 3 ... $ fstatus : int 2 2 2 2 2 2 2 2 2 2 ... $ father : Factor w/ 1 level “\\N”: 1 1 1 1 1 1 1 1 1 1 ... $ mother : Factor w/ 1 level “\\N”: 1 1 1 1 1 1 1 1 1 1 ... $ couple : Factor w/ 1 level “\\N”: 1 1 1 1 1 1 1 1 1 1 ... $ vstatus : int NA NA NA NA NA NA NA NA NA NA ... $ movein : Factor w/ 23097 levels “0000-00-00”,”0001-01-01”,..: 11158 1074 12886 11957 17071 9879 9770 12741 8959 13701 ... $ discharge : int 9 9 9 9 9 9 9 9 9 9 ... $ ddischarge: Factor w/ 1586 levels “0000-00-00”,”1708-05-22”,..: 1 1 1 1 1 1 1 1 1 1 ... $ abogroup : int NA NA NA NA NA NA NA NA NA 4 ... $ rhgroup : int NA NA NA NA NA NA NA NA NA NA ... $ labor : int NA 23 23 NA NA NA NA 23 NA NA ... $ passport : logi NA NA NA NA NA NA ... $ typearea : int 1 1 1 1 1 1 1 1 1 1 ... $ update : Factor w/ 115493 levels “1899-12-30 00:00:00”,..: 71119 1595 1597 89013 72966 67343 74106 1595 67522 14066 ...

des (ps) No. of observations = 200000 Variable Class Description 1 x integer 2 hospcode integer 3 cid factor 4 pid integer 5 hid integer 6 prename factor 7 name factor 8 lname factor 9 hn integer 10 sex integer 11 birth factor 12 mstatus integer 13 occold integer 14 occnew integer 15 race integer

Page 65: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

58 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

16 nation integer 17 religion integer 18 edu integer 19 fstatus integer 20 father factor 21 mother factor 22 couple factor 23 vstatus integer 24 movein factor 25 discharge integer 26 ddischarge factor 27 abogroup integer 28 rhgroup integer 29 labor integer 30 passport logical 31 typearea integer

32 update factor

จ�กก�รแสดงผลข�งตน ทนำ�เข�ขอมล “person_35_random.csv” แลวใหชอชดขอมลเปน ps เมอ

ตรวจสอบขอมลเบองตน พบวามจำานวนทงหมด 200,000 แถว มจำานวนตวแปรทงหมด 32 ตวแปร

5.4 การจดการขอมลแฟม person_35_random

ก�รสร�งตวแปรใหมทชอว� hpid จ�กตวแปร hospcode และ pid ดวยคำ�สง paste() และตรวจสอบ

ขอมลทซำ�ดวยคำ�สง duplicated()

คำ�สง paste()

เปนก�รนำ�เอ�ค�สงเกตของตวแปร hospcode และ pid ม�เรยงตอกน เปนค�สงเกตใหม และใหชอ

ตวแปรใหมเปน hpid ทงน ก�รสร�งตวแปรใหม จ�กตวแปร hospcode และ pid เพอตองก�รตรวจสอบก�ร

ซำ�ซอนของบคคลเดยวกนภ�ยในสถ�นพย�บ�ลเดยวกน ก�รระบ sep=”” เปนก�รระบเครองหม�ยทใชคนระหว�ง

ค�สงเกตของตวแปร 2 ตวทนำ�ม�ตอกน โดยในทนไมมก�รระบเครองหม�ยใดๆ คนระหว�ง 2 ตวแปร

ps$hpid<-paste(ps$hoscode,ps$pid,sep=””)

คำ�สง duplicated()

เปนคำ�สงทใชตรวจสอบก�รซำ�กนของค�สงเกตภ�ยใตตวแปรทไดระบไว ดงตวอย�งคำ�สง

dup <- duplicated (ps$hpid)

เปนก�รตรวจสอบก�รซำ�ซอนของค�สงเกตในตวแปร hpid ทอยในขอมล ps เมอตรวจสอบแลวใหเกบ

ผลก�รตรวจสอบคว�มซำ�กนไวในวตถทชอว� dup ก�รดผลก�รวเคร�ะหคว�มซำ�ซอนในครงนใชคำ�สง table(dup)

ซงผลก�รวเคร�ะหแสดงในรปต�ร�งของ FALSE และ TRUE โดยท TRUE แสดงใหเหนว�ค�สงเกตหรอขอมล

ในตวแปรมคว�มซำ�ซอนกน

เนองจ�กขอมลทนำ�ม�ใชวเคร�ะหในครงน เปนแฟมขอมล psncd ในระดบจงหวด จงมก�รตรวจสอบ

คว�มซำ�กนของค�สงเกตในตวแปร cid เมอพบคว�มซำ�ซอนกน จะทำ�ก�รตดค�สงเกตทมคว�มซำ�กนออก และ

Page 66: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 5 การน�าเขาและการจดการขอมลโดยใชโปรแกรม R 59

สร�งชดขอมลใหมในชอว� ps2 ซง ชดขอมล ps2 จะมจำ�นวนขอมลเท�กบจำ�นวนขอมลในแฟมขอมล ps ลบดวย

จำ�นวนขอมลทมคว�มซำ�กน นอกจ�กนผวเคร�ะหขอมลตองก�รวเคร�ะหขอมลเฉพ�ะผปวยทมสญช�ตหรอเชอ

ช�ตไทย จงกำ�หนดใหบคคลทมตวแปร race หรอ nation มค�เท�กบ 99 เท�นน ใหคงอยในชดขอมล ps

ก�รแสดงผลทไดจ�กก�รทำ�ง�นดวยชดคำ�สงก�รนำ�เข�ขอมล ก�รตรวจสอบคว�มซำ�กนของค�สงเกต

ps$hpid<-paste(ps$hoscode,ps$pid,sep=””) head(ps$hpid) [1] “581110007” “581110010” “581110021” “581110023” “581110034” “58111006”# check duplication dup<- duplicated(ps$hpid) table(dup) # check repeated; False = correct dup FALSE TRUE 198890 1110dup1<- duplicated(ps$cid) table(dup1) dup1 FALSE TRUE 188626 11374# delete duplication ps2<-ps[dup1==FALSE,] dup2<- duplicated(ps2$hpid) table(dup2) dup2 FALSE TRUE 188618 8ps3<-ps2[duplicated(ps2$hpid)==FALSE,] dup3<- duplicated(ps3$hpid) table(dup3) # check repeated; False = correct dup3 FALSE 188618# Select only Thai people (code99=thai) str(ps3$race) int [1:188618] 99 0 0 99 99 99 99 0 99 99 ...ps3<-ps3[ps3$race==99|ps3$nation==99,] dup4<- duplicated(ps3$hpid) table(dup4) dup4 FALSE TRUE 171456 125

Page 67: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

60 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

dup5<- duplicated(ps3$cid) table(dup5) dup5 FALSE TRUE 171456 125ps4<-ps3[duplicated(ps3$hpid)==FALSE,] table(duplicated(ps4$cid)) FALSE 171456table(duplicated(ps4$hpid)) FALSE 171456#remove ps, dup, dup1 rm(ps2, ps3, dup, dup1, dup2, dup3, dup4, dup5) ps2<-ps4 rm(ps4)

การตรวจสอบความถกตองและการจดการขอมลของตวแปร sex

เนองจ�กตวแปร sex จะมค�สงเกตไดเปนเพศช�ยและเพศหญงเท�นน จงตองมก�รตรวจสอบห�กพบ

ก�รระบเพศทไมถกตองจะใหค�เปนไมส�ม�รถระบได หรอ NA โดยก�รทำ�ง�นนใชคำ�สง class() tab1() และ

levels()

คำ�สง class()

เปนคำ�สงสำ�หรบตรวจสอบประเภทของตวแปรทระบ เชน class(ps2$sex) เปนก�รตรวจสอบประเภท

ของตวแปร sex ซงพบว�ตวแปร sex เปนตวแปรประเภทจำ�นวนเตม (integer)

คำ�สง tab1()

เปนคำ�สงสำ�หรบก�รสร�งต�ร�งท�งเดยวของตวแปรทระบ เชน tab1(ps2$sex) เปนก�รสร�งต�ร�ง

ท�งเดยวในตวแปร sex ซงควรจะมแค 1 (เพศช�ย) และ 2 (เพศหญง) ห�กพบว�ขอมลในตวแปร sex มค�สงเกต

อนใด ซงไมถกตอง ผวเคร�ะหขอมลจงสร�งตวแปรใหมทมชอว� gender โดยใชค�สงเกตของตวแปร sex โดยท

ใหค�สงเกตทเปนตวเลข 1 และ 2 ยงเปนเชนเดม แตจะใหค�ของตวเลขทไมใช 1 และ 2 เปน NA

คำ�สง levels()

เปนคำ�สงทใชสำ�หรบใหค�ของตวเลขทเปนค�สงเกตของตวแปร ทงน ตวแปรทจะส�ม�รถใชกบคำ�สง

levels() ได ตองเปนตวแปรทมลกษณะเปน factor เท�นน เชน เมอสร�งตวแปร gender แลวจะระบค�ตวเลข

1 และ 2 เปน male และ female ต�มลำ�ดบ

Page 68: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 5 การน�าเขาและการจดการขอมลโดยใชโปรแกรม R 61

ก�รแสดงผลทไดจ�กก�รตรวจสอบคว�มถกตองและก�รจดก�รขอมลของตวแปร sex

# Sex management class (ps2$sex) [1] “integer”tab1(ps2$sex)

ps2$sex : Frequency %(NA+) %(NA-) 1 82008 47.8 47.8 2 89447 52.2 52.2 <NA> 1 0.0 0.0 Total 171456 100.0 100.0ps2$gender<-ifelse(!(ps2$sex%in%c(1,2)),NA,ps2$sex) tab1(ps2$gender)

Page 69: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

62 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ps2$gender : Frequency %(NA+) %(NA-) 1 82008 47.8 47.8 2 89447 52.2 52.2 <NA> 1 0.0 0.0 Total 171456 100.0 100.0# definition in gender ps2$gender<-factor(ps2$gender) levels(ps2$gender)<-c(“male”,”female”) tab1(ps2$gender, graph=F) ps2$gender : Frequency %(NA+) %(NA-) male 82008 47.8 47.8 female 89447 52.2 52.2 NA’s 1 0.0 0.0 Total 171456 100.0 100.0

การสรางตวแปรอาย (age) จากตวแปร birth

เนองจ�กชดขอมลจ�กแฟม person_35_random ไมมตวแปรอ�ย จงตองสร�งตวแปรอ�ยขนม� เพอใช

ในก�รวเคร�ะหขอมลตอไป ตวแปรอ�ยทสร�งขนใหม สร�งม�จ�กตวแปร birth ซงเปนตวแปร วน-เดอน-ปทเกด

เรมตนก�รสร�งตวแปรอ�ย โดยก�รตรวจสอบประเภทของตวแปร birth กอนดวยคำ�สง class() และดรปแบบ

ของค�สงเกตดวยคำ�สง head() ค�สงเกตของตวแปร birth อ�จจะเปนไดหล�ยรปแบบ เชน year-month-day

(1974-12-13) หรอ yearmonthday (19741213) หรอ year/month/ day (1974/12/13)

เมอตรวจสอบตวแปร birth แลว จะทำ�ก�รระบใหตวแปร birth เปนตวแปรประเภทวนท (Date) โดยใช

คำ�สง as.Date() และเพอใหคงตวแปร birth ไว จงตองสร�งตวแปรใหมชอว� bdate นอกจ�กนสร�งตวแปร

วนททเปนปจจบน คอ ตวแปร today หรออ�จจะเปนวนทของกล�งปของขอมลจ�กแฟมขอมล person_35_random

เพอนำ�ตวแปรวนเดอนปเกดทสร�งขนใหม (bdate) ม�ลบกบตวแปร today กจะไดตวแปรอ�ย (age) ทสร�งขน

ม�ใหม

คำ�สง as.Date()

เปนคำ�สงเพอระบใหตวแปรเปนประเภทวนท ทงน ตองระบรปแบบของค�สงเกต ภ�ยใตตวแปรใหถกตอง

เชน ห�กรปแบบของค�สงเกตเปน 19311105 ตองระบเปน %Y%m%d หรอห�กรปแบบของค�สงเกตเปน

1931-11-05 ใหระบเปน %Y-%m-%d

ขอพงระวงในก�รใชคำ�สง as.Date() คอ ห�กตวแปรทตองก�รระบเปนตวแปรประเภทอน ทไมใชตวแปร

ประเภท factor หรอ character เชน เปนประเภทจำ�นวนเตม (integer) ตองมก�รเปลยนประเภทของตวแปร

จ�ก integer ใหเปน character กอนดวยคำ�สง as.character()

Page 70: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 5 การน�าเขาและการจดการขอมลโดยใชโปรแกรม R 63

ก�รแสดงผลทไดจ�กก�รสร�งตวแปรอ�ย (age)

# birth management and generate age class(ps2$birth) [1] “factor”head(ps2$birth) # birth-date style => year-month-day [1] 1962-11-29 1965-02-05 1979-02-14 1959-05-30 1959-02-10 1956-11-19 19309 Levels: 1916-01-01 1916-01-02 1916-01-04 1916-01-08 ... 1980-12-30# generate age variable ps2$bdate<-as.Date(ps2$birth,format=”%Y-%m-%d”) ps2$today<-as.Date(“2019-01-01”, format(“%Y-%m-%d”)) ps2$age<-(ps2$today-ps2$bdate)/365.25 # if birth is not character-> as.character # ps2$bdate<-as.Date(as.character(ps$birth),format=”%Y%m%d”) head(ps2$age) Time differences in days [1] 56.09035 53.90281 39.87953 59.59206 59.89049 62.11636tail(ps2$age) Time differences in days

[1] 43.49076 64.83504 45.99863 44.63244 61.17454 95.00068

การตรวจสอบความถกตองของตวแปรอาย (age)

ตวแปรอ�ย (age) ทสร�งขนใหมนน เมอทำ�ก�รตรวจสอบประเภทของตวแปรดวยคำ�สง class() พบว�ม

ประเภทของตวแปรเปน “difftime” ซงเปนตวแปรทเปนคว�มแตกต�งของเวล� จงตองเปลยนประเภทของตวแปร

ใหเปนตวเลข (numeric) ดวยคำ�สง as.numeric() เพอทจะส�ม�รถใชในก�รสำ�รวจและอธบ�ยตวแปรอ�ย

ก�รอธบ�ยตวแปรอ�ย ดวยก�รห�ค�ตำ�สด สงสด ค�เฉลย เปนวธก�รหนงในก�รตรวจสอบคว�มถกตอง

ของขอมลในตวแปรอ�ย โดยก�รใชคำ�สง summ() ห�กพบว�อ�ยของผปวยในชดขอมล person_35_random

นมค�อ�ยทไมส�ม�รถเปนได เชนอ�ยเกน 100 ป หรอ นอยกว� 0 กจำ�เปนตองมก�รจดก�รใหค�เหล�นน

เปน NA ดวยคำ�สง ifelse() และสร�งตวแปรใหมชอตวแปร agenew ทมค�อ�ยอยระหว�ง 0 ถง 100 ป

คำ�สง as.numeric()

เปนคำ�สงสำ�หรบระบใหตวแปรเปนประเภทตวเลขหรอ numeric

คำ�สง summ()

เปนคำ�สงสำ�หรบอธบ�ยค�สถตต�งๆ เชน ค�ตำ�สด สงสด ค�เฉลย ค�เบยงเบนม�ตรฐ�น ของตวแปร

ทตองก�ร สำ�หรบตรวจสอบขอมลทเปนตวเลข พรอมกนนจะมก�รสร�งกร�ฟแสดงก�รกระจ�ยตวของขอมล

ห�กไมตองก�รใหสร�งกร�ฟ ตองระบ graph=F ลงไป

Page 71: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

64 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ก�รแสดงผลทไดจ�กก�รตรวจสอบคว�มถกตองของตวแปรอ�ย

class(ps2$age) [1] “difftime”ps2$age<-as.numeric(ps2$age) head(ps2$age) [1] 56.09035 53.90281 39.87953 59.59206 59.89049 62.11636tail(ps2$age) [1] 43.49076 64.83504 45.99863 44.63244 61.17454 95.00068summ(ps2$age,graph=F) obs. mean median s.d. min. max. 171455 58.988 57.492 13.738 38.004 103.001summ(ps2$age)

obs. mean median s.d. min. max. 171455 58.988 57.492 13.738 38.004 103.001# สรางตวแปร agenew --- แทนทตวแปร age ท<0 & >100 ดวย NA ps2$agenew<-ifelse(ps2$age<=0,NA,ps2$age) ps2$agenew<-ifelse(ps2$agenew>110,NA,ps2$agenew)

summ(ps2$agenew, graph = F) obs. mean median s.d. min. max.

171455 58.988 57.492 13.738 38.004 103.001

Page 72: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 5 การน�าเขาและการจดการขอมลโดยใชโปรแกรม R 65

การสรางกราฟพระมดระหวางตวแปรเพศและอาย กร�ฟพระมดเปนกร�ฟทแสดงใหเหนลกษณะเพศและอ�ยของผปวย โดยใชคำ�สง pyramid() ห�กตองก�รปดกร�ฟ จะใชคำ�สง dev.off() คำ�สง pyramid() เปนคำ�สงสำ�หรบก�รสร�งกร�ฟพระมด ห�กตองก�รระบคว�มกว�งของชนจะระบ binwidth ลงในคำ�สง เชน สร�งกร�ฟพระมดระหว�งตวแปรอ�ย (agenew) และตวแปรเพศ (gender) โดยตองก�รระบคว�มกว�งของชวงอ�ยใหอยในชวง 10 ป กจะระบ binwidth=10 ในคำ�สงนส�ม�รถระบสใหแตละค�ของคอลมน ได เชน ระบสของเพศ (col.gender=) นอกจ�กส�ม�รถระบชอกร�ฟโดยใช main=”” และห�กตองก�รระบค�รอยละในทกชน กเพม percent= each คำ�สง dev.off() เปนคำ�สงสำ�หรบใหปดกร�ฟทแสดงในขณะนน

ก�รแสดงผลทไดจ�กก�รสร�งกร�ฟพระมด

# pyramid pyramid(ps2$agenew,ps2$gender)

pyramid(ps2$agenew,ps2$gender,binwidth = 10, col.gender = c(“yellow”,”blue”))

Page 73: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

66 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

pyramid(ps2$agenew,ps2$gender,binwidth = 10, bar.label=T,col.gender=c(“yellow”,”blue”))

pyramid(ps2$agenew,ps2$gender,binwidth = 10, percent=”each”,printTable=T, main=”Population by age”, col.gender=c(“yellow”,”blue”))

Tabulation of age by sex (percentage of each gender). male female [30,40] 5.5 5.2 (40,50] 24.3 24.0 (50,60] 27.6 28.5 (60,70] 23.0 22.7 (70,80] 10.2 9.8 (80,90] 7.0 7.3 (90,100] 2.2 2.4 (100,110] 0.2 0.2dev.off() # close graph null device

Page 74: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 5 การน�าเขาและการจดการขอมลโดยใชโปรแกรม R 67

การจดแบงกลมอาย

ห�กตองก�รแบงกลมอ�ยจ�กตวแปรอ�ยเดม ใหเปนตวแปรใหมโดยใหอยในรปแบบของชวงอ�ยก ส�ม�รถ

ทำ�ได โดยใชคำ�สง cut() ทงน เมอแบงกลมเปนชวงอ�ยจะสร�งตวแปรใหม ชอ age.gr เมอสร�งตวใหมขนม�แลว

ทำ�ก�รตรวจสอบตวแปร age.gr โดยก�รสร�งต�ร�ง ดวยคำ�สง tab1(), table() หรอ tabpct() ทงน แลวแต

คว�มตองก�รผลลพธจ�กก�รวเคร�ะหขอมล

คำ�สง cut()

เปนคำ�สงสำ�หรบใชแบงกลมค�สงเกตของตวแปร cut() โดยขอมลทไดจะเปนกลม เชน แบงชวงอ�ยออก

เปน 6 ชวงอ�ย คอ 0-20, 20-30, 30-40, 40-50, 50-60 และ 60-100 ก�รกำ�หนดชวงจะระบดวย breaks= c()

ก�รอ�นค�คว�มหม�ยของเครองหม�ยวงเลบ จ�กตวอย�ง (0, 20] มคว�มหม�ยว� อ�ยตงแตม�กกว� 0 จนถง

20 ป คอไมรวม 0 แตนบรวม อ�ย 20 ป ตวแปรใหมทสร�งจ�กคำ�สงน จะเปนตวแปรประเภทกลม (factor)

คำ�สง table () และ tabpct()

เปนคำ�สงสำ�หรบสร�งต�ร�ง 2 ท�ง ระหว�ง 2 ตวแปร โดยตวแปรแรกเปนตวแปรต�มแถว (row) ตวแปร

ตวท 2 เปนตวแปรต�มคอลมน (column) เชน table (gender, age.gr) หรอ tabpct (gender, age.gr) เปนก�ร

สร�งต�ร�ง 2 ท�งระหว�งตวแปรเพศ และอ�ย โดยเพศจะอยในแนวแถว และอ�ยจะอยในแนวคอลมน

ผลลพธทไดจ�กก�รใชคำ�สง table () และ tabpct() จะต�งกน โดยคำ�สง table() จะไดผลลพธคอต�ร�ง

2 ท�ง ทแสดงคว�มถในแตละชอง (เซลล: cell) แตคำ�สง tabpct() จะใหผลลพธทม�กกว� โดยเพมก�รแสดง

แสดงค�รอยละต�มแถว และต�มคอลมน

ก�รแสดงผลทไดจ�กก�รแบงกลมอ�ย

#การสรางตวแปร age.gr จากตวแปร agenew ดวยคำาสง cut ps2$age.gr<-cut(ps2$agenew, breaks = c(35,40,50,60,110))

tab1(ps2$age.gr) ps2$age.gr : Frequency %(NA+) %(NA-) (35,40] 9193 5.4 5.4 (40,50] 41409 24.2 24.2 (50,60] 48170 28.1 28.1 (60,110] 72683 42.4 42.4 NA’s 1 0.0 0.0 Total 171456 100.0 100.0

สรางตาราง age group &gender ดวยคำาสง tabpct tabpct(ps2$gender, ps2$age.gr) Original table ps2$age.gr ps2$gender (35,40] (40,50] (50,60] (60,110] Total

Page 75: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

68 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

male 4536 19941 22666 34865 82008 female 4657 21468 25504 37818 89447 Total 9193 41409 48170 72683 171455 Row percent ps2$age.gr ps2$gender (35,40] (40,50] (50,60] (60,110] Total male 4536 19941 22666 34865 82008 (5.5) (24.3) (27.6) (42.5) (100) female 4657 21468 25504 37818 89447 (5.2) (24) (28.5) (42.3) (100) Column percent ps2$age.gr ps2$gender (35,40] % (40,50] % (50,60] % (60,110] male 4536 (49.3) 19941 (48.2) 22666 (47.1) 34865 female 4657 (50.7) 21468 (51.8) 25504 (52.9) 37818 Total 9193 (100) 41409 (100) 48170 (100) 72683 ps2$age.gr ps2$gender % male (48) female (52) Total (100)

5.5 การนำาเขาและการจดการขอมลจากแฟม ncdscreen_35_random

ก�รนำ�ขอมลจ�กชดขอมล ncdscreen เข�สโปรแกรม R และก�รตรวจสอบขอมลทนำ�เข�ส�ม�รถทำ�ได

โดยใชคำ�สงเดยวกนกบก�รนำ�เข�และก�รตรวจสอบขอมลจ�กไฟลขอมล person_35_random และในชดขอมล

ncdscreen_35_random กจะมก�รสร�งตวแปร hpid จ�กตวแปร hospcode และ pid เชนเดยวกน ทงน

จะอธบ�ยวตถประสงคในก�รทำ�ง�นของคำ�สงภ�ยใตหวขอก�รแสดงผลลพธทจะแสดงผลในตอไปน

ก�รแสดงผลทไดจ�กก�รนำ�เข�และก�รจดก�รขอมลจ�กแฟม ncdscreen_35_random

#import ncdscreen data only 200000 record #ncd screen data ncd<-read.csv(“ncdscreen_35_random.csv”, head=T, sep=”,”)

# หากไฟลขอมล ncdscreen ไมไดระบชอตวแปร ตองใชคำาสง names () ในการใหชอตวแปร #ในครงนเนองจาก ชดขอมล ncdscreen ไดกำาหนดชอตวแปรแลว จงใสเครองหมาย # ขางหนาคำาสงทกบรรทด เพอไมใหมการทำางานในคำาสงน#names(ncd)[1:21] <- c(“hospcode”,”pid”,”seq”,”dateserv”, # “servplace”,”smoke”,”alcohol”, # “dmfamily”,”htfamily”,”weight”,”height”, # “waist”,”sbp1”,”dbp1”,”sbp2”,”dbp2”,”bslevel”,

Page 76: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 5 การน�าเขาและการจดการขอมลโดยใชโปรแกรม R 69

# “bstest”,”screenplace”,”provider”,”update”)

des(ncd)

No. of observations = 38503 Variable Class Description 1 X integer 2 hospcode integer 3 pid integer 4 seq integer 5 dateserv factor 6 servplace integer 7 smoke integer 8 alcohol integer 9 dmfamily integer 10 htfamily integer 11 weight integer 12 height integer 13 waist integer 14 sbp1 integer 15 dbp1 integer 16 sbp2 integer 17 dbp2 integer 18 bslevel integer 19 bstest integer 20 screenplace integer 21 provider factor 22 update factor 23 hcpid numericnames(ncd) <- tolower(names(ncd)) # สร�งตวแปร hpid จ�ก hospcode & pid ncd$hpid <- paste0(ncd$hospcode,ncd$pid) head(ncd$hpid) [1] “581110007” “581110116” “581110403” “581110787” “581110872” “581111601”# ตรวจสอบจำ�นวนครงของก�รเข�รบก�รรกษ�ของผปวย #table(ncd$hpid) #บรรทดนเปนก�รตรวจสอบจำ�นวนครงของก�รเข�รบก�รรกษ�ตอผปวย 1 คน #เนองจ�กผลลพธทไดจ�กก�รใชคำ�สงบรรทดน จะมจำ�นวนหลกหมน จงใสเครองหม�ย # เพอใหคำ�สงไมทำ�ง�นtable(table(ncd$hpid)) #ก�รสร�งต�ร�งเพอตรวจสอบจำ�นวนผปวยทเข�ม�รบบรก�รต�มจำ�นวนครง

Page 77: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

70 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

1 2 3 4 33044 2549 111 7# ก�รเรยกดขอมลตวแปร dateserv โดยดเฉพ�ะ 10 แถวแรก ncd$dateserv[1:10] [1] 2015-03-31 2015-03-25 2015-03-31 2015-03-27 2015-01-15 2015-03-25 [7] 2015-03-24 2015-03-25 2015-03-10 2015-03-24 337 Levels: 2015-01-01 2015-01-02 2015-01-03 2015-01-04 ... 2015-12-28# เปลยนรปแบบของตวแปร dateserv จ�กรปแบบ character ใหเปนรปแบบวนท (date) โดยใหชอ dserv ncd$dserv <- as.Date(ncd$dateserv,”%Y-%m-%d”) # สร�งตวแปรใหม “yr” จ�กตวแปร dserv โดยตดเฉพ�ะป พ.ศ. ncd$yr <- year(ncd$dserv) head(ncd$yr) [1] 2015 2015 2015 2015 2015 2015# สร�งตวแปร dup จ�กตวแปร hpid yr smoke และ alcohol สำ�หรบตรวจก�รซำ�ซอนของขอมล ncd$dup <- paste(ncd$hpid,ncd$yr,ncd$smoke,ncd$alcohol) head(ncd$dup) [1] “581110007 2015 NA NA” “581110116 2015 NA NA” “581110403 2015 NA NA” [4] “581110787 2015 NA NA” “581110872 2015 NA NA” “581111601 2015 NA NA”tail(ncd$dup) [1] “65795025 2015 1 1” “65795090 2015 1 1” “65795135 2015 1 1” [4] “65795158 2015 1 1” “65795163 2015 1 1” “65795355 2015 1 1”# ตรวจสอบคว�มซำ�กนของขอมลจ�กตวแปร table(duplicated(ncd$dup)) FALSE TRUE 35752 2751# ตดขอมลทมคว�มซำ�กน แลวเกบขอมลทเหลออยในไฟลขอมลทชอว� ncd1

ncd1 <- ncd[!duplicated(ncd$dup),]

5.6 การรวมชดขอมล person_35_random กบ ncdscreen_35_random

ก�รรวมชดขอมลจ�กแฟม person_35_random และ ncdscreen_35_random เพอใหเปนชดขอมล

เดยวกน ดวยคำ�สง merge() โดยก�รใชตวแปร hpid ซงไดสร�งขนไวแลวในชดขอมล person_35_random และ

ncdscreen_35_random เมอรวมขอมลทง 2 ชด เข�ดวยกนแลว ส�ม�รถบนทกขอมลชดใหมโดยใชคำ�สง write.

csv() ซงจะไดไฟลขอมลชดใหมทมน�มสกลเปน csv และเกบไวในโฟลเดอรหรอ directory เดยวกบไฟลขอมล

เมอรวมขอมลเข�ดวยกนแลว ทำ�ก�รตรวจสอบคว�มซำ�กนของขอมล จ�กตวแปร hpid หรอ cid ห�ก

พบว�มคว�มซำ�กนของขอมล กตดขอมลทซำ�กนและเกบขอมลชดใหมในชอ psncd

คำ�สง merge()

เปนคำ�สงสำ�หรบก�รรวมชดขอมลเข�ดวยกน ทงน ตองมก�รระบตวแปรทจะใชในก�รเชอมขอมล ตวอย�ง

ก�รใชคำ�สง

Page 78: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 5 การน�าเขาและการจดการขอมลโดยใชโปรแกรม R 71

psncd <- merge (ps2, ncd1, by.x=”hpid”,by.y=”hpid”) หรอ

psncd <- merge (ps2,ncd, by=c(“hpid”))

คำ�สง write.csv()

เปนคำ�สงสำ�หรบก�รบนทกขอมลในโปรแกรม R โดยไฟลทบนทกเปนลกษณะของ csv

ก�รแสดงผลจ�กก�รรวมไฟล person_35_random และ ncdscreen_35_random

# Merging person & screen psncd <- merge(ncd1,ps2,by.x=”hpid”,by.y=”hpid”) des(psncd) No. of observations = 34710 Variable Class Description 1 hpid character 2 x.x integer 3 hospcode.x integer 4 pid.x integer 5 seq integer 6 dateserv factor 7 servplace integer 8 smoke integer 9 alcohol integer 10 dmfamily integer 11 htfamily integer 12 weight integer 13 height integer 14 waist integer 15 sbp1 integer 16 dbp1 integer 17 sbp2 integer 18 dbp2 integer 19 bslevel integer 20 bstest integer 21 screenplace integer 22 provider factor 23 update.x factor 24 hcpid numeric 25 dserv Date 26 yr integer 27 dup character 28 x.y integer

Page 79: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

72 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

29 hospcode.y integer 30 cid factor 31 pid.y integer 32 hid integer 33 prename factor 34 name factor 35 lname factor 36 hn integer 37 sex integer 38 birth factor 39 mstatus integer 40 occold integer 41 occnew integer 42 race integer 43 nation integer 44 religion integer 45 edu integer 46 fstatus integer 47 father factor 48 mother factor 49 couple factor 50 vstatus integer 51 movein factor 52 discharge integer 53 ddischarge factor 54 abogroup integer 55 rhgroup integer 56 labor integer 57 passport logical 58 typearea integer 59 update.y factor 60 gender factor 61 bdate Date 62 today Date 63 age numeric 64 agenew numeric 65 age.gr factor#check data duplication table(duplicated(psncd$dup)) FALSE 34710

Page 80: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 5 การน�าเขาและการจดการขอมลโดยใชโปรแกรม R 73

table(duplicated(psncd$hpid)) FALSE TRUE 34671 39table(duplicated(psncd$cid)) FALSE TRUE 34671 39#ลบขอมลทซำากน แลวเกบขอมลในชอวา psncd 1 psncd1<- psncd[duplicated(psncd$hpid)==FALSE,] table(duplicated(psncd1$hpid)) FALSE 34671# บนทกขอมล psncd1 ในรปแบบของ csv write.csv(psncd1, file=”psncd.csv”) dir()

Page 81: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

74 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

5.7 แบบฝกหดทายบท

ใหผอ�นนำ�ขอมลทตนเองมอยหรออ�จเปนแฟมขอมล person ทตนเองดแลอย ม�ฝกใชในก�รนำ�เข�และ

จดก�รขอมล ดงน

1. แปลงขอมลทมอยใหเปนไฟล .csv หรอ .txt เพอใชในก�รนำ�เข�โปรแกรม R

2. นำ�เข�ชดขอมลและกำ�หนดใหส�ม�รถอ�นขอมลทเปนภ�ษ�ไทยได

3. ทำ�ก�รสำ�รวจขอมลว�มจำ�นวนกแถว กคอลมน กตวแปร และมตวแปรอะไรบ�ง

4. ทำ�ก�รตรวจสอบคว�มซำ�ซอนของ id และทำ�ก�รตดขอมลทซำ�กนทง แบงกลมขอมลอ�ย และ

ใหเหตผลว�ยดหลกใดในคว�มแบงชวงคว�มถ ห�กไมมตวแปรอ�ยใหทำ�ก�รสร�งตวแปรอ�ยโดยใช

ตวแปรวนเดอนปเกดต�มตวอย�งทแสดงไวข�งตน

Page 82: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 6 สถตเชงพรรณนา (Descriptive Statistics) 75

บทท 6 สถตเชงพรรณนา (Descriptive Statistics)

Page 83: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

76 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

สถตเชงพรรณนา (Descriptive Statistics)ดร.นรนดร อนทรตนE-mail: [email protected]

6 บทท

สถตเชงพรรณน� คอ สถตทใชเพออธบ�ย บรรย�ย หรอสรป ลกษณะของกลมขอมลทเปนตวเลข ทเกบ

รวบรวมม�ซงไมส�ม�รถอ�งองลกษณะประช�กรได ก�รพรรณน�ขอมลจะตองระบตวแปรใหไดกอนว�มลกษณะ

ใด โดยถ�เปนตวแปรกลมจะใชค�คว�มถและรอยละในก�รพรรณน�ขอมล ในกรณทขอมลมลกษณะตอเนอง

ถ�มก�รแจกแจงปกตจะนยมร�ยง�นค�เฉลย (สวนเบยงเบนม�ตรฐ�น) ในกรณทขอมลแจกแจงไมปกต จะนยม

ร�ยง�นเปนค�กล�ง (ค�ตำ�สด ค�สงสด) หรอ ค�กล�ง (ค�ควอไทลท 1 ค�ควอไทลท 3) เปนตน

ในบทนจะแสดงตวอย�งก�รพรรณน�ขอมล โดยใชชดขอมลชอ psncd ทไดจ�กก�รรวมกนระหว�งขอมล

person_35_random และ ncdscreen_35_random เปนรปแบบ csv มจำ�นวน 34,671 แถว ดงน

6.1 การพรรณนาขอมลตวแปรตอเนอง

ก�รพรรณน�ขอมลใน 43 แฟม ในตวอย�งนจะทำ�ก�รพรรณน�ขอมลตวแปรอ�ย

setwd(“D:/data”) ps <- read.csv(“psncd.csv”,head=T) summ(ps$age) obs. mean median s.d. min. max. 34671 58.674 57.492 12.453 38.031 103.001

Page 84: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 6 สถตเชงพรรณนา (Descriptive Statistics) 77

จ�กขอมลอ�ยพบว�มค�เฉลยอยท 58.67 ป และสวนเบยงเบนม�ตรฐ�นเท�กบ 12.45 และจ�กกร�ฟ

แสดงใหเหนว�ขอมลอ�ยมก�รเพมขน ทงน ส�ม�รถแสดงผลขอมลอ�ย โดยแยกต�มเพศไดเชนกน

with(ps, summ(age,by=gender)) For gender = female obs. mean median s.d. min. max. 18611 58.679 57.358 12.458 38.031 103.001 For gender = male obs. mean median s.d. min. max. 16060 58.668 57.596 12.447 38.07 103.001

Page 85: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

78 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ก�รวเคร�ะหผลทได พบว�เมอแบงอ�ยต�มเพศแลวพบว� เพศหญงมค�เฉลยอยท 58.68 ป และสวนเบยงเบน

ม�ตรฐ�นเท�กบ 12.46 สวนเพศช�ยมค�เฉลยอยท 58.67 ป และสวนเบยงเบนม�ตรฐ�นเท�กบ 12.45 และ

กร�ฟไดแสดงก�รเพมขนของอ�ยโดยแบงเปนเพศหญงและช�ย นอกจ�กนน ส�ม�รถพรรณน�ขอมลโดยใชกร�ฟ

พระมดได ดงน

pyramid(ps$age,ps$gender,bar.label = TRUE,percent=”total”,printTable = T ) Tabulation of age by sex (percentage of total population). female male [35,40] 1.7 1.5 (40,45] 5.9 5.4 (45,50] 6.7 5.6 (50,55] 8.4 6.7 (55,60] 8.9 7.5 (60,65] 8.1 7.3 (65,70] 5.2 4.6 (70,75] 2.7 2.5 (75,80] 2.1 2.0 (80,85] 1.9 1.4 (85,90] 1.3 1.1 (90,95] 0.6 0.5 (95,100] 0.2 0.1 (100,105] 0.0 0.0

จ�กก�รแสดงกร�ฟพระมด พบว� ประช�กรเพศหญงและช�ยมก�รกระจ�ยทใกลเคยงกน คออยในชวง

46-70 ป และมลกษณะเบขว� ก�รแสดงกร�ฟขอมลเมอตองก�รเปรยบเทยบค�เฉลยสองกลมโดยก�รใช

Box-and-Whisker Plots หรอแผนภ�พกลอง ดงน

Page 86: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 6 สถตเชงพรรณนา (Descriptive Statistics) 79

คำ�สง las = 1 คอ ก�รตงค�ใหแสดงค�คว�มถเปนแนวตง โดยกร�ฟทแสดงคอ ขอมลอ�ยแบงเปนเพศหญงและเพศช�ย จะพบว� ค�กล�งอ�ยของเพศหญงและช�ยคอ 58 ป ซงขอมลอ�ยสวนใหญจะอยในชวง 50 – 65 ป แตมบ�งสวนทมอ�ยม�กกว� 90 ป

6.2 การพรรณนาขอมลตวแปรกลม ในกรณทขอมลมลกษณะเปนตวแปรกลมเร�ส�ม�รถพรรณน�ขอมลโดยก�รใชค�คว�มถ และรอยละ ในก�รร�ยง�นผล 6.2.1 การวเคราะหขอมลแบบตารางทางเดยว เชน ตองก�รคำ�นวณค�คว�มถและรอยละของตวแปรเพศ

tab1(ps$gender, col = “gray”, las=1) ps$gender : Frequency Percent Cum. percent female 18611 53.7 53.7 male 16060 46.3 100.0 Total 34671 100.0 100.0

จ�กผลลพธไดแสดงจำ�นวนเพศหญง เพศช�ย เปอรเซนตแตละเพศ รวมถงเปอรเซนตสะสม ก�รวเคร�ะหขอมลพบว� เปนเพศหญงจำ�นวน 18,611 คน คดเปนรอยละ 53.7 ในขณะทเปนเพศช�ยจำ�นวน 16,060 คน คดเปนรอยละ 46.3 ทงน คำ�สงในโปรแกรม R (epiDisplay package) ยงแสดงกร�ฟแทงแสดงคว�มถม�ใหดวย

boxplot(ps$age~ps$gender,las=1)

Page 87: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

80 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

6.2.2 การวเคราะหขอมลแบบตารางสองทาง

ในกรณทเร�ตองก�รคำ�นวณคว�มถและรอยละ ทเปนตวแปรกลม 2 ตวแปร เร�จะใชก�รวเคร�ะหแบบ

ต�ร�งสองท�งโดยใชคำ�สง tabpct เชน ตองก�รคำ�นวณคว�มถและรอยละ ระหว�งเพศและก�รเปนโรคคว�มดน

โลหตสง (ตวแปร rbp) ส�ม�รถทำ�ได ดงน

tabpct(ps$gender, ps$rbp, decimal = 1, percent = “col”) Column percent ps$rbp ps$gender abnormal % normal % female 2108 (52.1) 16380 (53.9) male 1935 (47.9) 14028 (46.1)

Total 4043 (100) 30408 (100)

จ�กผลก�รวเคร�ะหแสดงสดสวนของก�รเปนโรคและไมเปนโรคคว�มดนโลหตสงในเพศหญงและช�ย

โดยก�รคำ�นวณเปอรเซนตในแนวคอลมน (percent = “col”) และตองก�รทศนยม 1 ตำ�แหนง (decimal =1)

ผลก�รวเคร�ะหพบว� ในกลมเพศหญงมคว�มถของก�รเปนโรคคว�มดนโลหตสงเท�กบ 2,108 ร�ย

คดเปนรอยละ 52.1 ในขณะทเพศช�ยจำ�นวน 1,935 ร�ย คดเปนรอยละ 47.9 นอกจ�กนนแลวคำ�สง tabpct

ยงแสดงขอมลในรปแบบกร�ฟใหม�ดวย

จ�กกร�ฟแสดงสดสวนของก�รเปนโรคคว�มดนโลหตสง โดยพนทสแดงหม�ยถง สดสวนของก�รไมเปน

โรค และพนทสข�วแสดงถงก�รไมเปนโรคคว�มดนโลหตสง ซงส�ม�รถเข�ใจอย�งหย�บๆ ไดว� เพศหญงและ

เพศช�ยพบสดสวนก�รไมเปนโรคคว�มดนโลหตสงม�กกว�ก�รเปนโรค

Page 88: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 6 สถตเชงพรรณนา (Descriptive Statistics) 81

6.3 แบบฝกหดทายบท

1. ใหสร�งแผนภ�พกลองสำ�หรบตวแปรดชนมวลก�ย (bmi) และเพศ (gender) พรอมทงอธบ�ย

คว�มหม�ยจ�กผลลพธ

2. ใหวเคร�ะหต�ร�งสองท�ง โดยใชตวแปรกลม 2 ตวแปรทสนใจ พรอมทงอธบ�ยคว�มหม�ยจ�กผลลพธ

Page 89: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

82 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

Page 90: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 7 สถตเชงอนมาน (Inferential Statistic) 83

บทท 7 สถตเชงอนมาน (Inferential Statistic)

Page 91: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

84 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

สถตเชงอนมาน (Inferential Statistic)ผศ.ดร.เชษฐา งามจรสE-mail: [email protected]

7 บทท

สถตเชงอนม�น (Inferential statistics) เปนวธก�รท�งสถตทใชผลจ�กก�รวเคร�ะหขอมลจ�กกลมตวอย�ง

ไปสรปผลหรอไปอธบ�ยขอมลในประช�กรทนกวจยตองก�รศกษ� สถตเชงอนม�นจะประกอบดวยสถตทใช

ประม�ณค�ตวแปรผลลพธ (outcome) และสถตทใชในก�รทดสอบสมมตฐ�น ซงในบทนจะอธบ�ยเฉพ�ะ

ก�รทดสอบท�งสถตทพบบอยในก�รวเคร�ะหขอมลโรคไมตดตอเรอรง

7.1 การทดสอบสมมตฐานทางสถต

ก�รทดสอบสมมตฐ�นท�งสถตจะใชเมอนกวจยตองก�รเปรยบเทยบค�ของตวแปรผลลพธกบเกณฑ หรอ

เปรยบเทยบตวแปรผลลพธระหว�งกลม เชน เปรยบเทยบดชนมวลก�ยของประช�กรในอำ�เภอเมอง จงหวด

ขอนแกนว�ม�กกว� 30 กโลกรมตอเมตร2 หรอไม หรอตองก�รเปรยบเทยบคว�มชกของก�รเปนโรคอวนระหว�ง

เพศช�ยและหญง เปนตน

Page 92: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 7 สถตเชงอนมาน (Inferential Statistic) 85

7.1.1 ขนตอนการทดสอบสมมตฐานทางสถต

ก�รทดสอบสมมตฐ�นท�งสถตมขนตอนดงน

1. กำาหนดสมมตฐาน

ขนตอนนนกวจยจะตองทำ�ก�รกำ�หนดสมมตฐ�นว�ง (null hypothesis: H0) และสมมตฐ�นท�งเลอก

(alternative hypothesis: Ha) โดยใชค�พ�ร�มเตอรเปนตวกำ�หนด เมอ H

0 บงบอกถงคว�มไมแตกต�งกน

ในขณะท Ha จะตองกำ�หนดใหตรงกนข�มกบ H

0 เพอเปนท�งเลอกในก�รตดสนใจของนกวจย เชน

H0: ค�เฉลยของดชนมวลก�ยของประช�กร (µ) ในอำ�เภอเมอง จงหวดขอนแกน ไมแตกต�งจ�ก 30

กโลกรมตอเมตร2 (หรอเขยนเปนสญลกษณท�งคณตศ�สตรไดดงน H0: µ = 30 กโลกรมตอเมตร2)

Ha: ค�เฉลยของดชนมวลก�ยของประช�กรในอำ�เภอเมอง จงหวดขอนแกน แตกต�งจ�ก 30 กโลกรม

ตอเมตร2 (หรอเขยนเปนสญลกษณท�งคณตศ�สตรไดดงน Ha: µ ≠ 30 กโลกรมตอเมตร2) เปนตน

จ�กก�รกำ�หนด H0 และ H

a ข�งตนจะเปนก�รกำ�หนดสมมตฐ�นแบบสองท�ง (two-tailed) คอ

นกวจยสนใจคว�มแตกต�งระหว�งค�พ�ร�มเตอรกบค�ทกำ�หนดโดยไมสนใจทศท�งของคว�มแตกต�ง แตห�ก

นกวจยสนใจทศท�งของคว�มแตกต�งระหว�งค�ดงกล�วดวย จะส�ม�รถกำ�หนดสมมตฐ�นแบบท�งเดยว

(one-tailed) ไดดงน

H0: ค�เฉลยของดชนมวลก�ยของประช�กรในอำ�เภอเมอง จงหวดขอนแกน ไมเกน 30 กโลกรม

ตอเมตร2 (หรอเขยนเปนสญลกษณท�งคณตศ�สตรไดดงน H0: µ ≤ 30 กโลกรมตอเมตร2)

Ha: ค�เฉลยของดชนมวลก�ยของประช�กรในอำ�เภอเมอง จงหวดขอนแกน ม�กกว� 30 กโลกรม

ตอเมตร2 (หรอเขยนเปนสญลกษณท�งคณตศ�สตรไดดงน Ha: µ > 30 กโลกรมตอเมตร2)

หรออ�จจะกำ�หนดเปน

H0: ค�เฉลยของดชนมวลก�ยของประช�กรในอำ�เภอเมอง จงหวดขอนแกน อย�งนอย 30 กโลกรม

ตอเมตร2 (หรอเขยนเปนสญลกษณท�งคณตศ�สตรไดดงน H0: µ ≥ 30 กโลกรมตอเมตร2)

Ha: ค�เฉลยของดชนมวลก�ยของประช�กรในอำ�เภอเมอง จงหวดขอนแกน นอยกว� 30 กโลกรม

ตอเมตร2 (หรอเขยนเปนสญลกษณท�งคณตศ�สตรไดดงน Ha: µ < 30 กโลกรมตอเมตร2)

ก�รกำ�หนดว�จะตงสมมตฐ�นแบบใดนนขนอยกบคำ�ถ�มวจยและวตถประสงคของก�รวจยทนกวจย

เปนผกำ�หนด

2. กำาหนดระดบนยสำาคญ (α)

เปนก�รกำ�หนดคว�มน�จะเปนสงสดทนกวจยจะตดสนใจผดพล�ดจ�กก�รทดสอบสมมตฐ�นเมอ

นกวจยตดสนใจปฏเสธ H0 เมอในสถ�นก�รณจรง H

0 เปนจรง ในง�นวจยท�งด�นวทย�ศ�สตรสขภ�พมกนยม

กำ�หนด α เท�กบ 0.05

3. คำานวณคาสถตทดสอบ

ในขนตอนนจะเปนก�รนำ�ขอมลทไดเกบรวบรวมไวม�ทำ�ก�รคำ�นวณค�สถตจ�กสถตทดสอบทนกวจย

เลอกใช

4. ตดสนใจ

หลงจ�กทไดคำ�นวณค�สถตทดสอบนกวจยตองตดสนใจว�จะปฏเสธ H0 ทกำ�หนดไวหรอไม ในกรณ

ทนกวจยทำ�ก�รวเคร�ะหขอมลดวยโปรแกรม R ผลลพธทไดจ�กโปรแกรมจะแสดงค� p-value ม�ใหดวย ซง

p-value จะเปนค�ทไดจ�กก�รนำ�ขอมลทนกวจยทำ�ก�รวเคร�ะหม�ห�ค�คว�มน�จะเปนทนกวจยจะตดสนใจ

Page 93: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

86 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ปฏเสธ H0 หรอไม ซงในก�รตดสนใจปฏเสธ H

0 จะกระทำ�เมอ p-value นอยกว�ระดบนยสำ�คญทกำ�หนด

5. สรปผลการทดสอบสมมตฐาน

ในก�รสรปผลก�รทดสอบสมมตฐ�นท�งสถตมแนวท�งในก�รสรปดงน ถ�นกวจยตดสนใจปฏเสธ H0

จะสรปว�พบคว�มแตกต�งอย�งมนยสำ�คญท�งสถต ในท�งตรงกนข�มห�กนกวจยตดสนใจไมปฏเสธ H0 หรอยอมรบ

Ha จะสรปว�พบคว�มแตกต�งอย�งไมมนยสำ�คญท�งสถต

นยสำ�คญท�งสถตแตกต�งจ�กนยสำ�คญท�งชววทย�หรอนยสำ�คญท�งคลนก บ�งครงผลก�รวจยทได

อ�จมคว�มแตกต�งทมนยสำ�คญท�งคลนก แตอ�จไมมนยสำ�คญท�งสถต ห�กจำ�นวนกลมตวอย�งไมเพยงพอ

นอกจ�กน ห�กผลก�รวจยพบว�มคว�มแตกต�งทมนยสำ�คญท�งคลนก โดยเฉพ�ะผลก�รวจยท�งลบ เชน อ�ก�ร

ข�งเคยงจ�กก�รทดลองย�ใหม ใหพจ�รณ�หยดก�รทดลองแมว�จะยงไมพบคว�มแตกต�งกนท�งสถต

7.2 การทดสอบสมมตฐานทางสถตสำาหรบขอมลโรคไมตดตอเรอรง

ในหวขอนเปนก�รนำ�เสนอสถตทดสอบทในก�รทดสอบสมมตฐ�นท�งสถตสำ�หรบขอมลโรคไมตดตอเรอรง

ทงในกรณทตวแปรทตองก�รวเคร�ะหเปนตวแปรตอเนอง (continuous variable) และตวแปรกลม (categorical

variable)

7.2.1 การเปรยบเทยบคาเฉลยกรณประชากรกลมเดยว

เมอนกวจยตองก�รเปรยบเทยบค�เฉลยของตวแปรตอเนองกบเกณฑ ยกตวอย�งคำ�ถ�มวจยเชน ค�เฉลย

ของดชนมวลก�ยของประช�กรในอำ�เภอเมอง จงหวดขอนแกน แตกต�งจ�ก 30 กโลกรมตอเมตร2 หรอไม เปนตน

สถตทดสอบทใชวเคร�ะหเพอตอบคำ�ถ�มวจยดงกล�วคอ สถตทดสอบ One-sample t ซงเปนสถตทองค�

พ�ร�มเตอร (parameter statistics) โดยสถตทดสอบนมเงอนไขคอ ขอมลทตองก�รวเคร�ะหตองเปนขอมลตอ

เนองและตองมก�รแจกแจงปกต ดงนน ในก�รวเคร�ะหนกวจยตองทำ�ก�รตรวจสอบขอมลกอนว�ขอมลเปนไป

ต�มเงอนไขดงกล�วหรอไม สำ�หรบคำ�สง R ทใชในก�รทดสอบก�รแจกแจงแบบปกตดวยสถตทดสอบ Shapiro-Wilk

คอ shapiro.test() สวนคำ�สงสำ�หรบใชในก�รวเคร�ะหสถตทดสอบ One-sample t คอ t.test()

ตวอย�งท 7.1 นกวจยตองก�รทร�บว�ดชนมวลก�ยของประช�กรแตกต�งจ�ก 30 กโลกรมตอ เมตร2

หรอไม ห�กขอมลดชนมวลก�ยมก�รแจกแจงปกตจะส�ม�รถตงสมมตฐ�นไดดงน

H0: ค�เฉลยของดชนมวลก�ยของประช�กรไมแตกต�งจ�ก 30 กโลกรมตอเมตร2

Ha: ค�เฉลยของดชนมวลก�ยของประช�กรแตกต�งจ�ก 30 กโลกรมตอเมตร2

ทำ�ก�รวเคร�ะหดวยสถตทดสอบ One-sample t โดยใชขอมลชอ psncd ดงน

t.test(ps$bmi, mu = 30) One Sample t-test data: ps$bmi t = -177.71, df = 34643, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 30

Page 94: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 7 สถตเชงอนมาน (Inferential Statistic) 87

95 percent confidence interval: 22.81322 22.97003 sample estimates: mean of x 22.89162

จ�กผลลพธ พบว� p-value < 2.2e-16 ซงนอยม�กๆ และนอยกว�ระดบนยสำ�คญท 0.05 จงตดสนใจ

ปฏเสธ H0 จงส�ม�รถสรปไดว�ค�เฉลยของดชนมวลก�ยของประช�กรแตกต�งจ�ก 30 กโลกรมตอเมตร2 อย�ง

มนยสำ�คญท�งสถต ณ ระดบนยสำ�คญ 0.05 โดยมค�เฉลยของดชนมวลก�ยเท�กบ 22.89 กโลกรมตอเมตร2

ดวยชวงคว�มเชอมนรอยละ 95 ตงแต 22.81 ถง 22.97 กโลกรมตอเมตร2 หรอท p-value < 0.001

7.2.2 การเปรยบเทยบคามธยฐานกรณประชากรกลมเดยว

ในกรณทขอมลไมเปนไปต�มเงอนไขของสถตทดสอบ One-sample t คอขอมลมก�รแจกแจงไมปกต

นกวจยจะตองเปลยนม�ใชก�รทดสอบขอมลดวยสถตทไมองค�พ�ร�เมทรกซ (non-parametric statistics)

ทชอว� Wilcoxon sign rank แทน ดวยคำ�สง wilcox.test() ในโปรแกรม R

ตวอยางท 7.2 นกวจยตองก�รทร�บว�ดชนมวลก�ยของประช�กรแตกต�งจ�ก 30 กโลกรมตอเมตร2

หรอไม ห�กขอมลดชนมวลก�ยมก�รแจกแจงไมปกตจะส�ม�รถตงสมมตฐ�นไดดงน

H0: ค�มธยฐ�นของดชนมวลก�ยของประช�กรไมแตกต�งจ�ก 30 กโลกรมตอเมตร2

Ha: ค�มธยฐ�นของดชนมวลก�ยของประช�กรแตกต�งจ�ก 30 กโลกรมตอเมตร2

ทำ�ก�รวเคร�ะหดวยสถตทดสอบ Wilcoxon-sign-rank ดงน

wilcox.test(ps$bmi, mu = 30) Wilcoxon signed rank test with continuity correction data: ps$bmi V = 6306147, p-value < 2.2e-16 alternative hypothesis: true location is not equal to 30

จ�กผลลพธ พบว� p-value นอยกว�ระดบนยสำ�คญท 0.05 จงตดสนใจปฏเสธ H0 จงส�ม�รถสรปไดว�

ค�มธยฐ�นของดชนมวลก�ยของประช�กรแตกต�งจ�ก 30 กโลกรมตอเมตร2 อย�งมนยสำ�คญท�งสถต

7.2.3 การเปรยบเทยบคาเฉลยกรณประชากร 2 กลม

เมอตองก�รเปรยบเทยบตวแปรตอเนองจ�กประช�กร 2 กลม ส�ม�รถทำ�ไดดวยก�รนำ�ค�เฉลยทง 2 กลม

ม�เปรยบเทยบกน เพอนำ�ไปสก�รสรปว� ค�เฉลยของประช�กร 2 กลมแตกต�งกนหรอไม โดยก�รทดสอบคว�ม

แตกต�งของค�เฉลยของประช�กร 2 กลม แบงเปน 2 ประเภท คอ 1) ก�รเปรยบเทยบค�เฉลยของประช�กร

2 กลมทเปนอสระตอกน นนคอก�รเกบขอมลทไมไดม�จ�กทเดยวกน หรอคนเดยวกน เชน ก�รเปรยบเทยบค�เฉลย

คะแนนคว�มรของผปวยเบ�หว�นทอ�ศยอยในชมชน A และ B 2) ก�รเปรยบเทยบค�เฉลยของประช�กร 2 กลม

ทไมเปนอสระตอกน เชน ก�รเปรยบเทยบค�เฉลยคะแนนคว�มรของผปวยเบ�หว�นทอ�ศยอยในชมชน A

Page 95: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

88 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

กอนและหลงดำ�เนนโครงก�รอบรม ซงในท�งปฏบตจะใชสถตทดสอบเดยวกนคอ Independence t โดยมเงอนไข

คอขอมลจ�กตวแปรทสนใจจ�กทงสองกลมตองมก�รแจกแจงปกต สำ�หรบคำ�สงในก�รวเคร�ะหดวยสถตทดสอบ

Independence t คอ t.test() ดงตวอย�งท 7.3

ตวอยางท 7.3 นกวจยตองก�รทร�บว�ดชนมวลก�ยระหว�งเพศช�ยและเพศหญงว�แตกต�งกนหรอไม

ห�กขอมลดชนมวลก�ยจ�กทงเพศช�ยและเพศหญงมก�รแจกแจงปกตจะส�ม�รถตงสมมตฐ�นไดดงน

H0: µ

male = µ

female H

a: µ

male ≠ µ

female

เมอ µmale

คอค�เฉลยของดชนมวลก�ยของประช�กรเพศช�ย

µfemale

คอค�เฉลยของดชนมวลก�ยของประช�กรเพศหญง

ส�ม�รถทำ�ก�รวเคร�ะหไดดงน

t.test(ps$bmi~ps$gender) Welch Two Sample t-test data: ps$bmi by ps$gender t = 2.987, df = 21460, p-value = 0.002821 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.0865173 0.4167898 sample estimates: mean in group female mean in group male 23.00822 22.75656

จ�กผลลพธ พบว� p-value เท�กบ 0.0028 ซงนอยกว�ระดบนยสำ�คญท 0.05 จงตดสนใจปฏเสธ H0

จงส�ม�รถสรปไดว�ค�เฉลยของดชนมวลก�ยของประช�กรเพศช�ยแตกต�งจ�กค�เฉลยของดชนมวลก�ยของ

ประช�กรเพศหญง อย�งมนยสำ�คญท�งสถต

7.2.4 การเปรยบเทยบคามธยฐานกรณประชากร 2 กลม

ห�กพบว�ขอมลไมเปนไปต�มเงอนไขของสถตทดสอบ Independence t จงไมส�ม�รถใชสถตพ�ร�เมทรกซ

ได จงตองใชสถตนอนพ�ร�เมทรกซ เนองจ�กสถตดงกล�วไมมขอตกลงทเกยวกบก�รแจกแจงของประช�กรนนๆ

ดงนน นกวจยตองปรบม�ใชสถตทดสอบ Wilcoxon rank sum แทน ดวยคำ�สง wilcox.test() ในโปรแกรม R

ดงตวอย�งท 7.4

ตวอยางท 7.4 นกวจยตองก�รทร�บว�ดชนมวลก�ยระหว�งเพศช�ยและเพศหญงแตกต�งกนหรอไม

ห�กขอมลดชนมวลก�ยจ�กทงเพศช�ยหรอเพศหญงไมมก�รแจกแจงปกตจะส�ม�รถตงสมมตฐ�นไดดงน

H0: Median

male = Median

female H

a: Median

male ≠ Median

female

Page 96: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 7 สถตเชงอนมาน (Inferential Statistic) 89

เมอ Medianmale

คอ มธยฐ�นของดชนมวลก�ยของประช�กรเพศช�ย

Medianfemale

คอ มธยฐ�นของดชนมวลก�ยของประช�กรเพศหญง

ส�ม�รถทำ�ก�รวเคร�ะหไดดงน

wilcox.test(ps$bmi~ps$gender) Wilcoxon rank sum test with continuity correction data: ps$bmi by ps$gender W = 158618186, p-value < 2.2e-16 alternative hypothesis: true location shift is not equal to 0

จ�กผลลพธ พบว� p-value นอยกว�ระดบนยสำ�คญท 0.05 จงตดสนใจปฏเสธ H0 จงส�ม�รถสรปไดว�

ค�มธยฐ�นของดชนมวลก�ยของประช�กรเพศช�ยแตกต�งจ�กค�มธยฐ�นของดชนมวลก�ยของประช�กรเพศหญง

อย�งมนยสำ�คญท�งสถต

7.2.5 การเปรยบเทยบคาเฉลยกรณประชากรมากกวา 2 กลม

สำ�หรบสถตทดสอบทใชในก�รเปรยบเทยบตวแปรตอเนองในกรณทมประช�กรทตองก�รศกษ�ม�กกว�

2 กลม และมตวแปรกลม 1 ตวแปร คอ สถตทดสอบ One-way Analysis of Variance (ANOVA) สำ�หรบเงอนไข

ของ One-way ANOVA คอ ขอมลจ�กทกกลมตองมก�รแจกแจงปกตและทกกลมตองมคว�มแปรปรวน

ไมแตกต�งกน สำ�หรบคำ�สงในก�รวเคร�ะห One-way ANOVA ในโปรแกรม R คอ คำ�สง aov() และ summary()

ดงตวอย�งท 7.5

ตวอยางท 7.5 นกวจยตองก�รทร�บว�ประช�กรทมชวงอ�ยต�งกนจะมดชนมวลก�ยแตกต�งกนหรอไม

ห�กขอมลเปนไปต�มเงอนไขของ One-way ANOVA จะส�ม�รถตงสมมตฐ�นไดดงน

H0: ค�เฉลยดชนมวลก�ยจ�กประช�กรทกกลมอ�ยไมแตกต�งกน หรอ µ

1 = µ

2 = µ

3 = µ

4

Ha: มค�เฉลยดชนมวลก�ยจ�กประช�กรอย�งนอย 1 กลมอ�ย ทแตกต�งจ�กกลมอ�ยอน

ส�ม�รถทำ�ก�รวเคร�ะหไดดงน

tab1(ps$age.gr) ps$age.gr : Frequency Percent Cum. percent (35,40] 1104 3.2 3.2 (40,50] 8177 23.6 26.8 (50,60] 10920 31.5 58.3 (60,110] 14470 41.7 100.0 Total 34671 100.0 100.0summary(aov(ps$bmi~ps$age.gr)) Df Sum Sq Mean Sq F value Pr(>F) ps$age.gr 3 12535 4178 75.86 <2e-16 *** Residuals 34640 1907785 55 ---

Page 97: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

90 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1

27 observations deleted due to missingness

จ�กผลลพธ ของคำ�สง tab1 พบว�ตวแปรกลมอ�ยมทงหมด 4 กลม และเมอทำ�ก�รวเคร�ะห One-way

ANOVA พบว� p-value นอยม�กๆ (p-value < 0.001) ซงนอยกว�ระดบนยสำ�คญท 0.05 จงตดสนใจปฏเสธ

H0 และส�ม�รถสรปไดว�มค�เฉลยดชนมวลก�ยจ�กประช�กรอย�งนอย 1 กลมอ�ย ทแตกต�งจ�กกลมอ�ยอน

อย�งมนยสำ�คญท�งสถต

เมอผลก�รวเคร�ะหดวย One-way ANOVA ปฏเสธ H0 จะตองทำ�ก�รวเคร�ะหเพอตรวจสอบว�มกลมใด

แตกต�งกนบ�งดวยก�รเปรยบเทยบพห (Multiple comparison) ซงส�ม�รถทำ�ไดหล�ยวธ แตในบทนจะใชก�ร

เปรยบเทยบเพอห�คต�งดวยวธ Tukey’s Honest Significant Difference (Tukey HSD) ดวยคำ�สง TukeyHSD()

ดงน

TukeyHSD(aov(ps$bmi~ps$age.gr)) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = ps$bmi ~ ps$age.gr) $`ps$age.gr` diff lwr upr p adj (40,50]-(35,40] 0.06632329 -0.5452614 0.6779079 0.9924553 (50,60]-(35,40] 0.15203822 -0.4503447 0.7544212 0.9161426 (60,110]-(35,40] -1.10838483 -1.7039343 -0.5128353 0.0000104 (50,60]-(40,50] 0.08571493 -0.1932307 0.3646605 0.8593043 (60,110]-(40,50] -1.17470813 -1.4385729 -0.9108433 0.0000000 (60,110]-(50,60] -1.26042305 -1.5021958 -1.0186503 0.0000000

จ�กผลลพธ ข�งตนจะพบว� มจำ�นวน 3 คเปรยบเทยบทให p adj นอยกว�ระดบนยสำ�คญ 0.05 แสดงว�

คเปรยบเทยบเหล�นนมคว�มแตกต�งกนท�งสถต ในก�รสรปผลก�รวเคร�ะหจะขอยกตวอย�งเพยง 1 คเปรยบเทยบ

ทแตกต�งกนดงน กลมคนทมอ�ยม�กกว� 60 ป ถง 110 ป มค�เฉลยดชนมวลก�ยแตกต�งจ�กกลมคนทมอ�ย

ม�กกว� 35 ป ถง 40 ป อย�งมนยสำ�คญท�งสถต (p-value < 0.0001) โดยต�งกนอยท 1.1 กโลกรม

ตอเมตร2

7.2.6 การเปรยบเทยบคามธยฐานกรณประชากรมากกวา 2 กลม

ในกรณทขอมลไมสอดคลองกบเงอนไขของสถตทดสอบ One-way ANOVA นน นกวจยส�ม�รถเปลยน

ม�ใชสถตนอนพ�ร�มเตอรคอ สถตทดสอบ Kruskal-Wallis ไดโดยใชคำ�สง kruskal.test() ดงตวอย�งท 7.6

Page 98: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 7 สถตเชงอนมาน (Inferential Statistic) 91

ตวอยางท 7.6 นกวจยตองก�รทร�บว�ประช�กรทมชวงอ�ยต�งกนจะมดชนมวลก�ยแตกต�งกนหรอไม

จ�กก�รทดสอบดวยสถตทดสอบ Bartlett ดงผลลพธข�งล�งพบว�ขอมลดชนมวลก�ยของกลมอ�ยต�งๆ

มคว�มแปรปรวนแตกต�งกน (p-value < 0.001) ดงปร�กฏในผลลพธของคำ�สง bartlett.test() ซงไมเปนไปต�ม

เงอนไขของก�รใช One-way ANOVA ดงนนนกวจยจะตองทำ�วเคร�ะหดวยสถตทดสอบ Kruskal-Wallis

ซงส�ม�รถตงสมมตฐ�นไดดงน

H0: ค�มธยฐ�นของดชนมวลก�ยจ�กประช�กรทกกลมอ�ยไมแตกต�งกน

Ha: มค�มธยฐ�นของดชนมวลก�ยจ�กประช�กรอย�งนอย 1 กลมอ�ย ทแตกต�งจ�กกลมอ�ยอน

เมอทำ�ก�รวเคร�ะหดวยโปรแกรม R ไดผลลพธดงน

bartlett.test(ps$bmi~ps$age.gr) Bartlett test of homogeneity of variances data: ps$bmi by ps$age.gr Bartlett’s K-squared = 10017, df = 3, p-value < 2.2e-16kruskal.test(ps$bmi~ps$age.gr) Kruskal-Wallis rank sum test data: ps$bmi by ps$age.gr Kruskal-Wallis chi-squared = 781.94, df = 3, p-value < 2.2e-16

จ�กผลลพธ ก�รทดสอบดวยสถตทดสอบ Kruskal-Wallis พบว� p-value < 0.001 นอยกว�ระดบ

นยสำ�คญท 0.05 จงตดสนใจปฏเสธ H0 จงส�ม�รถสรปไดว�มค�มธยฐ�นของดชนมวลก�ยจ�กประช�กรอย�งนอย 1

กลมอ�ย ทแตกต�งจ�กกลมอ�ยอน อย�งมนยสำ�คญท�งสถต

7.2.7 การทดสอบความสมพนธระหวางตวแปรตอเนอง 2 ตวแปร

หวขอนจะแนะนำ�สถตทใชบอกขน�ดคว�มสมพนธเชงเสนตรงระหว�งตวแปรตอเนอง 2 ตวแปรคอ

ค�สมประสทธสหสมพนธ (correlation) และสถตทดสอบชอ Pearson’s correlation และ Spearman’s rank

correlation ในก�รทดสอบคว�มสมพนธเชงเสนตรงระหว�งตวแปรตอเนอง 2 ตวแปร เมอกำ�หนดให r และ r

แทนค�สมประสทธสหสมพนธของประช�กรและตวอย�งต�มลำ�ดบ โดย r และ r มค�ตงแต -1 ถง 1 ห�ก r และ

r มค�เท�กบ 0 แสดงว�ตวแปรทงสองไมมคว�มสมพนธเชงเสนตรงตอกน และห�กพบว�ค�สมประสทธสหสมพนธ

มค�บวกแสดงว�ทงสองตวแปรมคว�มสมพนธกนในทศท�งบวกหรอทศท�งเดยวกน แตถ�สมประสทธสหสมพนธ

มค�ลบแสดงว�ทงสองตวแปรมคว�มสมพนธกนในทศท�งลบหรอทศท�งตรงกนข�มตอกน

สำ�หรบสถตทดสอบ Pearson’s correlation จะใชไดเมอขอมลจ�กทงสองตวแปรมก�รแจกแจงปกต

รวมกน ซงเบองตนอ�จตรวจสอบว�ขอมลทงสองตวแปรมก�รแจกแจงปกตหรอไม ห�กไมกแสดงว�ขอมล

ไมเปนไปต�มเงอนไขดงกล�ว นกวจยจะตองทำ�ก�รวเคร�ะหดวยสถตทดสอบ Spearman’s rank correlation

แทน สำ�หรบคำ�สงทใชในก�รวเคร�ะห Pearson’s correlation และ Spearman’s rank correlation คอ cor.

test() เพยงแตในกรณทเปนก�รวเคร�ะหดวย Spearman’s rank correlation จะตองระบ method = “spearman”

หลงชอตวแปรททำ�ก�รวเคร�ะหดงตวอย�งท 7.7 และ 7.8 ต�มลำ�ดบ

Page 99: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

92 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ตวอยางท 7.7 นกวจยตองก�รทร�บว�อ�ยกบดชนมวลก�ยของประช�กรททำ�ก�รศกษ�มคว�มสมพนธ

กนหรอไม

ห�กพบว�ขอมลเปนไปต�มเงอนไขของสถตทดสอบ Pearson’s correlation จะส�ม�รถตงสมมตฐ�นได

ดงน

H0: อ�ยกบดชนมวลก�ยของประช�กรททำ�ก�รศกษ�ไมมคว�มสมพนธเชงเสนตรงตอกน (หรอ H

0: ρ = 0)

Ha: อ�ยกบดชนมวลก�ยของประช�กรททำ�ก�รศกษ�มคว�มสมพนธเชงเสนตรงตอกน (หรอ H

a: ρ ≠ 0)

เมอทำ�ก�รวเคร�ะหดวยโปรแกรม R ไดผลลพธดงน

cor.test(ps$bmi, ps$age) Pearson’s product-moment correlation data: ps$bmi and ps$age t = -19.263, df = 34642, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.1133511 -0.0925139 sample estimates: cor -0.1029438

จ�กผลลพธ พบว� p-value < 0.001 นอยกว�ระดบนยสำ�คญท 0.05 จงตดสนใจปฏเสธ H0 จงส�ม�รถ

สรปไดว�อ�ยกบดชนมวลก�ยของประช�กรททำ�ก�รศกษ�มคว�มสมพนธเชงเสนตรงตอกนในทศท�งตรงกนข�ม

อย�งมนยสำ�คญท�งสถต ดวยขน�ดคว�มสมพนธเท�กบ -0.10 ดวยชวงคว�มเชอมนรอยละ 95 ตงแต -0.11 ถง

-0.09

ตวอยางท 7.8 นกวจยตองก�รทร�บว�อ�ยกบดชนมวลก�ยของประช�กรททำ�ก�รศกษ�มคว�มสมพนธ

กนหรอไม

ห�กพบว�ขอมลไมเปนไปต�มเงอนไขของสถตทดสอบ Pearson’s correlation จะส�ม�รถตงสมมตฐ�น

ไดดงน

H0: อ�ยกบดชนมวลก�ยของประช�กรททำ�ก�รศกษ�ไมมคว�มสมพนธเชงเสนตรงตอกน (หรอ H

0: ρ = 0)

Ha: อ�ยกบดชนมวลก�ยของประช�กรททำ�ก�รศกษ�มคว�มสมพนธเชงเสนตรงตอกน (หรอ H

a: ρ ≠ 0)

เมอทำ�ก�รวเคร�ะหดวยโปรแกรม R ไดผลลพธดงน

cor.test(ps$bmi, ps$age, method = “spearman”)

Warning in cor.test.default(ps$bmi, ps$age, method = “spearman”): Cannot compute

exact p-value with ties

Spearman’s rank correlation rho

Page 100: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 7 สถตเชงอนมาน (Inferential Statistic) 93

data: ps$bmi and ps$age S = 8.0845e+12, p-value < 2.2e-16 alternative hypothesis: true rho is not equal to 0 sample estimates: rho

-0.1666023

จ�กผลลพธ พบว� p-value นอยกว�ระดบนยสำ�คญท 0.05 จงตดสนใจปฏเสธ H0 จงส�ม�รถสรปไดว�

อ�ยกบดชนมวลก�ยของประช�กรททำ�ก�รศกษ�มคว�มสมพนธเชงลบตอกน อย�งมนยสำ�คญท�งสถต ดวยขน�ด

คว�มสมพนธเท�กบ -0.16

7.2.8 การเปรยบเทยบคาสดสวนกรณประชากรกลมเดยว

เมอตองก�รเปรยบค�สดสวนของตวแปรแจงนบจ�กประช�กรกลมเดยวกบเกณฑส�ม�รถทำ�ไดโดยใชสถต

ทดสอบ Z ดวยคำ�สง prop.test() ในโปรแกรม R ดงตวอย�งท 7.9

ตวอยางท 7.9 นกวจยตองก�รทร�บว�ในประช�กรททำ�ก�รศกษ�มคนเปนโรคเบ�หว�นม�กกว�รอยละ 10

หรอไม

ส�ม�รถตงสมมตฐ�นไดดงน

H0: สดสวนก�รเปนโรคเบ�หว�นในประช�กรไมเกน 0.1

Ha: สดสวนก�รเปนโรคเบ�หว�นในประช�กรม�กกว� 0.1

เมอทำ�ก�รวเคร�ะหดวยโปรแกรม R ไดผลลพธดงน

table(ps$dm) DM normal 4051 28050length(ps$dm) [1] 34671prop.test(x=4051, n= 34671,p = 0.1, alternative = “greater”) 1-sample proportions test with continuity correction data: 4051 out of 34671, null probability 0.1 X-squared = 109.07, df = 1, p-value < 2.2e-16 alternative hypothesis: true p is greater than 0.1 95 percent confidence interval: 0.1140191 1.0000000 sample estimates: p 0.1168412

Page 101: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

94 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

จ�กผลลพธของคำ�สง table() จะเหนว�ตวแปร dm มจำ�นวน 3 กลมคอ DM NA และ normal โดยมคน

เปนเบ�หว�น 4,051 คน จ�กทงหมด 34,671 คน เมอทำ�ก�รวเคร�ะหดวยคำ�สง prop.test() พบว�สดสวนก�ร

เปนโรคเบ�หว�นในตวอย�งเท�กบ 0.1168 หรอรอยละ 11.68 เมอทำ�ก�รทดสอบในประช�กรพบว�สดสวนก�ร

เปนโรคเบ�หว�นในประช�กรม�กกว�รอยละ 10 (หรอสดสวน 0.1) อย�งมนยสำ�คญท�งสถต (p-value < 0.001)

7.2.9 การเปรยบเทยบคาสดสวนกรณประชากร 2 กลม

เมอตองก�รเปรยบเทยบค�สดสวนของตวแปรแจงนบจ�กประช�กร 2 กลม ส�ม�รถทำ�ไดโดยใชสถต

ทดสอบ Z ดวยคำ�สง prop.test() ในโปรแกรม R ดงตวอย�งท 7.10

ตวอยางท 7.10 นกวจยตองก�รทร�บว�ในประช�กรททำ�ก�รศกษ� เพศช�ยและเพศหญงมคนเปน

โรคเบ�หว�นแตกต�งกนหรอไม

สามารถตงสมมตฐานไดดงน

H0: สดสวนก�รเปนโรคเบ�หว�นในประช�กรเพศช�ยและเพศหญงไมแตกต�งกน

Ha: สดสวนก�รเปนโรคเบ�หว�นในประช�กรเพศช�ยและเพศหญงแตกต�งกน

เมอทำ�ก�รวเคร�ะหดวยโปรแกรม R ไดผลลพธดงน

dat <- ps[ps$dm != “NA”, c(“gender”,”dm”)] tabpct(dat$gender, dat$dm, percent = “row”) Row percent dat$dm dat$gender DM normal Total female 2296 14999 17295 (13.3) (86.7) (100) male 1755 13051 14806 (11.9) (88.1) (100)prop.test(x=c(2296, 1755), n= c(17295, 14806)) 2-sample test for equality of proportions with continuity correction data: c(2296, 1755) out of c(17295, 14806) X-squared = 14.504, df = 1, p-value = 0.0001399 alternative hypothesis: two.sided 95 percent confidence interval: 0.006901282 0.021542927 sample estimates: prop 1 prop 2 0.1327551 0.1185330

จ�กผลลพธ เปนสร�งกรอบขอมล (data frame) ใหมชอ dat ซงมแค 2 ตวแปรคอ ตวแปร gender และ

dm และไมเอ�กลม NA ในตวแปร dm และทำ�ก�รวเคร�ะหดวยคำ�สง tabpct() พบว�เพศหญงเปนโรคเบ�หว�น

จำ�นวน 2,296 คน จ�ก 17,295 คน และเพศช�ยเปนโรคนจำ�นวน 1,755 คน จ�ก 14,806 คน เมอทำ�ก�รวเคร�ะห

Page 102: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 7 สถตเชงอนมาน (Inferential Statistic) 95

เพอตอบโจทยดวยคำ�สง prop.test() พบว� สดสวนก�รเปนโรคเบ�หว�นในประช�กรเพศช�ยและเพศหญง

แตกต�งกน อย�งมนยสำ�คญท�งสถต (p-value = 0.001)

7.2.10 การทดสอบความสมพนธระหวางตวแปรกลม 2 ตวแปร

7.2.10.1 ก�รทดสอบไควสแควร (Chi-squared test)

ก�รทดสอบคว�มสมพนธระหว�งตวแปรกลม 2 ตวแปร ส�ม�รถทำ�ไดโดยใชสถตทดสอบ Chi-squared

หรอ Fisher’s exact โดยสถตทดสอบ Chi-squared โดยจะใชเมอมตวอย�งขน�ดใหญเพยงพอ หรอพจ�รณ�

จ�กคว�มถค�ค�ดหม�ย (expected value) ไมควรตำ�กว� 5 หรอคว�มถค�ดหวงทมค�นอยกว� 5 ตองไมเกน

รอยละ 20 ของจำ�นวนเซลลทงหมดในต�ร�งสองท�งทสร�งจ�กตวแปรทงสอง นนคอขอตกลงทจะใชสถตทดสอบ

Chi-squared ได ห�กค�คว�มถค�ดหม�ย (expected value) นอยกว� 5 นอยกว�รอยละ 20 ของจำ�นวนเซลล

ทงหมดในต�ร�งดงกล�ว จะตองทำ�ก�รวเคร�ะหดวยสถตทดสอบ Fisher’s exact สำ�หรบคำ�สงทใชในก�รห�

ค�คว�มถค�ดหม�ย คอ chisq.test()$expected สวนคำ�สง chisq.test() ใชในก�รวเคร�ะห Chi-squared

ดงตวอย�งท 7.11 และ คำ�สง fisher.test() จะใชในก�รวเคร�ะห Fisher’s exact

ตวอยางท 7.11 นกวจยตองก�รทร�บว�เพศกบก�รเปนโรคเบ�หว�นในประช�กรททำ�ก�รศกษ�

มคว�มสมพนธกนหรอไม

ส�ม�รถตงสมมตฐ�นไดดงน

H0: เพศกบก�รเปนโรคเบ�หว�นในประช�กรททำ�ก�รศกษ�ไมมคว�มสมพนธกน

Ha: เพศกบก�รเปนโรคเบ�หว�นในประช�กรททำ�ก�รศกษ�มคว�มสมพนธกน

เมอทำ�ก�รวเคร�ะหดวยโปรแกรม R ไดผลลพธดงน

chisq.test(table(dat))$expected dm gender DM normal female 2182.55 15112.45 male 1868.45 12937.55chisq.test(table(dat)) Pearson’s Chi-squared test with Yates’ continuity correction data: table(dat)

X-squared = 14.504, df = 1, p-value = 0.0001399

จ�กผลลพธ เมอทำ�ก�รห�ค�คว�มถค�ดหม�ยพบว�ค�คว�มถค�ดหม�ยม�กกว� 5 ทง 4 เซลล

จงทำ�ก�รวเคร�ะหดวยสถตทดสอบ Chi-squared ได p-value = 0.001 จงตดสนใจปฏเสธ H0 สรปไดว�เพศ

กบก�รเปนโรคเบ�หว�นในประช�กรททำ�ก�รศกษ�มคว�มสมพนธกนอย�งมนยสำ�คญท�งสถต ณ ระดบนยสำ�คญ

0.05

7.2.10.2 ก�รทดสอบอตร�สวนเสยง (Risk ratio)

อตร�สวนเสยง (Risk ratio) หรอคว�มเสยงสมพทธ (Relative risk) เรยกยอว� RR เปนก�รห�อตร�สวน

ระหว�งอบตก�รณของก�รเกดเหตก�รณทสนใจ ในกลมทไดรบปจจยเสยงตอก�รเกดอบตก�รณของกลมทไมได

Page 103: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

96 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

รบปจจยเสยง ซงเปนตวบงบอกว�กลมทไดรบปจจยเสยงมโอก�สเกดเหตก�รณทสนใจเปนกเท�ของกลมทไมได

รบปจจยเสยง โดยคว�มถระหว�งปจจยเสยงและผล ดงแสดงในต�ร�งท 7.1

ตวอยางท 7.12 นกวจยตองก�รทร�บว�ผมดชนมวลก�ยเกนเกณฑม�ตรฐ�น (bmigr: obesity)

จะมคว�มเสยงตอก�รเปนโรคเบ�หว�นหรอไม

#RR : Risk ratio table(ps$dm) DM normal 4051 28050table(ps$bmigr) normal obesity 33366 1278ps$bmigr <- relevel(ps$bmigr, ref = “obesity”) dat <- ps[ps$dm != “NA”, c(“bmigr”,”dm”)] tabpct(dat$bmigr, dat$dm, percent = “row”) Row percent dat$dm dat$bmigr DM normal Total obesity 257 968 1225 (21) (79) (100) normal 3792 27070 30862 (12.3) (87.7) (100)csi(257,968,3792,27070) Exposure Outcome Non-exposed Exposed Total Negative 27070 968 28038 Positive 3792 257 4049 Total 30862 1225 32087 Rne Re Rt Risk 0.12 0.21 0.13

ตารางท 7.1 คว�มถระหว�งปจจยเสยงและผล

a b

c d

Disease + Disease -

Exposure -

Exposure +

Page 104: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 7 สถตเชงอนมาน (Inferential Statistic) 97

Estimate Lower95ci Upper95ci Risk difference (attributable risk) 0.09 0.07 0.1 Risk ratio 1.71 1.52 1.92 Attr. frac. exp. -- (Re-Rne)/Re 0.41 Attr. frac. pop. -- (Rt-Rne)/Rt*100 % 2.63 Number needed to harm (NNH) 11.5 9.55 14.96 or 1/(risk difference)

จ�กก�รวเคร�ะหขอมล ผวจยไดกำ�หนดใหกลมทสนใจศกษ�เปนกลมทมดชนมวลก�ยเกน เปนกลมอ�งอง

โดยก�รใชคำ�สง relavel() จ�กนนห�คว�มถเพอคำ�นวณค� RR โดยใชคำ�สง csi() ซงใชในกรณทเปนค�คว�มถ

2 x 2 เท�นน แตห�กขอมลทระบเปนร�ยคน ส�ม�รถคำ�นวณโดยใชคำ�สง cs() ซงอยในไลบร�ร epiDisplay เชน

กน ผลก�รคำ�นวณมค� RR เท�กบ 1.71 และมชวงคว�มเชอมนเท�กบ 1.52 – 1.92 โดยชวงคว�มเชอมนของค�

RR ไมครอม 1 จงสรปไดว� กลมทมดชนมวลก�ยอยในภ�วะอวนมคว�มเสยงตอก�รเปนโรคเบ�หว�นสงกว�กลม

ปกตเปน 1.71 เท�

7.2.10.2 ก�รห�อตร�สวนออดส (Odds ratio)

อตร�สวนออดส (Odds ratio) เรยกยอว� OR คำ�นวณจ�กอตร�สวนคว�มน�จะเปน 2 ค� คอ คว�ม

น�จะเปนของก�รเกดเหตก�รณทสนใจตอคว�มน�จะเปนของก�รเกดเหตก�รณทไมสนใจ

ตวอยางท 17.13 ผวจยตองก�รห�คว�มสมพนธระหว�งก�รสบบหรและก�รปวยเปนโรคคว�มดน

โลหตสง จงทำ�ก�รทดสอบคว�มสมพนธดงน

#OR ps$smoke <- factor(ps$smoke, levels = c(“no”,”rarely”,”regular”,”sometime”), labels = c(“no”,”yes”, “yes”,”yes”)) ps$smoke <- relevel(ps$smoke, ref = “yes”) ps$rbp <- relevel(ps$rbp, ref = “abnormal”) dat <- ps[ps$rbp != “NA”, c(“smoke”,”rbp”)] tabpct(dat$smoke, dat$rbp, percent = “row”) Row percent dat$rbp dat$smoke abnormal normal Total yes 85 275 360 (23.6) (76.4) (100) no 354 1474 1828 (19.4) (80.6) (100)cc(dat$smoke, dat$rbp) dat$rbp

Page 105: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

98 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

dat$smoke abnormal normal Total yes 85 275 360 no 354 1474 1828 Total 439 1749 2188 OR = 1.29 95% CI = 0.98, 1.69 Chi-squared = 3.38, 1 d.f., P value = 0.066 Fisher’s exact test (2-sided) P value = 0.072

จ�กผลก�รคำ�นวณค� OR โดยใชคำ�สง cc() ในกรณทขอมลเปนคว�มถแลวนน พบว� ค� OR มค�เท�กบ

1.29 และค�ชวงคว�มเชอมนเท�กบ 0.98 – 1.69 ซงส�ม�รถสรปไดว� คนทสบบหรมโอก�สเปนโรคคว�มดน

โลหตสงเปน 1.29 เท�เมอเทยบกบคนทไมสบบหร แตอย�งไรกต�ม พบว�คว�มดนโลหตสงและก�รสบบหรไมม

นยสำ�คญท�งสถตท 0.05

7.3 แบบฝกหดทายบท

1. ใหทำ�ก�รทดสอบสมมตฐ�นว�ดชนมวลก�ย (bmi) ในผปวยทเปนโรคเบ�หว�นและไมมโรคเบ�หว�น

(dm) แตกต�งกนหรอไม โดยใหทำ�ก�รเขยนวธก�รและสมมตฐ�นทใช พรอมทงอธบ�ยวธก�รวเคร�ะหอย�ง

ละเอยด

2. ใหทำ�ก�รทดสอบสมมตฐ�นว�นำ�หนกตว (weight) ในทกสถ�นภ�พสมรส (mstatus) แตกต�งกน

หรอไม โดยใหทำ�ก�รเขยนวธก�รและสมมตฐ�นทใช พรอมทงอธบ�ยวธก�รวเคร�ะหอย�งละเอยด

7.4 บรรณานกรม

1. เชษฐ� ง�มจรส. ชวสถตและก�รวเคร�ะหขอมลดวย R. ครงท 2. ขอนแกน: โรงพมพ มห�วทย�ลย

ขอนแกน; 2553.

2. R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria:

R Foundation for Statistical Computing; 2019.

Page 106: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis) 99

บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis)

Page 107: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

100 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

การวเคราะหการถดถอยเชงเสน (Linear regression analysis)รศ.ดร.อภรด แซลมE-mail: [email protected]

8 บทท

ก�รถดถอยเชงเสน (Linear regression) เปนก�รศกษ�คว�มสมพนธระหว�งตวแปรต�มทเปนตวแปร

แบบตอเนอง กบตวแปรอสระ (หรอตวแปรตน) หนงตวหรอม�กกว�หนงตวขนไป โดยตวแปรอสระส�ม�รถเปน

ไดทงตวแปรแบบตอเนองหรอกลม หรออกนยหนงก�รถดถอยเชงเสน เปนก�รทำ�น�ยค�ของตวแปรต�มจ�กค�

ของตวแปรอสระ ห�กตวแบบก�รถดถอยเชงเสนทสร�งขนมตวแปรอสระเพยงตวเดยว เรยกตวแบบก�รถดถอย

นนว� ก�รถดถอยเชงเสนอย�งง�ย (Simple linear regression) และห�กตวแบบก�รถดถอยเชงเสนทสร�งขนม

ตวแปรอสระตงแตสองตวแปรขนไป เรยกตวแบบก�รถดถอยนนว� ก�รถดถอยเชงเสนพหคณ (Multiple linear

regression)

Page 108: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis) 101

8.1 การสรางแผนภาพแสดงความสมพนธ

กอนก�รสร�งตวแบบก�รถดถอยเชงเสน ควรมก�รสำ�รวจคว�มสมพนธระหว�งตวแปรต�มกบตวแปรอสระ

ทละตวในเบองตนกอน

8.1.1 แผนภาพการกระจาย (Scatter plot)

ห�กตวแปรอสระเปนตวแปรแบบตอเนอง ก�รสำ�รวจคว�มสมพนธไดจ�กก�รสร�งแผนภ�พก�รกระจ�ย

(Scatter plot) ซงเปนวธก�รนำ�เอ�ค�ของขอมลในตวแปรต�ม และตวแปรอสระ โดยทงสองตวแปรนเปนตวแปร

แบบตอเนอง ม�ลงตำ�แหนงบนกร�ฟทนำ�เสนอเปนจด เพอแสดงใหเหนถงคว�มสมพนธระหว�งสองตวแปรน โดย

ค�จ�กตวแปรอสระกำ�หนดใหอยบนแกน X (ในแนวนอน) สวนค�จ�กตวแปรต�มกำ�หนดใหอยบนแกน Y (ในแนว

ตง) คว�มสมพนธอ�จเปนเชงบวก หรอเชงลบ หรอไมมคว�มสมพนธกนกได ก�รสร�งแผนภ�พก�รกระจ�ย

เปนวธก�รททำ�ใหเหนภ�พคว�มสมพนธระหว�งตวแปรอสระและตวแปรต�มในเบองตน กอนก�รดำ�เนนก�ร

วเคร�ะหก�รถดถอยเชงเสน

8.1.2 แผนภาพกลอง (Boxplot)

ห�กตวแปรอสระเปนตวแปรแบบกลม ก�รสำ�รวจคว�มสมพนธไดจ�กก�รสร�งแผนภ�พกลอง โดยจำ�นวน

ของกลองเท�กบจำ�นวนกลมทมในตวแปรอสระนนๆ แผนภ�พกลองส�ม�รถนำ�เสนอไดทงในแนวนอนและแนวตง

ขอมลทใชเปนตวอย�งในบทนคอ ขอมล blevel.csv จำ�นวน 34,671 แถว จำ�นวนตวแปร 9 ตวแปร

โดยดงม�เฉพ�ะตวแปรทจะใชง�นจ�กขอมล psncd ดงร�ยละเอยดคำ�อธบ�ยชดขอมลในต�ร�งท 1

ตารางท 8.1 คำ�อธบ�ยตวแปร และค�ตวแปรของขอมลผเข�รบบรก�รตรวจคดกรองสขภ�พเกยวกบ

โรคเรอรงไมตดตอ

ตวแปร คำาอธบายตวแปร คำาอธบายคาตวแปร

id รหส

gender เพศ 1 = ช�ย 2 = หญง

age อ�ย (ป)

mstatus สถ�นภ�พสมรส 1 = โสด 2 = แตงง�น

3 = หม�ย/หย�ร�ง/อน ๆ

edu ระดบก�รศกษ� 1 = ไมไดเรยน

2 = ประถมศกษ�หรอตำ�กว�

3 = มธยมศกษ�

4 = ปวช/ปวส

5 = ปรญญ�ตรหรอสงกว�

bmi ดชนมวลก�ย

sbp คว�มดนโลหตซสโตลก (mmHg)

dbp คว�มดนโลหตไอแอสโตลก (mmHg)

bslevel ระดบนำ�ต�ลในเลอด (mg/dL)

Page 109: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

102 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

แสดงก�รวเคร�ะหขอมลดงน

เปดไลบร�ร epiDisplay

library(epiDisplay)ตงค� working directorysetwd(“D:\\ncddata”)ตงค�ให R อ�นภ�ษ�ไทยไดSys.setlocale(locale=”Thai”) [1] “LC_COLLATE=Thai_Thailand.874;LC_CTYPE=Thai_Thailand.874;LC_MONETARY=Thai_Thailand.874;LC_NUMERIC=C;LC_TIME=Thai_Thailand.874”เปดอ�นไฟล bslevel.csvbs <- read.csv(“blevel.csv”) des(bs) No. of observations = 34671 Variable Class Description 1 id integer 2 gender factor 3 age numeric 4 mstatus factor 5 edu factor 6 bmi numeric 7 sbp numeric 8 dbp numeric

9 bslevel integer

8.2 วเคราะหสถตเชงพรรณนาเบองตน

8.2.1 คำ�นวณค�เฉลย สวนเบยงเบนม�ตรฐ�น สำ�หรบตวแปรตอเนอง จำ�นวนและรอยละสำ�หรบตวแปรกลม

codebook(bs[,c(2:9)]) gender : Frequency Percent female 18611 53.7 male 16060 46.3 ================== age : obs. mean median s.d. min. max. 34671 58.674 57.492 12.453 38.031 103.001 ================== mstatus : Frequency Percent

Page 110: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis) 103

Married 22470 66.30 Single 9221 27.21 Widowes/divoced 2200 6.49 ================== edu : Frequency Percent Bachelor/higher 690 3.48 Colledge 945 4.76 Illiterate 1320 6.65 Mathayom 3901 19.65 Pathom 12996 65.46 ================== bmi : obs. mean median s.d. min. max. 34623 22.775 22.432 3.616 5.933 64.516 ================== sbp : obs. mean median s.d. min. max. 34516 122.089 120 14.787 81 254 ================== dbp : obs. mean median s.d. min. max. 34440 75.441 75 9.642 41 158 ================== bslevel : obs. mean median s.d. min. max. 32101 89.9 88 17.325 10 350

8.2.2 คำ�นวณค�ท�งสถตในภ�พรวม เพอแสดงจำ�นวนชดขอมลทมอยในแตละตวแปร

summ(bs) No. of observations = 34671 Var. name obs. mean median s.d. min. max. 1 id 34671 17336 17336 10008.8 1 34671 2 gender 34671 1.463 1 0.499 1 2 3 age 34671 58.67 57.49 12.45 38.03 103 4 mstatus 33891 1.402 1 0.608 1 3

Page 111: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

104 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

5 edu 19852 4.389 5 1.036 1 5 6 bmi 34623 22.77 22.43 3.62 5.93 64.52 7 sbp 34516 122.09 120 14.79 81 254 8 dbp 34440 75.44 75 9.64 41 158 9 bslevel 32101 89.9 88 17.33 10 350

8.2.3 จดกลมตวแปร edu กลมทเปน missing ใหเปนกลม unknown

bs$edu <- ifelse(is.na(bs$edu),”Unknown”,as.character(bs$edu)) bs$edu <- factor(bs$edu) tab1(bs$edu)

bs$edu : Frequency Percent Cum. percent Bachelor/higher 690 2.0 2.0 Colledge 945 2.7 4.7 Illiterate 1320 3.8 8.5 Mathayom 3901 11.3 19.8 Pathom 12996 37.5 57.3 Unknown 14819 42.7 100.0 Total 34671 100.0 100.0

8.2.4. เลอกเฉพ�ะผเข�รบบรก�รตรวจสขภ�พทมผลระดบนำ�ต�ลในเลอด

bs <- bs[!is.na(bs$bslevel),] summ(bs) No. of observations = 32101

Page 112: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis) 105

Var. name obs. mean median s.d. min. max. 1 id 32101 17555.39 17677 10007.65 1 34671 2 gender 32101 1.461 1 0.499 1 2 3 age 32101 58.77 57.57 12.43 38.03 103 4 mstatus 31396 1.403 1 0.608 1 3 5 edu 32101 5.094 5 1.109 1 6 6 bmi 32068 22.82 22.48 3.63 5.93 55.4 7 sbp 31962 122.24 120 14.94 81 242.5 8 dbp 31890 75.45 75 9.72 41 158 9 bslevel 32101 89.9 88 17.33 10 350

ผลก�รวเคร�ะหขอมลเบองตน พบว� ผเข�รบบรก�รเปนเพศหญง รอยละ 53.7 มอ�ยเฉลย 57.5 ป (SD

12.5 ป) สวนใหญสถ�นภ�พแตงง�นแลว รอยละ 66.3 จบก�รศกษ�ในระดบประถมศกษ�หรอตำ�กว� รอยละ

65.5 มดชนมวลก�รเฉลย 22.8 (SD 3.6) คว�มดนโลหตซสโตลกเฉลย 122.1 mmHg (SD 14.8 mmHg) คว�ม

ดนโลหตไดแอสโตลกเฉลย 75.4 mmHg (SD 9.6 mmHg) มระดบนำ�ต�ลในเลอดเฉลย 89.9 mg/dL (SD 17.3

mg/dL)

ทำ�ก�รสำ�รวจคว�มสมพนธระหว�งตวแปรต�มและตวแปรอสระในเบองตน โดยตวแปรแบบตอเนอง

ประกอบดวย อ�ย ดชนมวลก�ย คว�มดนซสโตลก คว�มดนไอแอสโตลก และระดบนำ�ต�ลในเลอด สำ�หรบในบทน

คำ�ถ�มในก�รวจย คอ มปจจยใดบ�งทมคว�มสมพนธหรอมอทธพลตอระดบนำ�ต�ลในเลอด ดงนน ตวแปร

ทกำ�หนดใหเปนตวแปรต�ม คอ ระดบนำ�ต�ลในเลอด สวนตวแปรอนๆ ทเหลอเปนตวแปรอสระ

8.2.5 สร�งแผนภ�พก�รกระจ�ยเพอสำ�รวจคว�มสมพนธระหว�งตวแปรต�มและตวแปรอสระทเปน

ตวแปรตอเนอง

plot(bs$age,bs$bslevel)

Page 113: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

106 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

8.2.6 สร�งแผนภ�พก�รกระจ�ยเมทรกซเพอสำ�รวจคว�มสมพนธระหว�งตวแปรต�มและตวแปรอสระ

ทเปนตวแปรตอเนองเปนคทละหล�ยค

pairs(bs[,c(9,3,6:8)])

8.2.7 สร�งแผนภ�พกลองแสดงคว�มสมพนธระหว�ตวแปรต�มและตวแปรอสระทเปนตวแปรแบบกลม

boxplot(bs$bslevel~bs$gender)

Page 114: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis) 107

boxplot(bs$bslevel~bs$edu)

boxplot(bs$bslevel~bs$mstatus)

จ�กแผนภ�พก�รกระจ�ยแสดงคว�มสมพนธระหว�งระดบนำ�ต�ลในเลอดและอ�ย พบว�ลกษณะกร�ฟ

มแนวโนมใหเหนคว�มสมพนธในเชงบวก นนคอ เมออ�ยเพมขน ระดบนำ�ต�ลในเลอดเพมขนดวยเชนเดยวกน แต

อย�งไรกต�ม ไมส�ม�รถสรปไดว�มคว�มสมพนธกนอย�งมนยสำ�คญหรอไม จนกว�จะมก�รทดสอบคว�มสมพนธ

ท�งสถตดวยก�รถดถอยเชงเสน

สวนแผนภ�พก�รกระจ�ยเมทรกซ เปนแผนภ�พแสดงคว�มสมพนธระหว�งตวแปรตอเนองสองตวแปร

ทละคจนครบจำ�นวนก�รจบคทเปนไปได สำ�หรบแผนภ�พกระจ�ยเมทรกซข�งตน ใหพจ�รณ�เฉพ�ะแผนภ�พ

ก�รกระจ�ยในแถวแรกสด ทงน แผนภ�พดงกล�ว มตวแปรระดบนำ�ต�ลในเลอดอยในแกน Y สวนตวแปรอ�ย

ดชนมวลก�ย คว�มดนโลหตซสโตลก และคว�มดนไดแอสโตลกอยในแกน X แผนภ�พคแรก คอ ระหว�งระดบ

นำ�ต�ลในเลอดและอ�ย ซงไดอธบ�ยไปแลว แผนภ�พถดม� คอ แผนภ�พระหว�งระดบนำ�ต�ลในเลอดและดชน

มวลก�ย แผนภ�พทส�ม คอ แผนภ�พระหว�งระดบนำ�ต�ลในเลอดและคว�มดนซสโตลก และแผนภ�พสดท�ย

Page 115: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

108 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ในแถวแรก คอ ระดบนำ�ต�ลในเลอดและคว�มดนไอแอสโตลก จะเหนไดว�คว�มสมพนธระหว�งระดบนำ�ต�ล

ในเลอด และดชนมวลก�ย คว�มดนโลหตซสโตลก คว�มดนโลหตไดแอสโตลก มคว�มสมพนธเชงบวกจงตองม

ก�รทดสอบท�งสถตในขนถดไป

ในสวนของคว�มสมพนธระหว�งระดบนำ�ต�ลในเลอดกบตวแปรอสระแบบกลม จ�กแผนภ�พกลอง

พบว�เสนมธยฐ�นทอยกล�งกลองในแตละกลมใกลเคยงกน ทำ�ใหมแนวโนมไมมคว�มสมพนธกน หรอมคว�ม

สมพนธกนนอย

8.3 การถดถอยเชงเสนอยางงาย (Simple linear regression)

ก�รวเคร�ะหก�รถดถอยเชงเสนอย�งง�ย เปนก�รศกษ�คว�มสมพนธระหว�งตวแปรต�มทเปนตวแปร

แบบตอเนองกบตวแปรอสระหนงตว หรอก�รทำ�น�ยค�ของตวแปรต�ม โดยอ�ศยค�จ�กตวแปรอสระหนงตว

สมก�รถดถอยเชงเสนอย�งง�ย คอ

โดยท ί แทนค�ของตวแปรอสระ χi และตวแปรต�ม y

i แตละค (χ

i,y

i) สวน β

0 และ β

1 เรยกว�

สมประสทธก�รถดถอยเมอ β0 คอ จดตดบนแกน Y (Intercept) และ β

1 คอ คว�มชน (Slope) และ ε

i คอ คว�ม

ผดพล�ดหรอคว�มคล�ดเคลอน (Error)

ขนตอนถดไปหลงจ�กก�รสำ�รวจคว�มสมพนธเบองตนดวยก�รสร�งแผนภ�พ คอ ก�รวเคร�ะหตวแปรเดยว

(Univariate analysis) นนกคอ ก�รห�คว�มสมพนธระหว�งตวแปรต�มกบตวแปรอสระทละหนงตว เปนค

จนครบต�มจำ�นวนตวแปรอสระทมอย โดยในขนตอนนเปนก�รสำ�รวจตวแปรอสระทมคว�มสมพนธกบตวแปร

ต�มอย�งมนยสำ�คญท�งสถต เพอประโยชนในก�รคดเลอกตวแปรอสระม�สร�งตวแบบหล�ยตวแปร สำ�หรบก�ร

วเคร�ะหหล�ยตวแปร (Multivariate analysis) ในขนถดไป

8.3.1 การวเคราะหการถดถอยเชงเสนอยางงาย

m1 <- lm(data=bs,bslevel~age) summary(m1) Call: lm(formula = bslevel ~ age, data = bs) Residuals: Min 1Q Median 3Q Max -80.073 -9.113 -1.923 5.940 259.928 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 87.001590 0.467018 186.292 < 2e-16 *** age 0.049325 0.007775 6.344 2.26e-10 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1

Page 116: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis) 109

Residual standard error: 17.31 on 32099 degrees of freedom Multiple R-squared: 0.001252, Adjusted R-squared: 0.001221 F-statistic: 40.25 on 1 and 32099 DF, p-value: 2.263e-10

m2 <- lm(data=bs,bslevel~gender) summary(m2) Call: lm(formula = bslevel ~ gender, data = bs) Residuals: Min 1Q Median 3Q Max -80.091 -9.091 -1.678 5.909 259.909 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 90.0905 0.1317 683.892 <2e-16 *** gendermale -0.4122 0.1940 -2.125 0.0336 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1 Residual standard error: 17.32 on 32099 degrees of freedom Multiple R-squared: 0.0001407, Adjusted R-squared: 0.0001095 F-statistic: 4.517 on 1 and 32099 DF, p-value: 0.03357m3 <- lm(data=bs,bslevel~edu) summary(m3) Call: lm(formula = bslevel ~ edu, data = bs) Residuals: Min 1Q Median 3Q Max -79.414 -9.414 -1.960 6.040 260.586 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 90.05107 0.70268 128.154 <2e-16 *** eduColledge 0.56587 0.92272 0.613 0.5397 eduIlliterate -0.96458 0.86060 -1.121 0.2624 eduMathayom 1.61394 0.75916 2.126 0.0335 * eduPathom -0.09098 0.72052 -0.126 0.8995 eduUnknown -0.63705 0.71774 -0.888 0.3748 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1

Page 117: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

110 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

Residual standard error: 17.31 on 32095 degrees of freedom Multiple R-squared: 0.001651, Adjusted R-squared: 0.001495 F-statistic: 10.62 on 5 and 32095 DF, p-value: 3.307e-10

m4 <- lm(data=bs,bslevel~mstatus) summary(m4) Call: lm(formula = bslevel ~ mstatus, data = bs) Residuals: Min 1Q Median 3Q Max -80.364 -8.631 -1.631 5.636 259.636 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 90.3644 0.1201 752.441 < 2e-16 *** mstatusSingle -1.7336 0.2219 -7.813 5.77e-15 *** mstatusWidowes/divoced 0.2544 0.4034 0.631 0.528 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1 Residual standard error: 17.31 on 31393 degrees of freedom (705 observations deleted due to missingness) Multiple R-squared: 0.002057, Adjusted R-squared: 0.001993 F-statistic: 32.35 on 2 and 31393 DF, p-value: 9.205e-15m5 <- lm(data=bs,bslevel~bmi) summary(m5) Call: lm(formula = bslevel ~ bmi, data = bs) Residuals: Min 1Q Median 3Q Max -79.757 -8.920 -1.860 5.889 259.073 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 79.91334 0.61390 130.17 <2e-16 *** bmi 0.43785 0.02657 16.48 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1

Page 118: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis) 111

Residual standard error: 17.25 on 32066 degrees of freedom (33 observations deleted due to missingness) Multiple R-squared: 0.008396, Adjusted R-squared: 0.008365 F-statistic: 271.5 on 1 and 32066 DF, p-value: < 2.2e-16

m6 <- lm(data=bs,bslevel~sbp) summary(m6) Call: lm(formula = bslevel ~ sbp, data = bs) Residuals: Min 1Q Median 3Q Max -81.408 -8.666 -1.821 5.702 254.087 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 65.947995 0.788294 83.66 <2e-16 *** sbp 0.195848 0.006401 30.59 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1 Residual standard error: 17.09 on 31960 degrees of freedom (139 observations deleted due to missingness) Multiple R-squared: 0.02845, Adjusted R-squared: 0.02842 F-statistic: 936 on 1 and 31960 DF, p-value: < 2.2e-16m7 <- lm(data=bs,bslevel~dbp) summary(m7) Call: lm(formula = bslevel ~ dbp, data = bs) Residuals: Min 1Q Median 3Q Max -80.718 -8.907 -1.907 5.904 256.746 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 76.229467 0.756687 100.74 <2e-16 *** dbp 0.181109 0.009947 18.21 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1

Page 119: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

112 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

Residual standard error: 17.26 on 31888 degrees of freedom (211 observations deleted due to missingness) Multiple R-squared: 0.01029, Adjusted R-squared: 0.01026 F-statistic: 331.5 on 1 and 31888 DF, p-value: < 2.2e-16

8.3.2 การตรวจสอบขอตกลง (Assumption)

กอนทจะทำ�ก�รสรปผลก�รวเคร�ะหขอมล จำ�เปนตองมก�รตรวจสอบขอตกลง (Assumption) กอนเสมอ

ทงน ก�รวเคร�ะหก�รถดถอยเชงเสน มขอตกลงในก�รวเคร�ะห คอ 1) คว�มคล�ดเคลอนมก�รแจกแจงปกต

2) ตวแปรอสระและตวแปรต�มมคว�มสมพนธเชงเสนตรง 3) คว�มแปรปรวนของคว�มคล�ดเคลอนมค�คงท

ก�รตรวจสอบว�คว�มคล�ดเคลอนมก�รแจกแจงปกตหรอไม ส�ม�รถตรวจสอบไดจ�กกร�ฟ Q-Q plot

ก�รตรวจสอบคว�มสมพนธเชงเสนตรง ตรวจสอบไดจ�กก�รสร�งแผนภ�พก�รกระจ�ยระหว�งตวแปรต�มและ

ตวแปรอสระ สวนก�รตรวจสอบคว�มคล�ดเคลอนทมค�คงท ตรวจสอบจ�กก�รสร�งกร�ฟระหว�งค�คว�มเคลอน

และค�จ�กก�รทำ�น�ย

res1 <- residuals(m1) qqnorm(res1) qqline(res1,col=”red”)

res2 <- residuals(m2) qqnorm(res2) qqline(res2,col=”red”)res3 <- residuals(m3) qqnorm(res3) qqline(res3,col=”red”)res4 <- residuals(m4) qqnorm(res4) qqline(res4,col=”red”)

Page 120: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis) 113

res5 <- residuals(m5) qqnorm(res5) qqline(res5,col=”red”)res6 <- residuals(m6) qqnorm(res6) qqline(res6,col=”red”)res7 <- residuals(m6) qqnorm(res7) qqline(res7,col=”red”)

ผลจ�กก�รสร�ง Q-Q plot พบว� ค�คว�มคล�ดเคลอนจ�กทกตวแบบไมเปนไปต�มขอตกลงของก�ร

ถดถอยเชงเสน นนคอ ค�คว�มคล�ดเคลอนมก�รแจกแจงไมเปนปกต

ก�รตรวจสอบขอตกลงทงส�มขอส�ม�รถตรวจสอบไดจ�กก�ร plot ผลก�รวเคร�ะหทไดจ�กก�รถดถอย

เชงเสน ดวยคำ�สง plot() และตองกำ�หนดจำ�นวนรปทมในหน�ต�งเปนขน�ด 2 แถว 2 คอลมน ดวยคำ�สง par()

ซงเปน ก�รนำ�ผลก�รวเคร�ะหจ�กตวแบบทเกบไวในชอใดชอหนง จ�กนนทำ�ก�รสร�งกร�ฟจำ�นวน 4 กร�ฟ

ลงในหน�ต�งเดยวกนดงตวอย�งคำ�สงดงตอไปน

ก�รตรวจสอบขอตกลงของก�รถดถอยเชงเสนจ�กก�รสร�งกร�ฟจำ�นวนสกร�ฟ

par(mfrow=c(2,2)) plot(m1)

Page 121: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

114 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

plot(m2)plot(m3)plot(m4)plot(m5)plot(m6)

สำ�หรบคำ�สงในก�รสร�ง plot จำ�นวน 4 plot เพอประโยชนในก�รตรวจสอบตวแบบทสร�งขนเปนไป

ต�มขอตกลงของก�รทดสอบท�งสถตของตวแบบนนๆ หรอไม

กร�ฟรปแรกบนสดด�นซ�ยมอ เปนก�ร plot ระหว�ง ค�ทไดจ�กก�รทำ�น�ยจ�กตวแบบทสร�งขนกบ

ค�คว�มคล�ดเคลอนหรอค�เศษเหลอ เปนกร�ฟสำ�หรบตรวจสอบว�คว�มคล�ดเคลอนมคว�มแปรปรวนคงทหรอไม

ถ�ห�กมคว�มแปรปรวนคงท เสนในแนวนอนจะมลกษณะเปนเสนตรง จดทอยบนเสนแนวนอนและใตเสนแนวนอน

มก�รกระจ�ยเท�ๆ กน

กร�ฟรปท 2 ด�นบนสดขว�มอ เปน Q-Q plot ห�กคว�มคล�ดเคลอนมก�รแจกแจงปกต ค�ในแตละจด

จะตกอยบนเสนทแยงมม

กร�ฟรปท 3 ด�นล�งสดซ�ยมอ เปนกร�ฟท plot ระหว�งค�จ�กก�รทำ�น�ยกบค�ร�กทสองของ

คว�มคล�ดเคลอนม�ตรฐ�น กร�ฟนจะคล�ยกบกร�ฟแรก ถ�ห�กคว�มคล�ดเคลอนมคว�มแปรปรวนคงท

เสนในแนวนอนจะมลกษณะเปนเสนตรง

กร�ฟรปท 4 ด�นล�งสดขว�มอ เปนกร�ฟท plot ระหว�งค� Leverage และค�คว�มคล�ดเคลอน

ม�ตรฐ�น เปนกร�ฟทใชในก�รพจ�รณ�ว�มขอมลนอกเกณฑหรอไม (Outlier)

ผลจ�กก�รวเคร�ะหก�รถดถอยเชงเสนอย�งง�ย พบว� ตวแบบไมเปนไปต�มขอตกลงในทกตวแบบทสร�ง

ขน ดงนน จงยงไมส�ม�รถนำ�ผลก�รวเคร�ะหม�สรปผลได จนกว�จะมก�รปรบใหตวแบบเปนไปต�มขอตกลง

วธก�รหนงทนยมใชในก�รแกปญห�น คอ ก�รแปลงขอมล (Data transformation)

8.4 การแปลงขอมล (Data transformation)

ห�กตวแบบทสร�งขนแลวไมเปนไปต�มขอตกลง จำ�เปนตองปรบใหตวแบบเปนไปต�มขอตกลง นนกคอ

ก�รแปลงขอมล ซงมวธก�รแปลงทหล�กหล�ย เชน ก�รแปลงดวยค�ร�กทสอง ก�รแปลงดวยค�ร�กทส�ม

ก�รแปลงดวยค�กำ�ลงสอง ก�รแปลงดวยค�ลอกก�รทม เปนตน ตวอย�งของขอมลชดนทำ�ก�รแปลงค�ของขอมล

ระดบนำ�ต�ลในเลอดดวยค�ลอก�รทมฐ�นธรรมช�ต

bs$lbs <- log(bs$bslevel) m1 <- lm(data=bs,lbs~age)

Page 122: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis) 115

summary(m1) Call: lm(formula = lbs ~ age, data = bs) Residuals: Min 1Q Median 3Q Max -2.18213 -0.09228 -0.00566 0.07951 1.37323 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.455e+00 4.718e-03 944.307 < 2e-16 *** age 4.770e-04 7.854e-05 6.074 1.26e-09 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1 Residual standard error: 0.1749 on 32099 degrees of freedom Multiple R-squared: 0.001148, Adjusted R-squared: 0.001117 F-statistic: 36.89 on 1 and 32099 DF, p-value: 1.262e-09qqnorm(residuals(m1)) qqline(residuals(m1))m2 <- lm(data=bs,lbs~gender) summary(m2)qqnorm(residuals(m2)) qqline(residuals(m2))m3 <- lm(data=bs,lbs~edu) summary(m3)qqnorm(residuals(m3))

Page 123: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

116 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

qqline(residuals(m3))m4 <- lm(data=bs,lbs~mstatus) summary(m4)qqnorm(residuals(m4)) qqline(residuals(m4))m5 <- lm(data=bs,lbs~bmi) summary(m5)qqnorm(residuals(m5)) qqline(residuals(m5))m6 <- lm(data=bs,lbs~sbp) summary(m6)qqnorm(residuals(m6)) qqline(residuals(m6))m7 <- lm(data=bs,lbs~dbp) summary(m7)qqnorm(residuals(m7)) qqline(residuals(m7))

แมว�จะมก�รแปลงขอมลระดบนำ�ต�ลในเลอดดวยค�ลอก�รทมแลวกต�ม แตค�คว�มคล�ดเคลอนยงม

ก�รแจกแจงทไมปกต ทงนอ�จเปนเพร�ะกลมตวอย�งเปนคนละกลมกน เชน กลมตวอย�งทเปนโรคเบ�หว�นแลว

และกลมตวอย�งปกตทยงไมเปนโรคเบ�หว�น ก�รแปลงขอมล จงยงไมส�ม�รถแกปญห�ตวแบบทไมเปนไปต�ม

ขอตกลงได ดงนน จงอ�จจะตองทำ�ก�รวเคร�ะหแยกกลมระหว�งกลมสองกลมนออกจ�กกน

8.5 การวเคราะหแยกกลม (Stratified analysis)

วธก�รแกปญห�ของตวแบบทไมเปนไปต�มขอตกลงถดม� คอ ก�รวเคร�ะหแยกกลม โดยปกตแลวระดบ

นำ�ต�ลในเลอด มเกณฑก�รพจ�รณ� ดงน คอ กลมปกต คอ กลมทมระดบนำ�ต�ลในเลอดปกต อยระหว�ง 54-99

mg/dL กลมเสยง คอ กลมทมระดบนำ�ต�ลในเลอด อยระหว�ง 100-126 mg/dL และกลมผดปกต คอ กลมทม

ภ�วะระดบนำ�ต�ลในเลอด 126 mg/dL ขนไป หรอ มค�นอยกว� 54 mg/dL ในทน ทำ�ก�รแบงขอมลเฉพ�ะ

กลมปกต คอ รวมกลมปกตและกลมเสยงเข�ดวยกน

ก�รวเคร�ะหก�รถดถอยอย�งง�ยในกลมทมระดบนำ�ต�ลในเลอดอยในกลมปกต

bsn <- bs[bs$bslevel>53 & bs$bslevel<126,] mn1 <- lm(data=bsn,bslevel~age) summary(mn1) Call: lm(formula = bslevel ~ age, data = bsn) Residuals: Min 1Q Median 3Q Max -34.508 -7.803 -0.400 6.892 37.227

Page 124: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis) 117

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 86.949029 0.301980 287.930 < 2e-16 *** age 0.021339 0.005034 4.239 2.25e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1 Residual standard error: 11.01 on 30999 degrees of freedom Multiple R-squared: 0.0005794, Adjusted R-squared: 0.0005471 F-statistic: 17.97 on 1 and 30999 DF, p-value: 2.25e-05qqnorm(residuals(mn1)) qqline(residuals(mn1))

mn2 <- lm(data=bsn,bslevel~gender) summary(mn2)qqnorm(residuals(mn2)) qqline(residuals(mn2))mn3 <- lm(data=bsn,bslevel~edu) summary(mn3)qqnorm(residuals(mn3)) qqline(residuals(mn3))mn4 <- lm(data=bsn,bslevel~mstatus)

Page 125: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

118 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

summary(mn4)qqnorm(residuals(mn4)) qqline(residuals(mn4))mn5 <- lm(data=bsn,bslevel~bmi) summary(mn5)qqnorm(residuals(mn5)) qqline(residuals(mn5))mn6 <- lm(data=bsn,bslevel~sbp) summary(mn6)qqnorm(residuals(mn6)) qqline(residuals(mn6))mn7 <- lm(data=bsn,bslevel~dbp) summary(mn7)qqnorm(residuals(mn7)) qqline(residuals(mn7))

จ�ก Q-Q plot พบว� ค�คว�มคล�ดเคลอนจ�กตวแบบทสร�งขนทงหมดจำ�นวน 7 ตวแบบ มก�รแจกแจง

ปกต ซงเปนไปต�มขอตกลงของตวแบบ ดงนน จงส�ม�รถดำ�เนนก�รวเคร�ะหหล�ยตวแปรตอไปได

8.6 การวเคราะหความสมพนธแบบตวแปรเชงเดยว (Univariate analysis)

ก�รวเคร�ะหห�คว�มสมพนธระหว�งตวแปรต�มและตวแปรอสระทละหนงตว นอกจ�กวเคร�ะหดวยก�ร

ถดถอยเชงเสนอย�งง�ยแลว ยงส�ม�รถวเคร�ะหคว�มสมพนธในเบองตน เพอคดเลอกตวแปรอสระเกบไวในตว

แบบหล�ยตวแปร เชน ก�รทดสอบ t-test สำ�หรบกรณทตวแปรต�มแบบตอเนองและตวแปรอสระมสองกลม

และก�รทดสอบ ANOVA สำ�หรบตวแปรต�มแบบตอเนองและตวแปรอสระทมม�กกว�สองกลมขนไป ส�ม�รถ

ทำ�ก�รวเคร�ะหคว�มสมพนธดงกล�วทละค จนครบต�มจำ�นวนตวแปรอสระแบบกลมทมอย ดวยคำ�สง statStack()

ทอยในไลบร�ร epiDisplay โดยคำ�สงน จะเลอกใชชนดของสถตต�มคว�มเหม�ะสม ห�กตวแปรต�มมก�รแจกแจง

ไมปกต สถตทใชในก�รทดสอบจงเปนสถตนอนพ�ร�เมทรกซแทน สำ�หรบคำ�สงนเปนคำ�สงทง�ย ใชสะดวก

แตขอเสย คอ ตวแปรอสระจะตองเปนตวแปรแบบกลมเท�นน ในทนตวแปรอสระทเปนตวแปรกลม คอ gender

mstatus และ edu ในกรณทตวแปรอสระเปนตวแปรแบบตอเนอง คำ�สงนไมส�ม�รถใชได ซงก�รห�คว�มสมพนธ

ระหว�งตวแปรต�มและตวแปรอสระทเปนตวแปรแบบตอเนอง ทำ�ไดดวยก�รวเคร�ะหก�รถดถอยอย�งง�ย หรอ

ส�ม�รถใชก�รวเคร�ะหสหสมพนธ ดวยคำ�สง cor()

> statStack(data=bsn,bslevel,by=c(gender,mstatus,edu))

Total bslevel mean(SD) Test P value

gender t-test (30999 df) = 1.99 0.046

female 16677 88.3 (11.1)

male 14324 88.1 (10.9)

Page 126: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis) 119

mstatus Kruskal-Wallis test < 0.001

Married 20020 88 (81,95)

Single 8370 87 (80,95)

Widowes/divoced 1935 88 (81,96)

edu Kruskal-Wallis test < 0.001

Bachelor/higher 597 89 (82,95)

Colledge 807 89 (82,95)

Illiterate 1167 87 (80,95)

Mathayom 3481 89 (82,96)

Pathom 11477 88 (81,95)

Unknown 13472 87 (80,95)

ผลก�รวเคร�ะหข�งตน พบว� เพศ สถ�นภ�พสมรส และ ระดบก�รศกษ�มคว�มสมพนธกบระดบนำ�ต�ล

ในเลอดอย�งมนยสำ�คญท�งสถต โดยผลก�รวเคร�ะหจ�กคำ�สง statStack() แสดงจำ�นวนตวอย�งทงหมด

ค�เฉลยและสวนเบยงม�ตรฐ�นแยกต�มแตละกลมของตวแปรอสระ สถตททดสอบและค� p-value สวนกรณ

ตวแปรต�มมก�รแจกแจงไมปกต ผลก�รวเคร�ะหจะแสดงเปนค�มธยฐ�น และชวงพสยควอไทลม�ใหแทน

8.7 การถดถอยเชงเสนพหคณ (Multiple linear regression)

ก�รถดถอยเชงเสนอย�งง�ยเปนก�รสร�งตวแบบสำ�หรบก�รพจ�รณ�คว�มสมพนธระหว�งตวแปรต�ม

และตวแปรอสระในเบองตน หรอ ทเรยกว�ก�รวเคร�ะหคว�มสมพนธแบบตวแปรเชงเดยว (Univariate analysis)

เพอประกอบก�รพจ�รณ�ในก�รคดเลอกตวแปรอสระม�สร�งตวแบบหล�ยตวแปรสำ�หรบก�รวเคร�ะหแบบหล�ย

ตวแปร (Multivariate analysis) ก�รทำ�น�ยก�รเปลยนแปลงของตวแปรต�มจ�กตวแปรอสระทมหล�ยตวแปร

ส�ม�รถอธบ�ยคว�มสมพนธเชงเสนดวยสมก�ร ดงน

เมอ β0 คอ Intercept หรอจดตดบนแกน y และ β

j คอ คว�มชนบนพนผวก�รถดถอย (Regression

surface) โดย j = 1,2,3,...,k และ εi คอ คว�มคล�ดเคลอน (Error or residuals)

ก�รวเคร�ะหตวแปรเดยว สำ�หรบก�รศกษ�เชงสำ�รวจ หรอเชงสงเกต จงยงไมใชขอสรปสดท�ย จงควร

ตองมก�รวเคร�ะหหล�ยตวแปร เพอนำ�ตวแปรอสระต�งๆ ม�ใสในตวแบบเดยวกน เพอวตถประสงคของก�รปรบลด

อทธพลซงกนและกน ตวแปรอสระไหนทมอทธพลตอตวแปรต�มนอย คว�มสมพนธนนจ�กเดมทมนยสำ�คญ

Page 127: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

120 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

จ�กก�รวเคร�ะหตวแปรเดยว แตเมอทำ�ก�รวเคร�ะหหล�ยตวแปร นยสำ�คญกอ�จจะห�ยไปได ในทน ผลจ�ก

ก�รวเคร�ะหตวแปรเดยว พบว� ตวแปรอสระทกตวแปรมคว�มสมพนธกบตวแปรต�มอย�งมนยสำ�คญท�งสถต

จงใสตวแปรอสระเหล�นทกตวไวในตวแบบ

ก�รวเคร�ะหก�รถดถอยเชงเสนพหคณในกลมทมระดบนำ�ต�ลในเลอดอยในกลมปกต

mfn <- lm(data=bsn,bslevel~age+gender+edu+mstatus+bmi+sbp+dbp) summary(mfn) Call: lm(formula = bslevel ~ age + gender + edu + mstatus + bmi + sbp + dbp, data = bsn) Residuals: Min 1Q Median 3Q Max -39.775 -7.092 -0.484 6.611 41.692 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 67.103192 0.859828 78.043 < 2e-16 *** age 0.021646 0.005537 3.909 9.27e-05 *** gendermale -0.078928 0.138263 -0.571 0.568101 eduColledge -0.070042 0.595265 -0.118 0.906334 eduIlliterate -1.593851 0.556964 -2.862 0.004217 ** eduMathayom 0.233896 0.484625 0.483 0.629361 eduPathom -0.685382 0.461130 -1.486 0.137208 eduUnknown -0.893244 0.459237 -1.945 0.051777 . mstatusSingle -0.619404 0.159590 -3.881 0.000104 *** mstatusWidowes/divoced -0.066643 0.264924 -0.252 0.801388 bmi 0.224948 0.018019 12.484 < 2e-16 *** sbp 0.102890 0.005249 19.601 < 2e-16 *** dbp 0.040351 0.007938 5.083 3.74e-07 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1 Residual standard error: 10.84 on 30074 degrees of freedom (914 observations deleted due to missingness) Multiple R-squared: 0.03736, Adjusted R-squared: 0.03698 F-statistic: 97.26 on 12 and 30074 DF, p-value: < 2.2e-16qqnorm(residuals(mfn)) qqline(residuals(mfn))

Page 128: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis) 121

ก�รทดสอบ F-test เพอตดตวแปรทไมมนยสำ�คญออกจ�กตวแบบ

anova(mfn) Analysis of Variance Table Response: bslevel Df Sum Sq Mean Sq F value Pr(>F) age 1 2100 2100 17.8800 2.360e-05 *** gender 1 523 523 4.4526 0.03486 * edu 5 8892 1778 15.1432 6.890e-15 *** mstatus 2 3458 1729 14.7216 4.070e-07 *** bmi 1 32133 32133 273.6047 < 2.2e-16 *** sbp 1 86934 86934 740.2250 < 2.2e-16 *** dbp 1 3034 3034 25.8370 3.737e-07 *** Residuals 30074 3531989 117 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1

ผลจ�กก�รตรวจสอบขอตกลงดวย Q-Q plot พบว� ค�คว�มคล�ดเคลอนมก�รแจกแจงปกต อย�งไร

กต�ม ผลก�รวเคร�ะหหล�ยตวแปร พบตวแปรอ�ยทมค� p-value ม�กกว�ระดบนยสำ�คญท�งสถต คอ 0.05

จงควรทำ�ก�รทดสอบดวย F-test เพอใชประกอบก�รพจ�รณ�ตดตวแปรทไมมนยสำ�คญออกจ�กตวแบบ ผลจ�ก

ก�รวเคร�ะห พบว� ไมส�ม�รถตดตวแปรใดออกจ�กตวแบบได (ค� p-value จ�ก F-test มค�นอยกว� 0.05

ทกตวแปร) จงสรปผลจ�กก�รวเคร�ะหก�รถดถอยเชงเสนพหคณข�งตนไดดงน ระดบนำ�ต�ลในเลอดมคว�ม

สมพนธกบอ�ย ก�รศกษ� สถ�นภ�พสมรส ดชนมวลก�ย คว�มดนโลหตซสโตลก และคว�มดนโลหตไดแอสโตลก

โดย อ�ย ดชนมวลก�ย คว�มดนโลหตซสโตลก และคว�มดนโลหตไดแอสโตลกทเพมขนมผลตอระดบนำ�ต�ล

Page 129: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

122 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

ในเลอดทเพมขน สวนระดบก�รศกษ� พบว� คนทไมไดเรยนหนงสอมระดบนำ�ต�ลในเลอดตำ�กว�คนทมก�รศกษ�

ในระดบปรญญ�ตรขนไป โดยเฉลย 1.6 mg/dL ต�มลำ�ดบ คนทมสถ�นภ�พโสดมระดบนำ�ต�ลในเลอดตำ�กว�คน

ทมสถ�นภ�พสมรส โดยเฉลย 0.6 mg/dL

8.8 แบบฝกหดทายบท

จ�กแฟมขอมล psncd ใหทำ�ก�รวเคร�ะหห�ว�ปจจยเหล�น (age, mstatus, edu, smoke, alcohol,

dm) มผลตอคว�มสมพนธของก�รเพมขนของดชนมวลก�ย (bmi) หรอไม โดยใชวธก�รวเคร�ะหก�รถดถอย

เชงเสนแบบตวแปรเดยวและหล�ยตวแปร

Page 130: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 8 การวเคราะหการถดถอยเชงเสน (Linear regression analysis) 123

8.9 บรรณานกรม

1. อภรด แซลม (2559), ก�รจดก�รขอมล กร�ฟ และก�รวเคร�ะหท�งสถตดวยโปรแกรม R, บรษท

ไอควมเดยดไซน: สงขล�, 434 หน�.

2. Maindonald, J. and Braum, W.J. (2010). Data Analysis and Graphics Using R - An example-Based

Approach Third Edition. New York: Cambridge University Press.

3. R Core Team. (2019). R: A Language and Environment for Statistical Computing.

Vienna, Austria: R Foundation for Statistical Computing.

4. Venables, W.N. and Ripley, B.D. (2002). Modern Applied Statistics with S-PLUS. Fourth

Edition. New York: Springer.

Page 131: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

124 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

Page 132: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 9 การวเคราะหการถดถอยโลจสตก (Logistic regression analysis) 125

บทท 9 การวเคราะหการถดถอยโลจสตก (Logistic regression analysis)

Page 133: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

126 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

การวเคราะหการถดถอยโลจสตก (Logistic regression analysis) ดร.นรนดร อนทรตน E-mail: [email protected]

9 บทท

ก�รวเคร�ะหขอมลโดยใชตวแบบท�งสถตทชอว� ก�รถดถอยพหโลจสตก หรอ Multiple logistic

regression จะใชในกรณทผลลพธก�รศกษ� (ตวแปรต�ม : y) มลกษณะเปนตวแปรกลมจำ�นวนสองกลมเท�นน

เชน ก�รเปนโรคเบ�หว�น (เปนโรค กบ ไมเปนโรค) หรอ ก�รเปนโรคคว�มดนโลหตสง (เปนโรค กบ ไมเปนโรค)

เปนตน ในขณะทปจจย (ตวแปรตน : x) จะมลกษณะเปนตวแปรกลม หรอตวแปรตอเนองกได และส�ม�รถมได

ม�กกว�หนงตวแปร โดยทตวแบบท�งสถตนมขอดคอ ส�ม�รถควบคมตวแปรกวน (ตวแปรทมผลกระทบตอคว�ม

สมพนธของปจจยทเร�ตองก�รศกษ�กบผลลพธ) ไดหล�ยตวแปร

ก�รวเคร�ะหขอมลจะตองทำ� 2 ขนตอนหลกๆ คอ ก�รวเคร�ะหแบบสองตวแปร โดยจะทำ�ก�รวเคร�ะห

เพอห�คว�มสมพนธแบบหย�บๆ ของปจจยทตองก�รศกษ� กบ ผลลพธ จ�กนนเปนขนตอนท 2 ทำ�โดยก�รเลอก

ตวแปรจ�กขนตอนท 1 ทมค� p-value นอยกว� 0.05 เข�ม�สก�รวเคร�ะหแบบหล�ยตวแปร จ�กนนจงทำ�ก�ร

คดเลอกตวแปรทมอทธพลตอตวแปรต�ม ทงน เพอใหไดตวแบบทเหม�ะสมทสด โดยส�ม�รถทำ�น�ยผลลพธของ

ก�รศกษ�แมนยำ�ทสด ก�รคดเลอกตวแบบหลกๆ ม 2 ขนตอนคอ

1. แบบ forward หม�ยถง เปนก�รสร�งตวแบบโดยก�รเรมตนตวแบบแรกเปนตวแบบว�ง (Null model)

จ�กนนทำ�ก�รนำ�ตวแปรทคดเลอกม�เข�ตวแบบทละตวแปร

2. แบบ backward หม�ยถง เปนก�รสร�งตวแบบโดยก�รเรมตนตวแบบแรกเปนตวแบบทประกอบไป

ดวยตวแปรทคดเลอกม�แลวจ�กก�รวเคร�ะหสองตวแปร ก�รนนทำ�ก�รดงตวแปรออกทละตวแปรโดยเลอกเอ�

ตวแปรทมค� p-value ม�กทสดออก จนไดตวแบบสดท�ยจงทำ�ก�รร�ยง�นผลก�รวเคร�ะหเปนค� adjusted

odds ratio

Page 134: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 9 การวเคราะหการถดถอยโลจสตก (Logistic regression analysis) 127

9.1 การวเคราะหความสมพนธแบบตวแปรเชงเดยว (Univariable analysis)

ในโปรแกรม R เร�ส�ม�รถใช epiDisplay package ใน package นจะมคำ�สงทชอว� tableStack ซงใช

ในก�รวเคร�ะหขอมลสองตวแปรไดอย�งรวดเรว

ตวอย�ง ก�รวเคร�ะหปจจยทมคว�มสมพนธตอก�รเปนโรคคว�มดนโลหตสง (rbp) โดยใชขอมลจ�กแฟม

psncd จำ�นวน 34,671 แถว

#table 1 tb1csv <- tableStack(vars=c(age.gr,gender,mstatus,edu, smoke,alcohol,dmfamily,htfamily,bmigr,dm),by=rbp ,total.column = TRUE,decimal = 2,data=data)

วเคร�ะหขอมลโดยใชคำ�สง tableStack จ�กนนเกบขอมลผลก�รวเคร�ะหเกบไวในตวแบบชอว� tb1csv

ซงส�ม�รถเรยกดตวแบบโดยก�รพมพชอตวแบบดงกล�ว จ�กนนจะทำ�ก�รสงออกผลลพธเพอเกบไวในรปแบบ

csv โดยใชคำ�สง write.csv(tb1csv,”table1.csv”) นนคอ ตองก�รสงออกผลลพธทชอว� tb1 เกบไวเปนไฟล

ทชอว� table8.1 ซงผลลพธจะเกบไวในแฟมเดยวกบขอมลทอ�นเข�ม� ทงน ในตวอย�งคำ�สงด�นบน เร�จะได

ผลลพธก�รวเคร�ะหดงหน�ถดไป

tb1csv normal abnormal Total Test stat. P value Total 1238 295 1533 age.gr Chisq. (3 df) = 26.627 < 0.001 (35,40] 38 (3.07) 5 (1.69) 43 (2.8) (40,50] 293 (23.67) 45 (15.25) 338 (22.05) (50,60] 383 (30.94) 72 (24.41) 455 (29.68) (60,110] 524 (42.33) 173 (58.64) 697 (45.47) gender Chisq. (1 df) = 3.182 0.0744 female 684 (55.25) 146 (49.49) 830 (54.14) male 554 (44.75) 149 (50.51) 703 (45.86) mstatus Chisq. (2 df) = 3.122 0.21 single 164 (13.25) 37 (12.54) 201 (13.11) married 968 (78.19) 223 (75.59) 1191 (77.69) widowed/divorced 106 (8.56) 35 (11.86) 141 (9.2) edu Chisq. (4 df) = 11.251 0.0239 Iilliterate 130 (10.5) 26 (8.81) 156 (10.18) Pathom 515 (41.6) 100 (33.9) 615 (40.12) Mathayom 423 (34.17) 131 (44.41) 554 (36.14) Colledge 105 (8.48) 24 (8.14) 129 (8.41) Bachelor/higher 65 (5.25) 14 (4.75) 79 (5.15)

Page 135: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

128 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

smoke Chisq. (1 df) = 7.396 0.0065 no 1061 (85.7) 234 (79.32) 1295 (84.47) yes 177 (14.3) 61 (20.68) 238 (15.53) alcohol Chisq. (1 df) = 0 0.9998 no 982 (79.32) 234 (79.32) 1216 (79.32) yes 256 (20.68) 61 (20.68) 317 (20.68) dmfamily Chisq. (1 df) = 4.673 0.0306 no 1126 (90.95) 256 (86.78) 1382 (90.15) yes 112 (9.05) 39 (13.22) 151 (9.85) htfamily Chisq. (1 df) = 3.339 0.0677 no 1108 (89.5) 253 (85.76) 1361 (88.78) yes 130 (10.5) 42 (14.24) 172 (11.22) bmigr Chisq. (1 df) = 10.147 0.0014 normal 1202 (97.09) 275 (93.22) 1477 (96.35) obesity 36 (2.91) 20 (6.78) 56 (3.65) dm Chisq. (1 df) = 25.17 < 0.001 normal 1067 (86.19) 219 (74.24) 1286 (83.89) DM 171 (13.81) 76 (25.76) 247 (16.11)

write.csv(tb1csv,”table1.csv”)

9.2 การสรางตวแบบการถดถอยโลจสตก

จ�กผลลพธก�รวเคร�ะหขอมล ขอ 9.1 เร�จะทำ�ก�รเลอกตวแปรทมค� p-value นอยกว� 0.05 เข�ม�

วเคร�ะหในขนตอนก�รวเคร�ะหหล�ยตวแปร ประกอบไปดวยตวแปร age.gr, edu, smoke, dmfamily, bmigr,

dm ในขนตอนนเร�จะใชวธก�รคดเลอกตวแปรทมอทธพลตอตวแปรต�ม โดยใชวธก�รคดเลอกตวแปรแบบยอนกลบ

(Backward elimination) ดงน

#backward elimination m0<-glm(rbp~age.gr+edu+smoke+dmfamily+bmigr+dm,family = “binomial”,data=data) summary(m0) Call: glm(formula = rbp ~ age.gr + edu + smoke + dmfamily + bmigr + dm, family = “binomial”, data = data)

Page 136: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 9 การวเคราะหการถดถอยโลจสตก (Logistic regression analysis) 129

Deviance Residuals: Min 1Q Median 3Q Max -1.2379 -0.7045 -0.5559 -0.4535 2.2419 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.4771 0.5326 -4.651 3.31e-06 *** age.gr(40,50] 0.2058 0.5090 0.404 0.685995 age.gr(50,60] 0.4295 0.5055 0.850 0.395488 age.gr(60,110] 0.9074 0.4970 1.826 0.067901 . eduPathom 0.0485 0.2475 0.196 0.844667 eduMathayom 0.3026 0.2427 1.247 0.212464 eduColledge 0.2585 0.3278 0.788 0.430471 eduBachelor/higher 0.3000 0.3771 0.796 0.426215 smokeyes 0.4100 0.1696 2.417 0.015638 * dmfamilyyes 0.3131 0.2075 1.509 0.131397 bmigrobesity 0.8563 0.2960 2.893 0.003813 ** dmDM 0.5518 0.1671 3.302 0.000958 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1501.5 on 1532 degrees of freedom Residual deviance: 1438.1 on 1521 degrees of freedom AIC: 1462.1 Number of Fisher Scoring iterations: 4

จ�กผลก�รวเคร�ะหดงกล�วเร�จะดงตวแปร edu ออกเพร�ะมค� p value ม�กทสด จ�กนนประมวล

ตวแบบถดไป

#remove edu m1<-glm(rbp~age.gr+ smoke+dmfamily+bmigr+dm,family = “binomial”,data=data) lrtest(m0,m1) Likelihood ratio test for MLE method Chi-squared 4 d.f. = 3.582907 , P value = 0.4653846

summary(m1)

Page 137: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

130 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

Call: glm(formula = rbp ~ age.gr + smoke + dmfamily + bmigr + dm, family = “binomial”, data = data) Deviance Residuals: Min 1Q Median 3Q Max -1.2188 -0.6611 -0.5242 -0.4827 2.1790 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.2763 0.4843 -4.700 2.6e-06 *** age.gr(40,50] 0.1851 0.5078 0.365 0.715417 age.gr(50,60] 0.3610 0.4996 0.723 0.469894 age.gr(60,110] 0.8669 0.4909 1.766 0.077448 . smokeyes 0.4193 0.1687 2.485 0.012968 * dmfamilyyes 0.3181 0.2053 1.549 0.121295 bmigrobesity 0.8919 0.2946 3.028 0.002464 ** dmDM 0.6145 0.1620 3.793 0.000149 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1501.5 on 1532 degrees of freedom Residual deviance: 1441.6 on 1525 degrees of freedom

AIC: 1457.6

Number of Fisher Scoring iterations: 4

จ�กผลก�รวเคร�ะหดงกล�วเร�จะทำ�ก�รทดสอบว�ตวแปรทเร�ดงออก (edu) มผลตอตวแบบหรอไม

โดยก�รทดสอบ lrtest(m0,m1) ซงจ�กก�รทดสอบพบว� ไดค� p value เท�กบ 0.4654 ซงม�กกว� 0.05

ดงนน จงดงตวแปรนออกได ขนตอนตอม�ทำ�ก�รพจ�รณ�ตวแบบท 1 จะเหนว�ตวแปร dmfamily มค�ม�กทสด

และม�กกว� 0.05 จงดงตวแปรนออก และประมวลผลอกครง

#remove dmfamily m2<-glm(rbp~age.gr+ smoke+ bmigr+dm,family = “binomial”,data=data) lrtest(m2,m1) Likelihood ratio test for MLE method Chi-squared 1 d.f. = 2.31329 , P value = 0.1282723

Page 138: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 9 การวเคราะหการถดถอยโลจสตก (Logistic regression analysis) 131

summary(m2) Call: glm(formula = rbp ~ age.gr + smoke + bmigr + dm, family = “binomial”, data = data) Deviance Residuals: Min 1Q Median 3Q Max -1.2475 -0.6673 -0.5348 -0.4881 2.1728 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.2615 0.4848 -4.665 3.08e-06 *** age.gr(40,50] 0.1943 0.5082 0.382 0.70223 age.gr(50,60] 0.3888 0.4996 0.778 0.43642 age.gr(60,110] 0.8728 0.4914 1.776 0.07573 . smokeyes 0.4263 0.1686 2.529 0.01144 * bmigrobesity 0.9051 0.2952 3.066 0.00217 ** dmDM 0.6470 0.1606 4.028 5.63e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1501.5 on 1532 degrees of freedom Residual deviance: 1444.0 on 1526 degrees of freedom AIC: 1458 Number of Fisher Scoring iterations: 4

พจ�รณ�ตวแปรทเร�ดงออก (dmfamily) มผลตอก�รทำ�น�ยตวแปรต�มหรอไม โดยก�รทดสอบ

lrtest(m2,m1) ซงจ�กก�รทดสอบพบว� ไดค� p value เท�กบ 0.1283 ดงนน จงดงตวแปรนออก ขนตอน

ตอม�ทำ�ก�รพจ�รณ�ตวแบบท 2 จะเหนว�ตวแปร age.gr มค�ม�กทสด จงดงตวแปรนออก และประมวลผล

ตวแบบถดไป

#remove age.gr m3<-glm(rbp~ smoke+ bmigr+dm,family = “binomial”,data=data) lrtest(m3,m2) Likelihood ratio test for MLE method Chi-squared 3 d.f. = 19.84581 , P value = 0.0001827

Page 139: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

132 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

summary(m3) Call: glm(formula = rbp ~ smoke + bmigr + dm, family = “binomial”, data = data) Deviance Residuals: Min 1Q Median 3Q Max -1.3365 -0.5789 -0.5789 -0.5789 1.9333 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.70130 0.08297 -20.506 < 2e-16 *** smokeyes 0.47465 0.16736 2.836 0.00457 ** bmigrobesity 0.83340 0.29250 2.849 0.00438 ** dmDM 0.75973 0.15803 4.808 1.53e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1501.5 on 1532 degrees of freedom Residual deviance: 1463.8 on 1529 degrees of freedom AIC: 1471.8 Number of Fisher Scoring iterations: 4

พจ�รณ�ตวแปรทเร�ดงออก (age.gr) ว�มผลตอตวแปรต�มหรอไม โดยก�รทดสอบ lrtest(m3,m2)

ซงพบว�ไดค� p value เท�กบ 0.0001827 จ�กผลก�รวเคร�ะหดงกล�วตวแปร age.gr มผลตอโมเดล จงไมควร

ตดออก ดงนน ตวแบบสดท�ยทมคว�มเหม�ะสมคอ ตวแบบทมตวแปรอสระประกอบไปดวย age.gr, smoke,

bmigr และ dm นนคอ ผลก�รวเคร�ะหตวแบบท 2

นอกจ�กก�รคดเลอกตวแบบดวยวธก�รดงกล�วแลว ยงส�ม�รถใชคำ�สง step (“modelname”, direction =”

วธก�รทตองก�ร”) เพอใหโปรแกรมคดเลอกตวแบบทเหม�ะสมให โดยตวแบบทเหม�ะสมทสดม�จ�กตวแบบทม

ค� AIC นอยทสดและจะแสดงใหเปนตวแบบลำ�ดบท�ยสด ในก�รยกตวอย�งในครงน จะใชวธก�รยอนกลบ

ดงนน ตวแบบทจะม�ใชเรมตนจะเปนตวแบบทมตวแปรทกตวทสนใจ ดงน

step(m0, direction = “backward”) Start: AIC=1462.05 rbp ~ age.gr + edu + smoke + dmfamily + bmigr + dm Df Deviance AIC

Page 140: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

บทท 9 การวเคราะหการถดถอยโลจสตก (Logistic regression analysis) 133

- edu 4 1441.6 1457.6 <none> 1438.0 1462.0 - dmfamily 1 1440.2 1462.2 - smoke 1 1443.7 1465.7 - bmigr 1 1445.8 1467.8 - dm 1 1448.6 1470.6 - age.gr 3 1457.5 1475.5 Step: AIC=1457.64 rbp ~ age.gr + smoke + dmfamily + bmigr + dm Df Deviance AIC <none> 1441.6 1457.6 - dmfamily 1 1444.0 1458.0 - smoke 1 1447.6 1461.6 - bmigr 1 1450.0 1464.0 - dm 1 1455.4 1469.4 - age.gr 3 1462.1 1472.1 Call: glm(formula = rbp ~ age.gr + smoke + dmfamily + bmigr + dm, family = “binomial”, data = data) Coefficients: (Intercept) age.gr(40,50] age.gr(50,60] age.gr(60,110] smokeyes -2.2763 0.1851 0.3610 0.8669 0.4193 dmfamilyyes bmigrobesity dmDM 0.3181 0.8919 0.6145 Degrees of Freedom: 1532 Total (i.e. Null); 1525 Residual Null Deviance: 1502 Residual Deviance: 1442 AIC: 1458

ห�กพจ�รณ� จะพบว�ตวแบบสดท�ยทไดจ�กก�รใชคำ�สง step() ประกอบดวย age.gr, smoke,

dmfamily, bmigr และ dm ซงพบว� มขอแตกต�งจ�กวธกอนหน� คอ ตวแบบสดท�ยไมม dmfamily อยดวย

ดงนน ขนอยกบผวเคร�ะหทจะพจ�รณ�ว�ในท�งก�รแพทย ตวแปร dmfamily มผลตอก�รเปนโรคคว�มดน

โลหตสงหรอไม

เมอเร�ไดตวแบบสดท�ยแลว จะทำ�ก�รแสดงผลก�รวเคร�ะหขอมลโดยแสดงค� crude odds ratio และ

adjusted odds ratio โดยใชคำ�สง logistic.display()

Page 141: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช

134 การวเคราะหขอมลสขภาพในระบบสาธารณสขไทยโดยใชโปรแกรม R

resultLR<-logistic.display(m2) resultLR Logistic regression predicting rbp : abnormal vs normal crude OR(95%CI adj. OR(95%CI) P(Wald’s test) P(LR-test) age.gr: ref.=(35,40] (40,50] 1.17 (0.44,3.12) 1.21 (0.45,3.29) 0.702 <0.001 (50,60] 1.43 (0.54,3.75) 1.48 (0.55,3.93) 0.436 (60,110] 2.51 (0.97,6.48) 2.39 (0.91,6.27) 0.076 smoke: yes vs no 1.56 (1.13,2.16) 1.53 (1.1,2.13 0.011 0.013 bmigr: obesity vs normal 2.43 (1.38,4.26) 2.47 (1.39,4.41) 0.002 0.003 dm: DM vs normal 2.17 (1.59,2.94) 1.91 (1.39,2.62) <0.001 <0.001 Log-likelihood = -721.9752 No. of observations = 1533

AIC value = 1457.9504

ก�รแปลผล จ�กผลก�รวเคร�ะห พบว� คนทมอ�ยเพมม�กขนจะทำ�ใหมโอก�สเสยงตอก�รเปนโรคคว�มดน

โลหตม�กยงขน และคนทสบบหรมโอก�สเสยงตอก�รเปนโรคคว�มดนโลหตสง 1.56 เท� เมอเทยบกนคนทไมสบ

บหร นอกจ�กนนแลว พบว� คนทเปนโรคอวนและมโรคเบ�หว�น จะทำ�ใหมโอก�สเปนโรคคว�มดนโลหตสงเปน

2.43 และ 2.17 เท� เมอเทยบกบคนทไมไดเปนโรคดงกล�ว

ขอสงเกต ห�กผลก�รวเคร�ะหพบว� ค� crude OR เปนศนย เชน 0.46 จะทำ�ใหอธบ�ยผลไดย�ก แนะนำ�

ใหเปลยนกลมอ�งอง และทำ�ก�รประมวลผลอกครง

9.3 แบบฝกหด

1. จ�กชดขอมลแฟม psncd ใหทำ�ก�รวเคร�ะหขอมล โดยใชวธก�รวเคร�ะหตวแปรเดยว (Univariate

analysis) โดยกำ�หนดใหตวแปรต�มคอ bmigr (obisity และ normal)

2. ใหห�ปจจยใดทมผลตอก�รเกดโรคอวน โดยทำ�ก�รวเคร�ะหผลตอเนองจ�กขอท 1 โดยใชวธก�ร

ถดถอยโลจสตก (logistic regression) พรอมทงอธบ�ยผลลพธทได

Page 142: การวิเคราะห์ข้อมูลสุขภาพ - PSU...บทท 5การนำ าเข าและการจ ดการข อม ลโดยใช