คลังข้อมูลข่าวศิลปะบันเทิงpioneer.chula.ac.th/~awirote/courses/tran-res-term/... ·...
TRANSCRIPT
คลงขอมลขาวบนเทง
ขาวบนเทง ในทน หมายถงขาวทน ำาเสนอเร องราวตางๆในวงการบนเทง รวมถงเร องราวชวตสวนตวของดารา นกแสดง นกรอง ศลปน ในเวบไซตทมการนำาเสนอขาวบนเทงนนจะแยกประเภทของขาวบนเทงไวอยางชดเจน เนองจากขาวบนเทงมเนอหาทแตกตางจากขาวประเภทอน เชน ขาวกฬา ขาวการเมอง อยางชดเจน
คลงขอมลนเปนการรวบรวมขาวบนเทงภาษาองกฤษทเขยนโดยเจาของภาษา จากเวบไซตขาวจำานวน 4 เวบไซต โดยขาวบนเทงทเล อ กมา ใ ช ในกา รศ กษา น น เป นข า ว ท ถ ก จ ด ไ ว อ ย ใ นห ว ข อ Entertainment ในแตละเวบไซต
การศกษานมวตถประสงคเพอจดท ำาคลงขอมลขาวบนเทงภาษาองกฤษทเขยนโดยเจาของภาษา และเพอนำาคลงขอมลดงกลาวมาศกษาวาขาวบนเทงมลกษณะเฉพาะอยางไร
1. วธการศกษาคลงขอมลนเกบขอมลขาวบนเทงภาษาองกฤษจาก เวบไซตขาว
4 เวบไซต ไดแก
http://abcnews.go.com/Entertainmenthttp://www.cnn.com/SHOWBIZ/http://news.bbc.co.uk/1/hi/entertainment/
default.stmhttp://www.reuters.com/news/entertainment
โดยเก บขอมลขาวท จดอยในหวขอ Entertainment มขนาด 100049 คำา (tokens)
ขอมลทงหมดทเกบมาจดเกบไวในรปแบบ plain text (.txt) เกบแยกเปนหนงขาวตอหนงไฟล รวมมจ ำานวนทงหมด 217 ไฟล เมอเกบขอมลไดครบ 100000 คำาแลว จงนำาขอมลมาศกษาโดยใช
โปรแกรม AntConc เป นหลก และใชโปรแกรม Collocation Extract ประกอบการศกษาดวย
2. ผลการศกษา
2.1 การนำาคลงขอมลไปใชกบโปรแกรม AntConc 3.2.2w (Windows)
ขนตอนแรกคอการนำาขอมลไปใชกบโปรแกรม AntConc แลวค น ห า Word List แ ล ว โ ด ย เ ล อ ก Treat all data as lowercase เพอใหโปรแกรมจดคำาทสะกดเหมอนกนแตตางกนทตวพมพใหญกบตวพมพเลกนนเปนคำาเดยวกน พบวาคลงขอมลมขนาด 100049 คำา (Word Tokens) นบเปน 11774 ประเภทคำา (Word Types)
เมอพจารณาความถของการเกด พบวาคำาทมความถในการเกดสงสด คอ the มความถ 5415 คร ง ซ งเปน article ทมกจะมความถในการเกดสงในคลงขอมลเสมอ โดยคำาทมความถสงสด 10 อนดบแรก ไดแก
Rank Freq Wor
d1 5415 The2 2647 A3 2506 And4 2318 Of5 2265 To6 2056 In7 1725 S8 954 For9 941 Tha
2
t10 909 It
จะเหนได ว าค ำาท มความถ สงสดเป นอ นด บต นน นเป นค ำาไวยากรณ (Grammatical words) ทงหมด เมอดจากคลงขอมลแลว พบวาความถตงแตลำาดบท 1 ไปจนถง 40 นนเปนคำาไวยากรณทงหมด เชน คำาบพบท คำาสรรพนาม article คำากรยา ‘be’ และ ‘have’ คำาสนธาน เปนตน อยางไรกตาม มคำาทไมใชคำาไวยากรณอยหนงคำา คอ คำาวา said เปน Content word ซงปรากฏในลำาดบท 19 มความถ 588 ครง แตผวจยเหนวา คำาวา said เปนคำาทถกใชทวไปในขาวทกประเภท เนองจากตองมการอางถงค ำาพดของบคคลตางๆ คำาวา said จงไมนาจะมความสำาคญเปนพเศษในขาวบนเทง
คำาทจะเลอกมาศกษานนจะเปนคำาทแสดงลกษณะของความเปนขาวบนเทง ทไมนาจะมในขาวประเภทอน โดยจะเลอกศกษาเฉพาะ content words และจะเลอกคำาทอยในชวงลำาด บท 1 – 150 เท าน น เน องจากความถของค ำาในชวงดงกลาวรวมกนได เป น 50695 ครง ประมาณครงหนงของ tokens ในคลงขอมลทงหมด คำาทปรากฏอยในชวงดงกลาวนาจะเปนคำาทถอไดวาเกดถและมความสำาคญในขาวบนเทง
หากไมนบคำาวา said นน content word คำาแรกทอยในลำาดบความถสงสด คอ คำาวา new มความถในการเกดอยในลำาดบท 41 ความถ 261 ครง คำาวา new นนอาจมองไดวาเปนคำาทวไปทปรากฏไดในขาวทกประเภท แตผวจยคาดวาขาวบนเทงนาจะมการนำาเสนอขาวโดยใชคำาดงกลาว เพอสอความวากำาลงจะพดถงสงใหมๆ ทเพงเกดขน เชน ละครเรองใหม อลบมเพลงใหม เปนตน เมอนำาคำาวา new ไปค น ใน Concordance โดยใช Kwic Sort ดค ำาท ม าปรากฏทางซายกบทางขวา พบวาคำาทปรากฏขางซายของคำาวา new ไมมความสมพนธทส ำาคญกบคำาวา new เนองจากสวนมากเปน
3
article คำาทดจะมความสมพนธกบ new มากนน กคอ คำาวา york ทปรากฏดานขวาของคำาวา new เพอเปนการด collocation ผ วจยจงนำาคำาวา new ไปคนใน Collocates
การคนใน Collocates นน ในตอนแรก ผวจยใชการ Sort by Frequency คอดการปรากฏรวมทงทางซายและทางขวาโดยเรยงลำาดบตามความถ ต งค าเป น Treat all data as lower case พบวาคำาวา york มความถในการเกดสงสดโดยปรากฏรวมทางขวา สวนคำาทมความถรองลงไปเปนคำาปรากฏรวมทางซาย เปนคำาประเภทคำาไวยากรณ เชน the, a, in เปนไปตามทผวจยตงขอสงเกตในเบองตนวาคำาปรากฏรวมทางซายไมมความสมพนธกบคำาวา new เทากบคำาปรากฏรวมทางขวา ดงนน ผวจยคนดวยสถต (Sort by Stat) โดยเลอกใชสถตแบบ T-Score และเลอกคนเฉพาะความถการปรากฏรวมอยางนอย 5 ครงเทานน คำาทปรากฏรวมดานซายของคำาวา new นน ไมไดแสดงลกษณะเฉพาะหรอลกษณะพเศษใดของขาวบนเทง สวนคำาทปรากฏรวมขางขวาของคำาวา new นนมอยทงหมด 109 Collocate types คำาปรากฏรวมทมความสำาคญเชงสถตมากทสดเปนตามทผวจยตงขอสงเกตไวขางตน คอ คำาวา york มคาความสำาคญเชงสถต 9.72 เมอนำาคำาวา york ไปคน พบวาปรากฏทงหมด 95 ครง และทกครงทปรากฏจะปรากฏอยดานขวาของคำาวา new จงทำาใหเขาใจไดวาเหตใดคำาวา york จงมความสมพนธกบคำาวา new อยางมนยสำาคญทางสถต นอกจากน เมอคนคำาวา New York พบวามความถ 95 คร ง แสดงใหเหนวา New York เปนคำาทมความสำาคญในขาวบนเทงมากในระดบหนง
สวนคำาทปรากฏดานขวาของคำาวา new ทมความสำาคญอยางมน ยส ำาค ญทางสถต ในล ำาด บรองมาในอนด บ 2 ,3, 4 ได แก album, film และ series คำาวา album นน แมวาจะมความสำาคญทางสถตมากเปนอนดบสองรองจาก york แตมคาความสำาคญทางสถตเพยง 3.40 ซงถอวามชวงหางจากคาทางสถตของ
4
คำาวา york คอนขางมาก อยางไรกตาม ทงคำาวา album, film และ series นนตางกเปนคำาทน าจะมความสำาคญในขาวบนเทง เพราะมกจะเปนประเดนทขาวนำาเสนอ เมอมาปรากฏรวมกบคำาวา new ทำาใหเหนไดชดวาขาวบนเทงนยมนำาเสนอเร องเหลานเมอมประเดนใหมๆ ททนตอเหตการณ ตรงกบทคาดเดาไวในตอนตน ถอไดวาเป นลกษณะทส ำาค ญอยางหนงของขาวประเภทน เม อค นใน Collocates โดยใชสถตแบบ MI และตงคาเชนเดยวกบเมอใชสถต T-score พบวาผลคลายคลงกนมาก ตางกนเพยงแคลำาดบของคำาวา film และ series สลบกนเทานน
เมอนำาคำาวา new มาคนผานทาง Clusters โดยเลอกคนเรยงตามความถและเลอกคนความถการเกดอยางนอย 5 ครง พบวาผลมความสมพนธกบผลทไดจากการคน Collocates คอ new york เปน cluster ทมความถสงสด บาง cluster มความถสงแตคำาไมมความสมพนธกน เชน the new, a new cluster ทดจะมความสมพนธก นได แก new york, new album, new film และ new series
คำาตอมาทนาจะแสดงลกษณะเดนของขาวบนเทง คอ ค ำาวา film ซงอยในลำาดบความถท 42 มความถในการปรากฏ 251 ครง อยางไรกตาม ในการศกษาการปรากฏของคำาน ผวจยไดศกษารวมกนทงรปเอกพจนและพหพจน คอ ทง film และ films เนองจากทงสองคำานตางกนในเรองพจนเทานน แตหมายถงสงเดยวกน โดยคำาวา films นนอยในลำาดบความถท 168 มความถ 63 ครง
เมอคนใน Collocates โดยเลอก Sort by Stat ใชสถต T-score ดการปรากฏรวมทงซายและขวา ตงค าเป น Treat all data as lower case และเลอกคนเฉพาะความถการปรากฏรวมอยางนอย 5 ครงเทานน พบวา คำาทปรากฏรวมกบ film ทมความสมพนธเชงสถตสงสดคอ คำาวา the ซงปรากฏรวมทงดานซายและขวา แตผวจยเหนวา the เปน article ทไมไดมความสมพนธเปน
5
พเศษกบ film เมอพจารณาแลว พบวา คำาวา festival ซงมความถของการปรากฏรวมทางขวาอยในลำาดบท 3 นาจะมความสมพนธกบคำาวา film มากทสด วล film festival เปนอกวลหนงทแสดงใหเหนความเปนขาวบนเทง เพราะเปนเหตการณทมกจะถกนำาเสนอในขาวประเภทน
นอกจากน ผวจยยงไดคนการปรากฏรวมของคำาวา film และ films โดยใชสถตแบบ MI พบวา ผลทไดตางจากเมอใช T-score กลาวคอ เมอใช MI คนหาคำาปรากฏรวม พบวาคำาปรากฏรวมทคนมาไดนนดจะมความสมพนธกบคำาทคนมากกวาเมอใชสถต T-score ค ำาท มค าทางสถ ต สงสด 5 อนด บแรก ค อ festival, short, feature, uk และ original โดยทกคำาเปนคำาทปรากฏรวมทางซายของคำาวา film และ films ยกเวนคำาวา festival ซงปรากฏรวมทางขวา และมความสมพนธทางสถตสงสด คำาทปรากฏรวมทงทางซายและทางขวานนเปน content words ทมความสมพนธเชงความหมายกบคำาวา film ทงสน คำาวา the ซงเปนคำาปรากฏรวมทมความสำาคญสงสดตามสถตแบบ T-score ไมปรากฏวามความสำาคญทางสถตแบบ MI เลย ดงนน จะเหนไดวา สำาหรบคำาน การใชสถตแบบ MI นาจะใหผลทดกวาสถตแบบ T-score
คำาตอไปทเปน content word ทมความสำาคญในขาวบนเทง คอ คำาวา show อยในลำาดบท 59 มความถ 195 ครง เมอนำาไปดการปรากฏรวมใน collocates เลอกคนเฉพาะความถการปรากฏรวมอยางนอย 5 ครงเทานน โดยคนทงคำาวา show และ shows ซงคำาวา shows นนอยในลำาดบท 259 มความถ 44 คร ง พบวา เมอใชสถตแบบ T-score ตงคาเปน Treat all data as lower case และเลอกดคำาปรากฏรวมทางซายเทานน คำาสำาคญทปรากฏรวม คอ tv, horror, dating และ picture โดยคำาวา tv มคาทางสถตสงสดรองจากคำาวา the ซงผวจยไมถอวามความสมพนธอยางมนยสำาคญทางสถต เมอคนคำาสำาคญทปรากฏรวมทางซายโดยใช
6
สถตแบบ MI พบวา dating, horror, picture และ tv เปนคำาปรากฏรวมใน 4 อนดบแรก โดยคำา dating มคาทางสถตมากกวา horror ซงอยในอนดบสองถง 1.14 จะเหนไดวาการคนโดยใชสถตท งสองแบบใหผลท แตกตางก น สถ ต แบบ MI จะไมพบวาค ำาไวยากรณ เชน article ‘the’ มคาความสำาคญทางสถต นอกจากน จะเหนไดวาลำาดบของคำาทมความสำาคญทางสถตทไดจากสถตทงสองแบบตางกน เหนไดชดจากคำาวา tv ซงเปนอนดบแรกตามสถตแบบ T-score แตกลบเปนลำาดบสดทายตามสถตแบบ MI ทนาสงเกตคอคำาวา tv นนมความถในการเกดรวมกบคำาวา show และ shows มากกวาอกสามคำา แตกลบมคาความสำาคญทางสถตนอยกวาเมอใชสถตแบบ MI ผวจยจงเหนวาในการคนการปรากฏรวมควรจะคนโดยใชสถตทงสองแบบรวมกนเพอใหไดผลทครอบคลม ไมวาจะใชสถตแบบใด ทง 4 คำานกยงคงปรากฏวามความสำาคญอย ทำาใหแนใจไดวาคำาเหลานมความสำาคญจรงๆ สวนเมอพจารณาในแงเนอหาแลว ทงสามคำานเมอมาประกอบดานซายของคำาวา show จะเปนการใหรายละเอยด ขยายคำาวา show ซงนาจะเปนอกคำาหนงทถกนำาเสนอในขาวบนเทงมากกวาในขาวประเภทอน
Movie และ movies เปนอกคำาหนงทแสดงความเปนขาวบนเทงไดอยางชดเจน movie มความถการเกด 183 ครง อยในลำาดบท 61 สวน movies มความถ 62 คร ง อยในลำาดบท 172 เมอนำาไปคนใน Concordance จะเหนไดวา movie และ movies นนมการปรากฏรวมกบค ำาท หลากหลาย ผ ว จยจงน ำาไปค นใน Collocates เพอดการปรากฏรวมทมความสำาคญทางสถต โดยตงค าเป น Treat all data as lower case และเลอกคนเฉพาะความถการปรากฏรวมอยางนอย 5 ครงเทานน แตกลบพบวาคำาทปรากฏรวมเปนคำาไวยากรณ เชน this the but เปนตน จงถอไดวาไมม content word ใดทปรากฏรวมกบ movie และ movies อยางมนยสำาคญทางสถต
7
คำาวา star ปรากฏอยในลำาดบท 81 ความถในการเกด 131 ครง เมอนำาไปคนใน Concordance เพอดลกษณะการใช พบวามการใชใน 2 ความหมาย คอ ใชเปนคำานาม หมายถง ดารา นกแสดง และใชเปนคำากรยา แปลวา แสดง (ในภาพยนตร ละครโทรทศน ฯลฯ) ผวจยจงคนตอ โดยคนคำาวา star กบ stars ทเปนคำานามพรอมกน พบวามความถรวม 186 ครง เมอนำาไปคนการปรากฏรวมทางซายและทางขวา ใน Collocates ต งค า เป น Treat all data as lower case และเลอกคนเฉพาะความถการปรากฏรวมอยางนอย 5 ครงเทานน โดยใชสถตทงแบบ T-score และ MI พบวาผลออกมาในทศทางเด ยวกนคอมค ำาวา star กบ stars รวมกบค ำาวา wars, co, pop, movie, child แ ล ะ batman อ ย า ง ม น ยสำาคญทางสถต ผลทไดจากสถตทงสองแบบตางกนในแงของอนดบของคำาปรากฏรวมเทานน สวนทเหมอนกน คอ สถตทงสองแบบใหคำาวา wars มความสำาคญทางสถตมากทสด คำาวา wars นเปนคำาเดยวจาก 6 คำาขางตนทปรากฏรวมทางดานขวาของ star กบ stars เมอปรากฏรวมกนเปน Star Wars แลว เปนชอภาพยนตรเร องหน งท อย ในคลงขอมล เชนเด ยวก บ Batman star ซ ง Batman เปนชอภาพยนตรเรองหนงเชนกน สวนการใช star เปนคำากรยานน เมอคนโดยใช star กบ stars พรอมกน พบวามจำานวนไมมากนก เนองจากสวนใหญใชเปนคำานาม ผวจยจงไดคนเพมใน Concordance โดยคนคำาวา starred และ starring พบวาม ความถของทงสองคำารวมกน 45 ครง โครงสรางการใชทพบบอย ค อ ก า ร ใ ช starred แ ล ะ starring ต า ม ด ว ย ช อ น ก แ ส ด ง หมายความวา ภาพยนตรหรอละครเร องกลาวถงมาขางหนาแสดงโดยใคร
คำาวา music เปนอกคำาหนงทแสดงความเปนขาวบนเทง ปรากฏอยในลำาดบท 108 ความถในการเกด 94 ครง เมอนำาไปคนการปรากฏรวมทางซายใน Collocates ตงค าเป น Treat all
8
data as lower case และเลอกคนเฉพาะความถการปรากฏรวมอยางนอย 5 ครงเทานน โดยใชสถตทงแบบ T-score และ MI พบวาผลออกมาในทศทางเดยวกนคอมคำาวา video เปนคำาปรากฏรวมทางซายทมความสำาคญทางสถต เมอพจารณาในแงเนอหาแลว music video กเปนอกวลหนงทสำาคญและแสดงเนอหาทนำาเสนอในขาวบนเทง
Hollywood เปนอกคำาหนงทนาสนใจ เปนคำาทอางถงวงการบนเทงในสหรฐอเมรกาโดยตรง คำานอยในลำาดบท 115 มความถ 90 ครง เมอนำาไปคนการปรากฏรวมโดยใชสถตทง T-score และ MI ตงค าเป น Treat all data as lower case และเลอกคนเฉพาะความถการปรากฏรวมอยางนอย 5 คร งเทานน พบวาไมม content word ใดทปรากฏรวมทางซายของ Hollywood อยางมนยสำาคญ อาจเปนเพราะวาคำาวา Hollywood มความหมายทสมบรณในตวเอง ไมจำาเปนตองมคำาอนมาขยายอก สวนคำาปรากฏรวมทางขวาอยางมนยสำาคญในอนดบสงสดคอคำาวา reporter ม ความถในการปรากฏรวม 17 ครง เมอนำา Hollywood reporter ไปคนใน Concordance และเลอกด Concordance Plot พบวา Hollywood reporter มกจะเกดในชวงตนของขาว จงเลอกดใน File View พบวา Hollywood reporter มกจะปรากฏในลกษณะทเปนการระบแหลงขาว ซงจะอยในตอนตนกอนขนเนอขาว อยางไรกตาม บางครงกปรากฏในเนอขาวเชนกน
คำาวา tv ปรากฏในอนดบท 117 มความถ 89 ครง นาจะเปน content word ทมความสำาคญในขาวบนเทง ผวจยไดนำาไปคนการปรากฏร วม ใน Collocates ต งค า เป น Treat all data as lower case และเลอกคนเฉพาะความถการปรากฏรวมอยางนอย 5 ครงเทานน โดยเลอกดการปรากฏรวมทางซายกอน ในการใชสถตท ง T-score และ MI นน ผลทได ออกมาเหมอนกน คอมค ำาวา reality เปนคำาปรากฏรวมทางซายทมความสำาคญทางสถตสงสด
9
เมอดคำาปรากฏรวมทางขวา ผลทไดจากสถตทงสองแบบเหมอนกนเชนกน คอมคำาวา shows, series และ show เปนคำาปรากฏรวมทางขวาทมนยสำาคญทางสถตสงสด 3 อนดบแรกตามลำาดบ
คำาวา series ปรากฏอยในลำาดบท 127 มความถ 79 คร ง เมอนำาไปคนใน Collocates โดยใชสถตทง T-score และ MI ตงค าเป น Treat all data as lower case และเลอกคนเฉพาะความถการปรากฏรวมอยางนอย 5 ครงเทานนผลสอดคลองกน คอ มคำาวา tv และ new เปนคำาปรากฏรวมทางซายทสำาคญ นอกจากน ยงสอดคลองกบการคนการปรากฏรวมของคำาวา tv และ new ขางตน ทพบคำาวา series เปนหนงในคำาปรากฏรวมทสำาคญดวยเชนกน
คำาวา actor มความถการเกด 74 คร ง อยในลำาดบท 138 เมอนำาไปคนใน Collocates เพอดการปรากฏรวมทมความสำาคญทางสถต โดยตงคาเปน Treat all data as lower case และเลอกคนเฉพาะความถการปรากฏรวมอยางนอย 5 ครงเทานน และใชสถตทง T-score และ MI พบวาคำาทปรากฏรวมเปนคำาไวยากรณ จงถอไดวาไมม content word ใดทปรากฏรวมกบ actor อยางมนยสำาคญทางสถต
คำาวา album มความถ 74 ครงเทากบคำาวา actor เมอนำาไปคนใน Collocates เพอดการปรากฏรวมทมความสำาคญทางสถต โดยตงคาเปน Treat all data as lower case และเลอกคนเฉพาะความถการปรากฏรวมอยางนอย 5 ครงเทานน และใชสถตทง T-score และ MI พบวาผลออกมาในทศทางเดยวกน คอ มค ำาวา
new, last และ first เปนคำาปรากฏรวมทางซายทมความสำาคญทางสถตสงสดตามลำาดบ
ค ำาว า comedy อย ในอ นด บท 143 มความถ 71 คร ง comedy เปนประเภทหนงของการแสดง ละคร หรอภาพยนตร จงนาจะถอไดวาเปนคำาทมความสำาคญในขาวบนเทงและอาจจะไมพบในขาวประเภทอน เมอนำาไปคนคำาปรากฏรวมผาน Collocates โดยตง
10
คาเปน Treat all data as lower case เลอกคนเฉพาะความถการปรากฏรวมอยางนอย 5 ครงเทานน และใชสถตทง T-score และ MI พบวาคำาทปรากฏรวมเปนคำาไวยากรณ a the of จงไมนาจะมความสำาคำยหรอแสดงลกษณะพเศษของขาวบนเทง
คำาสดทายทเลอกศกษา คอ คำาวา director ซงอยในลำาดบท 149 มความถ 68 ครง ผวจยคาดวาในการคนคำาปรากฏรวม จะไดพบคำา เชน movie director แตเม อน ำาไปคนใน Collocates เพอดการปรากฏรวมทมความสำาคญทางสถต โดยตงคาเปน Treat all data as lower case เลอกคนเฉพาะความถการปรากฏรวมอยางนอย 5 ครงเทานน และใชสถตทง T-score และ MI พบวา คำาปรากฏรวมทางซายทมความสำาคญตามสถตทงสองแบบคอคำาวา writer เม อไปคนดใน Concordance จงเหนวา จะปรากฏในลกษณะ writer-director เปนการประสมคำานามเขาดวยกน
2.2 การน ำาคล งขอม ลไปใชก บ โปรแกรม Collocation Extract 3.07
ผ ว จ ย ได น ำาคล งขอม ลไปใชก บ โปรแกรม Collocation Extract เพอหาการปรากฏรวมทมความสำาคญทางสถต คนผานสถตทง 3 แบบ คอ Log Likelihood, Mutual Information และ Chisquare โดยเลอกดการปรากฏรวม 2 คำาทงหมด ผลเปนดงตารางดานลาง เรยงตามสถต Log Likelihood, Mutual Information และ Chisquare ตามลำาดบ
Log Likelihood
Word1
Freq1 Word2
Freq2 Freq12
ll
Los 76 angeles
75 75 1226.6212
Ne 261 york 95 95 1180.
11
w 0187Don
105 t 364 97 1071.7382
It 909 s 1664 242 1009.5513
Year
248 old 134 90 957.48848
Dark
61 knight
67 57 885.63942
I 774 m 130 95 794.91413
Of 2318 the 5415 503 783.65284
In 2056 the 5415 460 739.72012
To 2265 be 459 171 732.06131
Will 320 be 459 91 628.39503
Has
408 been 225 77 582.7922
Doesn
47 t 364 47 539.2408
More
205 than 121 55 536.48475
Didn
46 t 364 46 527.62974
Box
38 office 55 34 515.99866
I 774 think 121 67 498.91011
He 863 was 886 113 436.27137
At 536 the 5415 181 431.49652
On 837 the 5415 218 405.9
12
2659
Mutual Information
Word1
Freq1
Word2
Freq2
Freq12
mi
Sci 5 fi 5 5 14.364928
satanic
6 verses
5 5 14.101894
nelson
5 mandela
6 5 14.101894
bon 7 jovi 7 7 13.879501
kung 8 fu 8 8 13.686856
mamma
7 mia 8 7 13.686856
snoop 9 dogg 5 5 13.516931
mg 5 alba 9 5 13.516931
jay 10 z 5 5 13.364928
vicky 8 cristina
9 7 13.324286
beverly
8 hills 11 8 13.227425
lil 6 wayne
11 6 13.227425
steven
12 spielberg
6 6 13.101894
mary 10 kate 6 5 13.101894
harold
8 kumar
8 5 13.008784
13
las 12 vegas
13 12 12.986416
20th 8 century
13 8 12.986416
attempted
7 murder
12 6 12.879501
fu 8 panda
11 6 12.812387
san 15 diego
11 11 12.779966
Chisquare
Word1
Freq1 Word2
Freq2
Freq12
chi2
kung
8 fu 8 8 105498
bon 7 jovi 7 7 105498
sci 5 fi 5 5 105498
los 76 angeles
75 75 104108.88
del 16 toro 15 15 98903.437
las 12 vegas
13 12 97381.846
mamma
7 mia 8 7 92309.875
tropic
25 thunder
23 22 88798.197
satanic
6 verses
5 5 87914.167
nelson
5 mandela
6 5 87914.167
14
dark 61 knight
67 57 83854.399
san 15 diego 11 11 77362.266
beverly
8 hills 11 8 76723.636
vicky
8 cristina
9 7 71794.819
rocky
21 horror
29 20 69285.45
hip 16 hop 10 10 65932.5
20th 8 century
13 8 64918.769
warner
20 bros 12 12 63293.999
จากการคนผานสถตทง 3 แบบ พบผลทคลายคลงกน คอคำาปรากฏรวมทไดจำานวนมากเปนชอเฉพาะทแสดงลกษณะของความเปนขาวบนเทง เปนชอดารา นกแสดง นกรอง บรษทภาพยนตร เชน Box Office, Warner bros, Tom Cruise, Star Wars, Angelina Jolie, Beverly hills, Britney Spears, Naomi Campbell, 20th century, Walt Disney, sci fi, Golden Globe เปนตน
ความแตกตางของผลทไดจากสถตทงสามแบบ คอ ผลทไดจาก Chisquare และ Mutual Information (MI) นนจะเลอกใหช อเฉพาะมความสำาคญทางสถตคอนขางมาก ทำาใหช อเฉพาะจำานวนมากปรากฏในผลการคนเปนลำาดบแรกๆ เชน Mamma Mia, San Diego, Bon Jovi, Batman Begins เปนตน สวนผลทไดจากสถตแบบ Log Likelihood นน คำาปรากฏรวมในลำาดบแรกๆจะมชอเฉพาะอยบางแตในจำานวนไมมาก แตจะใหความสำาคญกบคำาไวยากรณมาก คำาปรากฏรวมจำานวนมากจงเปนคำาไวยากรณ เชน it’s, don’s, I’m, of the, in the, to be เปนตน
15
นอกจากน ผวจยยงไดศกษาการปรากฏรวมทนาสนใจอนๆเพมเตมทพบจากการใชโปรแกรมน เพอดลกษณะการใช เชน sci-fi ซงมความถเพยง 5 ครงเทานน แตมคาความสำาคญทางสถตสงสดตามสถตแบบ MI และสงเปนอนดบสามในสถต Chisquare เหตทวลนนาสนใจ เนองจาก sci-fi เปนคำาเรยกชอภาพยนตรหรอหนงสอประเภทหนง ตรงกบเนอหาทขาวบนเทงนำาเสนอ จงนาจะเปนอกวลหนงทแสดงลกษณะของความเปนขาวบนเทงไดด เมอนำาคำาวา sci-fi ไปคนในเมน Concord พบวาคำาทปรากฏรวมกบ sci-fi ทางดานขวาเปนคำานามทบอกวาส งใดทมล กษณะเปน sci-fi เชน sci-fi film, sci-fi genre เปนตน
อกคำาหนงทนาสนใจ คอ award ซงพบวาปรากฏรวมเปนทง academy award, award winning และ music awards จากการคนการปรากฏรวมโดยใชสถตทงสามประเภท ผวจยจงไดนำาคำาวา award มาคนผานเมน Concord เพอดการปรากฏรวมทงหมด จากนน จงใชเมน Search โดยใช keyword เปนคำาวา award เพอดการปรากฏรวมทมนยสำาคญทางสถต เมอคนโดยใชสถต Log Likelihood พบวา มการปรากฏรวมเปน academy award และ award winning เม อคนตอโดยใชสถต MI และ Chisquare พบวามการปรากฏรวมเปน award for ดวย โดย academy award เป นการปรากฏรวมทมน ยส ำาค ญทางสถตสงสดตามสถตทงสามแบบ
ผวจยยงไดนำาคำาวา award กลบไปคนเพมเตมในโปรแกรม AntConc พบวาปรากฏอยในลำาดบท 318 มความถ 37 ครง เมอค นในเมน Concordance พบวา academy award เป นช อรางวล award winning ใชเปนสวนขยายคำานามทหมายถงบคคลทไดรบรางวล award for หมายถง ใหรางวลแกบคคลใดหรอผลงานใด เชน นกแสดง นกดนตร เพลง เปนตน เม อนำาไปคนใน Collocates เพอดการปรากฏรวมทงทางซายและขวาทมความ
16
สำาคญทางสถต โดยตงคาเปน Treat all data as lower case เลอกคนเฉพาะความถการปรากฏรวมอยางนอย 5 ครงเทานน และใชสถตทง T-score และ MI พบการปรากฏรวมเพมเตมอกหนงแบบ คอ music award
3. สรปและอภปรายผลการศกษาจากการศกษาคลงขอมลขาวบนเทงขนาด 100,000 คำาโดย
ใชโปรแกรม AntConc พบวา content words ทแสดงลกษณะของความเปนขาวบนเทง และคำาปรากฏรวมทนาสนใจ มดงน
Words Collocationnew New York, new album,
new film, new series Film/films
Film festival, short film, feature film, UK film, original film
Show/shows
Tv show, horror show, dating show, picture show
Movie/movies
-
Star/stars
Star Wars, co-star, pop star, movie star, child star, batman star
Music Music videoHollywood
Hollywood reporter
Tv Tv show(s), tv seriesSeries Tv series, new seriesActor -Album New album, last album,
first albumComedy -Director Writer-director
17
นอกจากน จากการใชโปรแกรม Collocation Extract ประกอบการศกษา พบวามคำาอนอกทนาสนใจ เชน sci-fi, award เปนตน คำาทไดจากทงสองโปรแกรมนเปนคำาทมความโดดเดนในขาวบนเทง เปนตวแทนของเนอหาทแสดงความเปนขาวบนเทงไดเปนอยางด เนองจากคำาโดยสวนใหญเปนคำาทเปนประเดนของการนำาเสนอขาว คำาเหลานจงนาจะเปนลกษณะเดนในขาวบนเทง
จากการศกษาทงหมดน แสดงใหเหนวาในการศกษาคลงขอมลใดกตาม ควรใชโปรแกรมมากกวา 1 โปรแกรม รวมถงใชสถตหลายประเภท เพอใหไดผลทครอบคลมขอมลยงขน ดงตวอยางจากการศกษาน จะเหนไดวา เมอนำาขอมลไปใชกบโปรแกรม Collocation Extract ทำาใหเหนคำาทมความสำาคญในขาวบนเทงเพมขน และเมอคนการปรากฏรวมในโปรแกรม AntConc กจะไดคำาปรากฏรวมเพมเตมทแตกตางออกไป ครอบคลมขอมลมากยงขน ในการคนคำาปรากฏรวม ไม ว าจ ะ ใช โปรแกรม AntConc หรอ โปรแกรม Collocation Extract ผวจยกไดใชสถตทกประเภททมในโปรแกรมนนๆ แมสถตแตละประเภทจะใหผลทแตกตางกน แตกทำาใหแนใจไดวา คำาปรากฏรวมทพบในสถตทกประเภทหรอเกอบทกประเภทนนเปนคำาปรากฏรวมทมนยสำาตญทางสถตจรงๆ
18