ระบบอัตโนมัติส าหรับสกัดค...

72
ระบบอัตโนมัติสาหรับสกัดคานามประสมในประโยคภาษาไทย โดย นางสาวณิชชา บารุง วิทยานิพนธ์นี้เป็นส่วนหนึ่งของการศึกษาตามหลักสูตร วิทยาศาสตรมหาบัณฑิต (วิทยาการคอมพิวเตอร์ ) ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยธรรมศาสตร์ ปีการศึกษา 2558 ลิขสิทธิ์ของมหาวิทยาลัยธรรมศาสตร

Upload: others

Post on 09-Aug-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

ระบบอตโนมตส าหรบสกดค านามประสมในประโยคภาษาไทย

โดย

นางสาวณชชา บ ารง

วทยานพนธนเปนสวนหนงของการศกษาตามหลกสตร วทยาศาสตรมหาบณฑต (วทยาการคอมพวเตอร)

ภาควชาวทยาการคอมพวเตอร คณะวทยาศาสตรและเทคโนโลย มหาวทยาลยธรรมศาสตร

ปการศกษา 2558 ลขสทธของมหาวทยาลยธรรมศาสตร

Page 2: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

ระบบอตโนมตส าหรบสกดค านามประสมในประโยคภาษาไทย

โดย

นางสาวณชชา บ ารง

วทยานพนธนเปนสวนหนงของการศกษาตามหลกสตร วทยาศาสตรมหาบณฑต (วทยาการคอมพวเตอร)

ภาควชาวทยาการคอมพวเตอร คณะวทยาศาสตรและเทคโนโลย มหาวทยาลยธรรมศาสตร

ปการศกษา 2558 ลขสทธของมหาวทยาลยธรรมศาสตร

Page 3: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

An Automatic Compound Noun Extraction System

for Thai Sentences

BY

Ms. Nidcha Bumrung

A THESIS SUBMITTED IN PARTIAL FULFILLMENT OF THE REQUIREMENTS FOR THE DEGREE OF MASTER OF SCIENCE (COMPUTER SCIENCE)

DEPARTMENT OF COMPUTER SCIENCE FACULTY OF SCIENCE AND TECHNOLOGY

THAMMASAT UNIVERSITY ACADEMIC YEAR 2015

COPYRIGHT OF THAMMASAT UNIVERSITY

Page 4: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5
Page 5: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

มหาวทยาลยธรรมศาสตร คณะวทยาศาสตรและเทคโนโลย

วทยานพนธ

ของ

นางสาว ณชชา บารง

เรอง

ระบบอตโนมตสาหรบสกดคานามประสมในประโยคภาษาไทย

ไดรบการตรวจสอบและอนมต ใหเปนสวนหนงของการศกษาตามหลกสตร

วทยาศาสตรมหาบณฑต

เมอวนท วนท 4 มกราคม พ.ศ. 2559 ประธานกรรมการสอบวทยานพนธ

(ดร.ปกปอง สองเมอง) กรรมการและอาจารยทปรกษาวทยานพนธหลก

(ผชวยศาสตราจารย ดร.รชฎา คงคะจนทร)

กรรมการและอาจารยทปรกษาวทยานพนธรวม

(ดร.วสศ ลมประเสรฐ)

กรรมการสอบวทยานพนธ (ดร.มารต บรณรช)

คณบด (รองศาสตราจารยปกรณ เสรมสข)

Page 6: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

1

หวขอวทยานพนธ ระบบอตโนมตสาหรบสกดคานามประสมในประโยคภาษาไทย

ชอผเขยน นางสาว ณชชา บารง ชอปรญญา วทยาศาสตรมหาบณฑต สาขาวชา/คณะ/มหาวทยาลย วทยาการคอมพวเตอร

คณะวทยาศาสตรและเทคโนโลย มหาวทยาลยธรรมศาสตร

อาจารยทปรกษาวทยานพนธ ผชวยศาสตราจารย ดร.รชฎา คงคะจนทร ปการศกษา 2558

บทคดยอ

วทยานพนธฉบบนนาเสนอระบบอตโนมตสาหรบสกดคานามประสมในประโยคภาษาไทยโดยระบบประกอบดวยสสวน คอ การประมวลผลกอน การวเคราะหคานามประสมโดยใชรปแบบ การวเคราะหคานามประสมถาวร และ การวเคราะหคานามประสมโดยใชความหมาย โดยการหาหนาทของคาของประโยคแตละประโยคจะใชโปรแกรม swath เปนตวตดปายแบงแยกโครงสรางของคาแตละคาซงหนาทของคาแตละคาและจะมการพจารณาคาแตคาดวยกฎขอไวยากรณ ซงเปนกฏสาหรบคานามประสมทไดมาจากผเชยวชาญโดยคาทตรงกนตามกฎจะถอวาเปนคานามประสมจากนนจงจะเขาสการขนตอนแรกซงเปนการตรวจสอบคานามประสมโดยนาคาทไดจากกฎจากขางตนมาตรวจสอบกบพจนานกรม กรณทพบคานามประสมในพจนานกรมจะนบวาเปน “permanent compound noun” สวนกรณทไมพบคานามประสมในพจนานกรมตองเขาสขนตอนทสองการพจารณาคานามประสมซงประกอบดวยสขนตอนดวยกนคอความสมพนธแบบจากลม-ลกกลม คานามประสมไมสามารถแยกได คานามประสมสลบทไมได และ ไมมความเปนเจาของ กรณทพบทงสขนตอนจะถอวาเปนคานามประสม จากการทดลองคาทนามาตรวจสอบจะตองผานสวนท 1, 2, และ 3 หรอ 4 ถงจะสามารถสรปไดวาคาทนามาตรวจสอบเปนคานามประสม การทดลองเปนการใชบทความจากสารานกรมของคลงขอความภาษาไทย BEST Corpus Training Set 1 Release 3 ของศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต เปนตวทดสอบประสทธภาพซงจากผลการทดสอบไดคาความครบถวนเปน 55.38% และ คาความแมนยาเปน 41.38%

Page 7: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

2

Thesis Title An Automatic Compound Noun Extraction System for Thai Sentences

Author Ms. Nidcha Bumrung Degree Master of Science (Computer Science) Major Field/Faculty/University Department of Computer Science

Faculty of Science and Technology Thammasat University

Thesis Advisor Dr. Rachada Kongkachandra Academic Years 2015

ABSTRACT

This Thesis is proposed an automatic system for extracting some compound nouns from Thai sentences. The system includes four parts i.e. preprocessing, pattern-based compound noun analysis, permanent compound noun analysis and semantic-based compound noun analysis. The input sentences are firstly segmented and tagged their part-of-speeches by using SWATH. Then, the POS tags of each word are considered with syntactical rules for compound noun provided by the experts. The matched words according to the rules are counted as compound noun candidates. The first feature is to consider their appearances in the standard dictionary. If they are found in the dictionary, they then counted as the “permanent compound noun”. All candidates that are not found in the dictionary are then re-considered by their semantics. The four features as the superordinate- subordinate criterion, inseparable compound noun, unchangeable position compound noun and no ownership are employed. The candidates are considered as the compound nouns when the feature 1,2, and (3 or 4) are true. The five million word from BEST2010 encyclopedia are exploited to evaluate the system performance. The precision and recall of the extraction system are 41.37% and 55.38%.

Page 8: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

3

Keywords: Thai Compound nouns analysis, Automatic compound noun extraction-

system, permanent compound noun, Semantic-based criteria,

Superordinate-subordinate semantic

Page 9: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

4

กตตกรรมประกาศ

วทยานพนธเหลานสาเรจลลวงไดดวยความเมตตาจากผชวยศาสตราจารย ดร.รชฎา คง

คะจนทร อาจารยทปรกษาวทยานพนธ ตลอดจนคณาจารย และคณะกรรมการสอบวทยานพนธทก

ทาน ทสละเวลาอนมคาในการใหคาแนะนา ความร แงคด และทกษะตางๆ ทเกยวกบการทางาน

วจย ตลอดจนการตรวจสอบความถกตองในการจดทาวทยานพนธฉบบน จนงานวจยและวทยานพนธ

ฉบบนสาเรจลลวงไดดวยด รวมถงขอขอบคณเจาหนาทภาควชาวทยาการคอมพวเตอรทกทาน ทให

ความอนเคราะหและอานวยความสะดวกในการทาวทยานพนธมาโดยตลอด

ขอกราบขอบพระคณ มารดาทอยชวยตลอดตงแตเรมจนจบการทดสอบระบบรวมถงรน

พทธรรมศาสตรยอมสละเวลาคอยใหคาปรกษาและสอบถามขอสงสย ตลอดจนเพอนๆพๆและนองๆ

ทชวยทาแบบสอบถามในการทดสอบระบบ ขอขอบคณ วาสนา ทชวยในการใหคาปรกษาและพฒนา

ระบบ ขอขอบคณคณพรทวาและคณนลวนาทชวยเปนทปรกษาในเรองภาษาองกฤษ ขอขอบคณ

จฑามาศและคณนศาชลทสละเวลามาเปนทปรกษาและเปนผเชยวชาญ สดทายนขอขอบคณเพอนๆท

คอยใหกาลงใจและชวยเหลอจนวทยานพนธฉบบนสาเรจสมบรณขนได ขออนเชญคณพระศรรตนตรย

และสงศกดสทธทงหลาย คมครองปกปองรกษาใหทกทาน มความสข มความเจรญ มโภคทรพย

และมสขภาพพลานามยสมบรณแขงแรงตลอดไปดวยเทอญ

นางสาว ณชชา บารง

Page 10: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

5

สารบญ

หนา

บทคดยอภาษาไทย ( 1)

บทคดยอภาษาองกฤษ ( 2)

กตตกรรมประกาศ ( 3)

สารบญตาราง ( 10)

สารบญภาพ ( 11)

บทท 1 บทนา 1

1.1 ความเปนมาและความสาคญของปญหา 1

1.2 วตถประสงคงานวจย 2

1.3 ขอบเขตงานวจย 2

1.4 คาจากดความ 3

1.4.1 การจบคคาจากความสมพนธของคา 3 1.4.2 Compounds noun 3 1.4.3 การแยกคานามประสม 3 1.4.4 N-gram 3 1.4.5 Lexitron 4 1.4.6 Superordinate-Subordinate 4 1.4.7 ความถาวร 4 1.4.8 Part of Speech 4

1.5 ประโยชนทคาดวาจะไดรบ 5

Page 11: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

6

1.6 รายละเอยดวทยานพนธ 5

บทท 2 วรรณกรรมและงานวจยทเกยวของ 6

2.1 ทฤษฎทเกยวของ 6

2.1.1 MultiWord Expressions (MWEs) 6 2.1.1.1 compounds noun 6 2.1.1.2 Idioms 6 2.1.1.3 lexical collocation 7 2.1.1.4 complex lexical items 7 2.1.1.5 particle verbs 7 2.1.1.6 Named Entity 8 2.1.1.7 Figurative expressions 8 2.1.1.8 Institutionalized phrases 8 2.1.1.9 terminology 9 2.1.1.10 light verb 9

2.1.2 คาและการสรางคาในภาษาไทย 10 2.1.2.1 ประเภทของคาประสม 10

2.1.3 ลกษณะคาประสม 11 2.1.4 คานามประสม 12 2.1.5 หนงสอศาสตรและศลปในการสรางคาไทย 13

2.2 งานวจยทเกยวของ 15

2.2.1 Downing and Levi (2520) 15

Page 12: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

7

2.2.2 ณฐกานต เพงผล (2545) การวเคราะหนามวลภาษาไทย 16 โดยอางองขอมลสถตและขอสนเทศทางภาษา

2.2.3 C. Hansakunbutheung, A. Thangthai, C. Wutiwiwatchai and 16 R.Siricharoenchai (2548) Learning Methods and Features

for Corpus-Based

2.2.4 Kanyanut Kriengket, KritKo Sawat, Sunant Anchaleenukul (2550) 17 A Computation Linguistics Study of Compound Nouns in Thai

2.2.5 กญญาณฐ เกรยงเกต (2550) การศกษาคานามแสดงอปกรณดาน 19 วทยาศาสตรแนวภาษาศาสตรคอมพวเตอร

2.2.6 ณรงคกรรณ รอดทรพย (2554) โครงสราง และ วากยสมพนธของนามวล 20 ภาษาไทยในปายรณรงคหาเสยงเลอกตงสมาชกสภาผแทนราษฎร

บทท 3 วธการดาเนนงานวจย 24

3.1 ความเปนมาและความสาคญของปญหา 24

3.2 แนวคดพนฐาน 25

3.3 ขนตอนการทางานของระบบ 25

3.3.1 Thai Input Sentence 26 3.3.2 Word Segmentation Pos Tagging 27 3.3.3 Pattern-based Compound Noun Analysis 28 3.3.4 Thai Linguistic Rules 29 3.3.5 Permanent Compound Noun Analysis 31 3.3.6 Semantic-based Compound Noun Analysis 31 3.3.7 คานวณเปอรเซนโอกาสทจะเปนคานามประสม 32

3.4 เครองมอทใชสาหรบพฒนาระบบ 33

3.5 การฝกฝนทดลอง 33

Page 13: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

8

3.6 การวดผลการทดลอง 34

3.6.1 คาความครบถวน (Recall) 34 3.6.2 คาความแมนยา (Precision) 34

บทท 4 ผลการวจย 35

4.1 การเตรยมขอมล (Preprocessing) 35

4.1.1 เครองมอทใชสาหรบการทดสอบระบบ 35 4.2 การทดลอง 36

4.2.1 Permanent Compound Noun Analysis (การตรวจสอบคานามประสม) 36 4.2.2 Semantic-based Compound Noun Analysis 39 (การพจารณาคานามประสม) 4.2.3 ตารางสรปผลการทดลอง 40

4.2.3.1 Permanent Compound Noun Analysis 40 4.2.3.2 Semantic-based Compound Noun Analysis 41

4.3 วธวดผลการทดลอง 41

4.3.1 ตรวจสอบโดยผเชยวชาญ 41 4.3.2 การวดผลการทดลอง 42

บทท 5 สรปผลการวจยและขอเสนอแนะ 43

5.1 สรปผลการทดลอง 43

Page 14: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

9

5.1.1 สวนท 1 ตรวจสอบคานามประสม 43 5.1.2 สวนท2 สวนพจารณาคานามประสม 43

5.1.2.1 Superordinate-Subordinate 43 5.1.2.2 Permanent 43 5.1.2.3 ตรวจสอบการสลบทการแยกคาและการแสดงความเปนเจาของ 43

5.1.3 การวดผลการทดลอง 43 5.1.3.1 การวดผลจากผเชยวชาญ 43 5.1.3.2 การวดผลจากการทดลอง 44

5.2 การอภปรายผลการทดลอง 44

5.2.1 ความผดพลาดทเปนปญหากอนการประมวลผลขนตน 44 5.2.2 ลกษณะปญหาตางๆทเกดขนในการทดลอง 45

5.3 สรปผลการวจย 48

รายการอางอง 49

ภาคผนวก

ภาคผนวก ก ประวตผเชยวชาญคนท 1 51

ภาคผนวก ข ประวตผเชยวชาญคนท 2 52

ภาคผนวก ค ประวตผเชยวชาญคนท 3 53

ประวตผเขยน 54

Page 15: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

10

สารบญตาราง

ตารางท หนา

2.1 ความหมายแตกตางจากเดม 11

2.2 คงเคาความหมายเดม 12

2.3 Parts of speech Compound Nouns 12

2.4 การเปรยบเทยบงานวจยทเกยวของ 21

3.1 กฎคานามประสม 30

3.2 เครองมอทใชสาหรบงานวจย 33

4.1 ตารางสรปผลการทดลอง 41

5.1 การแบงคาจากประโยคโดยมคานามประสมตดไปกบคาอน 45

5.2 แบงคาไมถกตอง 46

5.3 สลบทแบงคาไมถกตอง 47

5.4 Superordinate-Subordinate (sup-sub) แบงคาไมถกตอง 48

Page 16: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

11

สารบญภาพ

ภาพท หนา

2.1 การสรางคา 10

2.2 superordinate-subordinate 14

2.3 unrelated meaning 14

2.4 ความถาวร 15

2.5 กระบวนการหาขอบเขตของวล 17

2.6 คาประสมแบบเขาศนย (endocentric compound) 18

2.7 คาประสมแบบออกนอกศนย (exocentric compound) 18

3.1 คาทตรวจสอบไมได 24

3.2 องคประกอบภาพรวมของระบบ 26

3.3 การนาบทความเขาสระบบ 26

3.4 Part of Speech ของ swath 27

3.5 Part of Speech ของ Lexitron 27

3.6 แบงแยกโครงสรางของคาแตละคา 28

3.7 วธการจบคความสมพนธของคา 28

3.8 ตวอยางการจบคความสมพนธของคา 29

3.9 การตรวจสอบคานามประสม 31

3.10 พจารณาคานามประสม 32

3.11 คาความครบถวน (Recall) 34

3.12 คาความแมนยา (Precision) 34

4.1 การแบงกลมคาออกจากกน 36

4.2 การจบคความสมพนธของคา 36

4.3 ตวอยางการจบคความสมพนธของคา 37

4.4 ตวอยางการตรวจสอบกฎคานามประสม 38

4.5 ตวอยางการตรวจสอบกบพจนานกรม 38

Page 17: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

12

4.6 ตวอยางคาทใชในการพจาณา 39

4.7 โครงสรางการแสดงความเปนเจาของ 40

4.8 ลาดบการเรยงคา 40

5.1 ความคลมเครอในการกาหนดขอบเขตของคา 44

5.2 ไมสามารถแบงคาออกเปนคายอยๆได 45

5.3 คดแยกออกมาไมถกตอง 46

Page 18: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

1

บทท 1 บทน า

1.1 ความเปนมาและความส าคญของปญหา

การตรวจสอบคานามประสมจากประโยคภาษาไทยมวตถประสงคเพอทาใหคอมพว เตอร สามารถรบรและสามารถตรวจสอบหาคานามประสมทอยภายในประโยคกอนทคอมพวเตอรจะนาขอมลไปประมวลผลในสวนงานอนๆ โดยขอมลทใชในการศกษาเปนบทความจากสารานกรมของคลงขอความภาษาไทย BEST Corpus Training Set 1 Release 3 ของ NECTEC

การศกษาเกยวกบคาในภาษาไทยเรองของการนาคาตางๆ มาประกอบกนเปนกลมคาเพอใชในการสอสาร นกไวยากรณไทยแตเดมมา เรยกกลมคาทประกอบกนบางแบบวาประโยค (พระยาอปกตศลปสาร ๒๕๔๘ ) และ เรยกกลมคาทประกอบกนแบบอนๆ วา วล การตงชอวลตงตามชนดของคาทอยตนวล อาท วลทมคานามอยตนวล จะเรยกวา นามวล สวนวลทมคากรยาอยตนวล จะเรยก กรยาวล ตอมามการศกษาเกยวกบการนาหนวยคาอสระตงแต 2 หนวยขนไปมาประสมกนทาใหเกดเปนคาใหมทมความหมายใหมหนงหนวยความหมาย โดยจะเรยกคานนวา คาประสม ซงคาประสมจะมความแตกตางกบวลในเรองของความหมาย กลาวคอ วลจะเกดจากคาหรอหนวยคาอสระตงแต 2 คาขนไปมาเรยงตอกนและไมเกดความหมายใหม สวนคาประสมเมอนาหนวยคาอสระตงแต 2 คามาเรยงตอกนจะตองเกดเปนความหมายใหมหนงหนวยความหมาย ซงในงานวจยฉบบนจะเนนมงไปทการศกษาในสวนของคานามประสม

รปแบบของคานามประสมทาใหสามารถสะทอนใหเหนถงลกษณะทางสงคมและ วฒนธรรมได ดงท คณอญชล สงหนอย ไดนาเสนอคอ คานามประสมเปนรปแบบหนงของภาษาทสามารถแสดงหรอสะทอนใหเหนถงพนฐานทางสงคม และวฒนธรรมของผพดภาษานนๆ ไดอยางชดเจน ผทพดภาษาตางกนและมวฒนธรรมทตางกน ยอมมพนฐานทางความคดทแตกตางกนในการสรางคาประสมเพอใชเรยกสงของ คณอญชล สงหนอยไดใหตวอยางเชน คาวา แมบาน ในภาษาไทยเกดจากการนาเอาคาวา แม และ บาน มาประสมกน เพอใชเรยกภรรยาของพอบาน หญงผจดการงานในบาน ซงขณะเดยวกน ในภาษาองกฤษกมการประสมคาทใชในความหมายเดยวกนน แตเลอกคาทแตกตางออกไปมาประสมกน คอ คาวา wife แทนทจะเปนคาวา mother เหมอนดงเชนในภาษาไทย มาประสมกบคาวา house เปน housewife มาใชเรยกบคคลดงกลาว

Page 19: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

2

สาหรบคานามประสมในภาษาไทยอาจประกอบดวยคา 2 คาหรอมากกวานน โดยขนอยกบววฒนาการในการใชและการยอมรบกนเปนสากลไมไดมกฎเกณฑใดตายตว ซงสามารถตรวจสอบการใชทถกตองไดจากพจนานกรมทมการปรบปรงลาสด จากปญหาขางตนทาให คอมพวเตอรไมสามารถตรวจสอบไดวา ภายในประโยค 1 ประโยค มคานามประสมอยรวมดวย ซงจะสงผลกระทบตอการนาขอมลไปประมวลผลในลาดบถดไป

ดงนน ผศกษาจงเกดแนวความคดในการแกปญหา โดยนาเทคนควทยาการคอมพวเตอรซงเปนการนาโครงสรางของคานามประสมมาใชในการตรวจสอบ เพอคดแยกคานามประสมออกจากประโยคดวยวธทางอลกอรทม จากนนจงนาไปตรวจสอบ เพอคดแยกคานามประสมออกจากประโยคดวยวธการ 2 ขนตอนคอ การตรวจสอบคานามประสม และ การพจารณาคานามประสม

1.2 วตถประสงคงานวจย

1. เพอศกษาหลกการในการคดแยกคานามประสมออกจากประโยค 2. เพอศกษาหลกการในการตรวจสอบคานามประสมภายในประโยคของภาษาไทย 3. เพอนาเสนอวธการแกไขปญหาการคดแยกคานามประสมออกจากประโยคใน

ภาษาไทย ไดแก การจบกลมจากโครงสราง Part of Speech ของคานามประสม, การตรวจสอบ คานามประสม และ การพจารณาคานามประสม 1.3 ขอบเขตงานวจย

1. ประโยคทนามาใชในการทดสอบการคดแยกคานามประสม เปนบทความทมประโยค ไมยาวมากนก และมการเวนวรรคของแตละประโยคอยางชดเจน

2. ขอมลทใชในการทดสอบ จะใช swath ในการหาสวนประกอบของประโยค แตไมสามารถตรวจสอบคาท swath คนหาสวนประกอบออกมาผดได

3. คาแตละคาภายประโยคจะตองมความถกตองตามหลกไวยากรณ 4. ขอมลทใชในการทดสอบ เปนบทความจากสารานกรมของคลงขอความภาษาไทย

BEST Corpus Training Set 1 Release 3 ของ NECTEC

Page 20: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

3

1.4 ค าจ ากดความ

1.4.1 การจบคค าจากความสมพนธของค า เปนการแตกคาแตละคาทอยภายในประโยคออกมาทละลาดบชน โดยอางอง

จากความสมพนธของคา ดวยวธการจบคความสมพนธของคา 1.4.2 Compounds noun

คานามประสม คอ คานามทเกดจากการนาเอาคาตงแต 2 คา ขนไป มารวมกนแลวเกดเปนคานามคาใหมขนมา โดยจะมคาคาหนงทจะอยขางทายจะทาหนาทเปนคาหลก ( head) และคาทอยขางหนา ทาหนาทเปนสวนขยาย ( modifier) เมอรวมกนแลวอาจเกดเปนคาใหม คาเดยวกน หรอแยกเปน 2 คาทยงคงคาเดม หรอใส – (hyphen) เชอมระหวางคา ทงนขนอยกบววฒนาการในการใชและการยอมรบกนเปนสากลไมไดมกฎเกณฑใดตายตว ซงสามารถตรวจสอบ การใชทถกตองไดจากพจนานกรม (dictionary) ทมการปรบปรงลาสด

1.4.3 การแยกค านามประสม การแยกคานามประสมเปนเทคนคในการแบงแยกคานามประสมออกจาก

ประโยค โดยใชโครงสรางของคานามประสมในการคานวณหาวธการแบงแยกคานามประสมออกจากประโยค

1.4.4 N-gram แบบจาลองทใชคานวณคาความนาจะเปนของชดอกขระ ( Character

Sequence) ทเกดขนรวมกนเปนคา หรอคาความนาจะเปนของคาทเขยนเรยงกน ( Word Sequence) ทเกดขนรวมกนเปนประโยค โดยคาความนาจะเปนของชดอกขระหรอคา ประมาณไดจากคลงขอมลทสรางไว ซง N-Gram ไดใชหลกการของสถตในหลาย ๆ ดานมาประยกตใช

1. การประมาณคาดวย 2-Gram (Probability Bigram) คอ การประมาณ คาความนาจะเปนของชดอกขระทเกดขนรวมกนทจะพบ อกขระ (คา) ทละ 2 ตว (คา) ตดกนใน ชดอกขระนน

2. การประมาณคาดวย 3- Gram (Probability Trigram) คอ การประมาณ คาความนาจะเปนของชดอกขระทเกดขนรวมกนทจะพบ อกขระ (คา) ทละ 3 ตว (คา) ตดกนใน ชดอกขระนน

3. การประมาณคาดวย 4- Gram (Probability Quadgram) คอ การประมาณคาความนาจะเปนของชดอกขระทเกดขนรวมกนทจะพบ อกขระ (คา) ทละ 4 ตว (คา) ตดกนใน ชดอกขระนน หรออาจประมาณคาความนาจะเปนจากความยาวของเอนแกรมมากกวา 4-แกรม กไดขนอยกบความจาเปนในการทดลอง แตระบบของเอนแกรมจะยงซบซอนมากขนตามลาดบ

Page 21: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

4

1.4.5 Lexitron พจนานกรมสออเลกทรอนกสไทย องกฤษ สามารถใชงานไดสองรปแบบ คอ

ระบบออนไลนใหบรการผานทางเวบไซตและระบบออฟไลน ผใชสามารถดาวนโหลดไปใชงานบนเครองคอมพวเตอรสวนบคคลได โดยคาศพทจะแสดงความหมาย ประเภทของคา นยามของคาศพท คาพอง คาตรงขาม คาลกษณะนาม ประโยคตวอยางทมการใชงานจรง

1.4.6 Superordinate-Subordinate X-x = Xx/x ซง X เปนคาวา ปลา สวน x เลก คอ ดก เมอนามาผสมกนจะได

ความสมพนธเปนลกษณะของ superordinate-subordinate คอ ปลา-ดก 1.4.7 ความถาวร

การจาแนกอรรถสมพนธพนฐาน โดยพนฐานความเชอทเกยวกบความถาวร และ ความเปนปกตวสยของสงตางๆ เชน ประเทศไทย ประเทศจน เปนการใชเรยกชอของประเทศแตละประเทศ ซงมความถาวรหรอเปนสงทาเปนปกตวสย เปนคาทใชกนทวไปและคนทวไปสามารถเขาใจความหมายได

1.4.8 Part of Speech สวนทประกอบออกมาเปนคาพด หรอออกมาเปนประโยค สามารถแบงออกเปน

8 ชนด ไดแก 1. คานาม (Noun) คอคาทใชเรยกชอคน สตว สงของ สถานท 2. คาสรรพนาม (Pronoun) คอคาทใชแทนคานาม 3. คาคณศพท (Adjective) ใชขยายนามหรอสรรพนาม 4. คาวเศษณ (Adverb) คอคาทใชแสดงความเคลอนไหวของนามหรอสรรพนาม 5. คากรยา (Verb) คอคาทใชขยายกรยา คณศพท และกรยาวเศษดวยกน 6. คาบพบท (Preposition) คอคาทใชบอกความสมพนธกบนามหรอกรยา 7. คาสนธาน (Conjunction) ใชเชอมประโยค หรอคา 8. คาอทาน (Interjection) ใชเพอแสดงความรสก เสยใจ หรอประหลาดใจ

Page 22: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

5

1.5 ประโยชนทคาดวาจะไดรบ

1. สรางโปรแกรมทสามารถตรวจสอบคานามประสมจากประโยคไดอยางถกตอง 2. ทาใหคอมพวเตอรสามารถแยกคานามประสมออกจากประโยคไดอยางถกตอง 3. สามารถแกปญหาการแยกคานามประสมออกจากประโยค ดวยใชวธการทาง

อลกอรทมอยางถกตองได 1.6 รายละเอยดวทยานพนธ วทยานพนธฉบบนประกอบดวยบทนาในบทท 1 จะกลาวถงความเปนมาและความสาคญของปญหา วตถประสงคของงานวจย ขอบเขตของงานวจย คาจากดความ และผลประโยชนทคาดวาจะไดรบ บทท 2 กลาวถงทฤษฎตางๆ ทเกยวของกบงานวจย รวมทงงานวจยอนๆ ทเกยวของ บทท 3 เปนการอธบายวธการดาเนนงานวจย แนวคดพนฐานและขนตอนการดาเนนงาน บทท 4 เปนสวนของผลการทดลองและการประเมนผลการทดลอง และบทท 5 บทสดทาย เปนสวนของการสรปผลการทดลองของงานวจย รวมทงรายละเอยดและขอเสนอแนะ

Page 23: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

6

บทท 2 วรรณกรรมและงานวจยทเกยวของ

2.1 ทฤษฎทเกยวของ

ในวทยานพนธนนาเสนอเกยวกบคานามประสม ซงจดอยในประเภทหนงของMultiword Expression งานวจยฉบบนเปนการตรวจสอบคานามประสมจากประโยคภาษาไทย โดยมวตถประสงค เพอใหคอมพวเตอรสามารถรบรและสามารถตรวจสอบหาคานามประสมภายในประโยค กอนทคอมพวเตอรจะนาขอมลไปประมวลผลในลาดบถดไป

2.1.1 Multiword Expressions (MWEs)

บางวลในพจนานกรม จะประกอบดวย หนงคาหรอสองคาหรอมากกวานน โดยเฉพาะ phrase (วล) ยกตวอยางเชน strong tea ไมไดหมายถง ชาทแขงแรงหรออวน แมวาคาคณศพทเหลานนอาจจะใชอธบายชาทมมากกวาปรมาณปกตของรสชาต แตบางครงวลอาจมความหมายทแตกตางจากคาทนามาประกอบกน เชน วล kick the Bucket ซงมความหมายวา ตาย โดยเรยกวลขางตนวา MWEs

Multiword Expressions สามารถแบงออกเปนหลายประเภท คอ idioms, compounds noun, lexical collocation, complex lexical items, particle verbs, named entities, figurative expressions, Institutionalized phrases, terminology และ light verb

2.1.1.1 compounds noun compounds noun หมายถง การนาคาตงแต 2 คา มารวมกน แลวเกด

เปนคานามใหมขนมา โด ยเมอรวมกนแลว อาจเกดเปนคาใหมทมความหมายตางจากคาทนามารวมกน หรอยงคงมเคาความหมายเดม ทงนขนอยกบววฒนาการในการใชและการยอมรบกนเปนสากลไมไดมกฎเกณฑใดตายตว ซงสามารถตรวจสอบการใชทถกตองไดจากพจนานกรมทมการปรบปรงลาสด

2.1.1.2 Idioms Idioms หมายถง สานวนหรอถอยคาทไมไดมความหมายตรงตว

ซงสามารถแสดงตวอยางไดดงน so far หมายถง จนถงทกวนน, จนกระทงปจจบน, จนเดยวน to a limited extent หมายถง เพยงแคน, เพยงเทาน

Page 24: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

7

2.1.1.3 lexical collocation lexical collocation หมายถง กลมคาทปรากฏรวมกน มกประกอบดวย

คานาม คากรยา คาคณศพท หรอ คากรยาวเศษณ สาหรบผเรยนภาษาองกฤษเปนภาษาทสอง จะพบวามพจนานกรมแบบ

collocation ทชวยบอกและอธบายวาคาไหนทนยมใชคกบคาไหนบอยๆ เชนคาวา knowledge กจะมคาทนยมใชคกนคอ considerable, great, vast, comprehensive, sound, thorough, detailed, broad, extensive, inside, common, factual, practical, up-to-date เปนตน

2.1.1.4 complex lexical items complex lexical items หมายถง คาประสาน ซงกคอกลมคาทปรากฏ

รวมกน และเมอแบงคาออกเปนหนวยยอย จะมสวนหนงทสามารถอยตามลาพงได และอกสวนหนงทไมสามารถอยตามลาพงได ตวอยางค าในภาษาองกฤษ

pretest precook immaterial immature devalue decode quickly happily noted lifted bigger longer

จากตวอยาง คาทสามารถอยตามลาพงได คอคาวา test, cook, material, mature, value, code, quick, happy, note, lift, big และ long สวนคาทไมสามารถอยตามลาพงได คอคาวา pre, im, de, ly, er และ ed

2.1.1.5. Particle verbs Particle verbs หมายถง กรยาวล โดยสามารถเรยกชอไดหลายรปแบบ

คอ two-part verbs, three-part verbs, two-word verbs และ multi-word verbs เปนตน แตตามไวยากรณในภาษาองกฤษ กรยาวล คอ phrasal verb โดยลกษณะของกรยาวล จะมคากรยาหนงคาและคาอนๆ อกหนงหรอสองคา โดยเมอประกอบกนขนเปนกลมคา จะทาใหเกดความหมายใหมขนมาหรออาจจะไมมเคาความหมายของคากรยาเดมเลย

คาอนๆ ทกลาวถงจากบรบทแรก จะเรยกวาสวนประกอบหรอ particles โดยมากจะเปน down, in, off, out, up เปนตน เมอสวนประกอบมาอยรวมกบคากรยาจะเกดเปนความหมายใหม โดยสวนประกอบจะเปลยนความหมายเดมของคากรยา ซงแตกตางจากการใชคากรยารวมกบคาบพบท หรอการใชคากรยารวมกบคากรยาวเศษณ เพราะคาบพบทและ

Page 25: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

8

คากรยาวเศษณ ไมไดเปลยนความหมายเดมของคากรยาแต particle จะเปลยนความหมายของคากรยา

2.1.1.6 Named Entity Named Entity หมายถง คานามเฉพาะ ซงคอคาททาหนาทระบชเฉพาะ

ถงสงตางๆ เชน บคคล ชอองคกร ชอสถานท รวมไปถงนพจนแสดงวนเวลา ปรมาณเงน และ เปอรเซนต

2.1.1.7 Figurative expressions Figurative expressions จะแบงรปแบบการเปรยบเทยบออกเปน 2

รปแบบดงน 1. Simile หมายถง เปนการนาของสองสงมาเปรยบเทยบกน โดยม

คาเชอม like /as เพอแสดงความคลายคลงกนดงน ตวอยาง

The grass is like a green carpet. This hall is as quiet as a graveyard. Love is like a rocket.

2. Metaphor หมายถง คาอปมาอปไมย เปนการเปรยบเทยบของ

สงหนงเปนอกสงหนง โดยอาศยความหมายแฝง ซงหากดตามโครงสรางประโยคแลวเหมอนไมใช การเปรยบเทยบ ตวอยาง

Prasit ’s home is an antique shop. Non is a tiger when he is angry. Pim was a goddess of beauty.

2.1.1.8 Institutionalized phrases Institutionalized phrases หมายถง การรวมกนของกลมคา ซงคาท

เกดขนมาจากการผสมคาทมความหมายในตวเองเขาดวยกน แลวกลายเปนคาใหมทมเคาความหมายเดม หรอไมคงเหลอเคาความหมายเดมดงตวอยางดานลาง

Page 26: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

9

ตวอยาง เคาความหมายเดม Traffic หมายถง การจราจร Light หมายถง แสง Traffic Light หมายถง สญญาณไฟจราจร

จากตวอยางขางตนการนาคาวา traffic กบ light มาผสมกนจะเกดเปนคาใหมทมความหมายวา สญญาณไฟจราจร ซงยงคงมเคาความหมายเดม แตทงนทงนนความหมายนนอาจจะเปลยนไปโดยสนเชง และไมคงเหลอเคาความหมายเดมของคาทนามาประสมกนเลยดงตวอยางดานลาง ตวอยาง ไมคงเหลอเคาความหมายเดม

Salt หมายถง เกลอ Pepper หมายถง พรกไทย Salt and Pepper หมายถง ผมหงอก

2.1.1.9 terminology terminology หมายถง คาศพทเฉพาะทาง เปนคาทใชเฉพาะกลมหรอ

เฉพาะอาชพ ซงสามารถยกตวอยางไดดงน ตวอยาง

white dwarf คอ ดาวแคระขาวเปนดาวทอณหภมผวสงมากแตไมคอยสวาง Law of Mass Action คอ อตราการเกดปฏกรยาเคมซงจะเปนสดสวน โดยตรงกบ

ความเขมขนของสารตงตนทเกดปฏกรยา

2.1.1.10 light verb light verb คอ กรยาเฉพาะทมความหมายในตวเองตวอยาง เชน do

หรอ take แตทแสดงความหมายซบซอนมากขน เมอรวมกบคาอนโดยสวนมากเปนคานาม เชน do a trick or take a bat

Page 27: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

10

สาหรบในงานวจยฉบบนจะมงเนนศกษาเกยวกบคานามประสม compounds noun ในภาษาไทยเพอทาใหคอมพวเตอรสามารถรบรและสามารถตรวจสอบเพอคนหาคานามประสมภายในประโยคกอนทคอมพวเตอรจะนาขอมลไปประมวลผลในลาดบถดไป

2.1.2 ค าและการสรางค าในภาษาไทย 1. คา คอ เสยงทเปลงออก แตตองมความหมายหนงความหมาย 2. คามล คอ “คาพนฐานทมความหมายสมบรณในตวเอง กลาวคอ เปนคาท

สรางขนโดยเฉพาะ เพอใชเรยกสงใดสงหนง อาการใดอาการหนง โดยอาจเปนคาไทยดงเดมหรอเปนคาทมาจากภาษาอน ” (สบคนจาก โรงเรยนมหดลวทยานสรณ , เอกสารประกอบการเรยน รายวชา ท๔๐๑๐๕ หลกภาษาไทยในชวตประจาวน)

3. คาประสม คอ คาทเกดจากการนาคามลตงแตสองคาขนไปมาผสมกน แลวเกดความหมายใหมหนงหนวยความหมาย หรอยงคงมเคาความหมายเดม จากคาอธบายขางตนสามารถสรปออกมาไดดงภาพท 2.1

ภาพท 2.1 การสรางคา

2.1.2.1 ประเภทของค าประสม

(1) ค าทน ามาประสมกนน ามาจากภาษาใดกได 1. คาประสมทเปนคาไทยกบคาไทย ตวอยางเชน แม+บาน = แมบาน ,

พอ+ตา = พอตา, โรง+เรยน = โรงเรยน 2. คาประสมทเปนคาไทยกบบาลตวอยางเชน ราช+วง = ราชวง,

พล+เรอน = พลเรอน, รถ+ไฟ = รถไฟ 3. คาประสมระหวางภาษาบาล สนสกฤตหรอคาทมาจากภาษาอน เชน

กจ+ธระ = กจธระ, วงศ+ญาต = วงศญาต, นา+ซป = นาซป

Page 28: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

11

(2) ค ามลทน ามาผสมกน อาจเปนนาม สรรพนาม กรยา วเศษณ บพบท 1. คาประสมทมคานามเปนตวตง เชน พอตา ปากจด คนใช นาหวาน

คนนอก ภาคใต 2. คาประสมทมคากรยาเปนตวตง เชน ยงปน เชอใจ หอหมก จบจอง

อวดด 3. คาประสมทมคาวเศษณเปนตวตง เชน หลายใจ นารก หวานเยน 4. คาประสมทมคาบพบทเปนตวตง เชน ใตเทา ทนอน ใตดน

2.1.3 ลกษณะค าประสม 1. ความหมายแตงตางจากเดม เปนการนาคามลตงแตสองคาขนไปมาผสมกน

โดยคาใหมทเกดขนจะไมมเคาความหมายเดมของคามลทนามาผสมกน ดงแสดงในตารางท 2.1 ตารางท 2.1 ความหมายแตกตางจากเดม

คาประสม ความหมาย พอครว ชายทมหนาทประกอบอาหาร แมทพ ชายหรอหญงทเปนหวหนาของกองทพ

ลกนา ลกของยงซงอยในนา ตเยน ภาชนะคลายต ใหความเยนแกของทบรรจอย

2. คงเคาความหมายเดม เปนการนาคามลตงแตสองคาขนไปมาผสมกน โดย

คาใหมทเกดขนจะมเคาความหมายเดมของคามลทนามาผสมกน ดงแสดงในตารางท 2.2

Page 29: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

12

ตารางท 2.2 คงเคาความหมายเดม

คาประสม ความหมาย

นาแขง นาทถกความเยนจดจนแขงตวเปนกอน

หมาปา ชอหมาหลายชนดในวงศ Canidae มถนกาเนดเกอบทวทกภมภาคของโลก ขนลาตวมสตาง ๆ เชน นาตาลเทา เทาปนแดง ฟนและเขยวคมมาก นสยดราย

แกงสม แกงพวกหนง มลกษณะคลายแกงเผดแตไมใสเครองเทศ กะท หรอ นามน

คาประสมสามารถแบงออกเปนหลายประเภท ซงในงานวจยฉบบนจะขอกลาวถง

เฉพาะคานามประสม 2.1.4 ค านามประสม

คานามประสม คอ การนาคามลตงแตสองคาขนไปมาผสมกนและคาใหมทเกดขนจะทาหนาทเปนคานาม ซงจะมลกษณะการประสมคา ดงตารางท 2.3 ตารางท 2.3 Parts of speech Compound Nouns

Compound- elements

Examples ภาษาไทย

Examples

noun + noun bedroom water tank

นาม + นาม แมนา พอบาน แปรงสฟน ฯลฯ

noun + verb rainfall haircut train-spotting

นาม + กรยา

แบบเรยน เขมกลด ยาดม

noun + adverb

hanger-on passer-by

นาม + วเศษณ นาแขง ถวเขยว หวหอม

Page 30: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

13

Compound- elements

Examples ภาษาไทย

Examples

verb + noun washing machine driving licence

กรยา + นาม กนใจ เลนตว เขาใจ ไดหนา ฯลฯ

adverb + noun onlooker bystander

วเศษณ + คานาม ออนขอ สองหว

adjective + verb dry-cleaning

adverb + verb output overthrow

Participle (-ing) + คานาม (Noun)

Dancing-teacher

verb + verb กรยา + กรยา กนชน ไขควง

2.1.5 หนงสอค านามประสม ศาสตรและศลปในการสรางค าไทย

แนวทางการพจารณาความแตกตางระหวางคานามประสมกบนามวล และ ประโยค

1. อรรถศาสตร เกณฑทางอรรถศาสตรเปนเกณฑสาคญทมกนาไปเปนหลกในการพจารณาคาประสม กลาวคอ หากขอความใดมความหมายทไดจากการรวมเขาดวยกนของหนวยสมาชกอยางตรงไปตรงมา ขอความนนจะถอวาเปนวลหรอประโยค หากขอความใดทมความหมายผดไปจากการรวมของหนวยยอย เกดเปนความหมายใหมทไมอาจคาดเดาไดจะถอวาเปนคาประสม ดงนนคาทเกดตดตอกน เชน คอหอย ทมความหมายวาเปน คอของหอย ซงเปนความหมายทไดจากการประกอบกนโดยตรงของคาวา คอ และ หอย จะนบวาเปนวล แตหากมความหมายวา ลกกระเดอก ซงเปนสงอนทไมสามารถคาดคะเนได จากความหมายของคาวา คอ และ หอย โดยตรงจะนบวาเปนคาประสม

ลกษณะทางอรรถศาสตรอกตวอยางหนงทมประโยชนในการบอกความแตกตางระหวางคาประสม วล และ ประโยค ยกตวอยางเชน วลมโครงสรางแบบคานาม-คานามสามารถมรปแบบอรรถสมพนธไดเพยงสองแบบคอ สงทถกครอบครอง-เจาของ เชน บานฉน ลกคณ และ สงประดษฐ-วสด แตคานามประสม มอรรถสมพนธระหวางหนวยสมาชกทหลากหลายมากกวา วล เปนตน (อญชล สงหนอย, 2548, น. 133-134)

2. วากยสมพนธ ลกษณะทางวากยสมพนธทสาคญเปนทรจกกนดประการหนงในการทดสอบคาประสมคอ สมาชกคานามประสมไมอาจแยกกนไดไมวาจะเปนการแยกกนหรอการแทรกคาอนระหวางสมาชก โดยยกตวอยาง คาทเกดตอเนองกนเชน หชาง ดงนนประโยค ฉนดดหชาง

Page 31: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

14

หากตความหมายวาเปนวล จะหมายถง หของชาง แตยงสามารถแยกจากกนไดเปน ชางฉนดดห ซงหากตความวาเปนคาประสมทหมายถงกระจกขางของรถแลวจะไมสามารถแยก ห และ ชาง ออกจากกนได (อญชล สงหนอย, 2548, น. 135-136)

3. สมาชกคานามประสมไมอาจเชอมกบคาอนได คาประสมโดยทวไปไมมคาเชอม เชน และ หรอ แต ฯลฯ ปรากฏระหวางหนวยสมาชก ดงนนขอความทขดเสนใต เชน บานเลกแตเกาคอหาน และเปด หมหน หรอยาง ฯลฯ จงไมนาพจารณาวาเปนคานามประสม (อญชล สงหนอย, 2548, น. 138)

4. อรรถความสมพนธพนฐานของคานามประสมมอรรถสมพนธพนฐานได 2 รปแบบ (อญชล สงหนอย, 2548, น. 81-83)

1. X-x = Xx/x ซง X เปน superordinate สวน x เลกคอ subordinate เมอนามาผสมกนจะไดความสมพนธดงภาพท 2.2

ปลา = X ดก = x

ภาพท 2.2 superordinate-subordinate

2. X-Y = Xy ซง X และ Y เปนคาสองคาทนามาผสมกนและทาใหเกด

unrelated meaning เมอนามาผสมกนจะไดดงภาพ 2.3

ปลา = X ตน = Y

ภาพท 2.3 unrelated meaning

ปลาดก

ปลาตน

ตนย

Page 32: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

15

2.2 งานวจยทเกยวของ

2.2.1 Downing and Levi (2520) On the creation and use of English compound nouns. Language

เปนการจาแนกอรรถสมพนธพนฐาน โดยพนฐานความเชอทเกยวกบถาวร และ ความเปนปกตวสยของสงตางๆ จากการศกษาคาประสมของ Downing แสดงใหเหนวาคานามประสม ชนดคานามลวน สามารถจาแนกออกเปนอรรถสมพนธรปแบบตางๆ บนพนฐานของความคดหรอความเชอเกยวกบ ความถาวร และ ความเปนปกตวสยนเองทกลาวกนวาสรรพสงธรรมชาตอนไดแก มนษย สตว พช มกถกจาแนกตามลกษณะพนฐานของสงนนๆ เชน มนษย มกมการจาแนกโดยแบงตามรปลกษณ และ ถนฐาน สวนวตถธรรมชาตมกจาแนกตามสวนประกอบทมาและแหลง ตวอยางเชน กรงนก จะถกตความ โดยอาศยหลกความเปนปกตวสยบนพนฐานของวฒนธรรมไดวาเปนทอยอาศยทเตรยมไวสาหรบนกอยมากกวาทจะมใครตความวา สถานททเตรยมไวสาหรบนกบนผานเปนตนดงภาพท 2.4

,

ภาพท 2.4 ความถาวร

Page 33: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

16

2.2.2 ณฐกานต เพงผล (2545) การวเคราะหนามวลภาษาไทยโดยอางองขอมลสถตและขอสนเทศทางภาษา

งานวจยฉบบนเปนการคนหาแนวทางและพฒนาโปรแกรมวเคราะหนามวลทสามารถแยกแยะและกาหนดขอบเขตของแกนนามวล รวมทงสามารถระบตาแหนงของคาหลกแทของนามวล ซงแบงกระบวนการทางานแบงออกเปน 4 ขนตอน ไดแก การรวมคาใหเปนหนวยความหมายทใหญขน การวเคราะหขอบเขตนามวล การแบงนามวลยอย และ การหาตาแหนงคาหลกแทของนามวล ซงในแตละขนตอนจะประมวลโดยองขอมลสถตหรอขอสนเทศทางภาษา โดยนาขอมลจากนตยสารกนนรจานวน 100 เอกสาร และ นตยสาร อ.ส.ท. จานวน 100 เอกสาร โดยใหนกวจยทางภาษาสรางกฎนามวลและกฎการรวมคาจากเอกสาร ซงมทงหมด 83 กฎ และกฎการรวมคา 90 กฎ

จากผลการทดลองพบวา การรวมคาใหเปนหนวยความหมายทใหญขนสามารถเพมความถกตองของการกาหนดขอบเขตของนามวลจาก 78% เปน 90% และ โปรแกรมสามารถหาคาหลกแทใหนามวลไดถกตอง 55% แตยงพบปญหาในเรองของผลการวเคราะหคาประสมและนามวลสาหรบเอกสารทระบบยงไมไดเรยนร ซงมความถกตองไมมากนกเนองจากฐานความรภาษาทรวบรวมไดจากเอกสาร 200 เอกสารไมครอบคลมไวยากรณในภาษาไทยทงหมดและการวเคราะห การทดลองจากดอยเฉพาะเอกสารททาการทดลอง 2 กลมเอกสาร ทาใหไมสามารถจดการกบเอกสารประเภทอนไดดเทาทควร

2.2.3 C. Hansakunbutheung, A. Thangthai, C. Wutiwiwatchai and R.Siricharoenchai (2548) Learning Methods and Features for Corpus-Based Phrase Break Prediction on Thai

บทความนาเสนอโปรแกรม 5 ชนด ทมชอเสยงในการหาขอบเขตของวล ไดแก POS Sequence Model, CART, RIPPER, SLIPPER และ Neural Network ซงการทดลองเปนการเปรยบเทยบวธการ 5 ชนด เพอทใชในการการหาขอบเขตของวล โดยขอความทนามาใชในการทดสอบจะไมมคาทไมมความหมาย ซงการทดลองและการเรยนรแตละวธการมาจากการ Train เพอหาจานวนสงสดของขอมลจากใน Leaf node และ จานวนของพาทชนสาหรบคาทดทสด โดยลาดบแรกเปนการนาขอความภาษาไทยมาแบงเปนหลายกลมตามประเภทของ Thai Character, Digit หรอ สญลกษณจากนน Thai Character จะถกแบงเปนคา และ ตดแทกดวย POS จากนนจงจะเขาสการวเคราะหการทานายหาขอบเขตของวลดงแสดงในภาพท 2.5

Page 34: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

17

ภาพท 2.5 กระบวนการหาขอบเขตของวล, โดย C. Hansakunbutheung, A. Thangthai, C.

Wutiwiwatchai and R.Siricharoenchai, 2548, NECTEC, Thailand

จากผลการทดลองวธการทดทสดคอ CART โดยสามารถแบงไดถกตอง 80.14% และมชดเชอมตอทถกตอง 94.40% และไมสามารถแบงไดถกตอง 2.37% เพอเพมประสทธภาพในการเรยนรตองเลอกลกษณะขอมลใหเหมาะสมกบคณลกษณะทจะนามาใชในการทดสอบและจากการทดลองพบวา โครงสรางของ Part of Speech ไดรบการพสจนแลววาใหประสทธภาพสงสดในการแยกคา ซงเปนปจจยหนงทสงผลตอการทานายขอบเขตของวลในภาษาองกฤษ ดงนน ถาโครงสรางของ Part of Speech มความถกตองมากขนจะเปนปจจยหนงททาใหการทานายหาขอบเขตของวลมประสทธภาพมากขน

2.2.4 Kanyanut Kriengket, Krit Kosawat, Sunant Anchaleenukul (2550) A Computation Linguistics Study of Compound Nouns in Thai

เปนงานวจยททาการแบงคาประสมตามลกษณะทางความหมายซงสามารถแบงเปน 2 ประเภทดงน

1. คาประสมแบบเขาศนย ( endocentric compound) คอคาประสมทแสดงชนดของสวนประกอบหลก สวนประกอบของคาประสมประเภทนมหนวยหลกและหนวยขยายทาหนาทรวมกนดงภาพท 2.6

Page 35: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

18

ภาพท 2.6 คาประสมแบบเขาศนย (endocentric compound)

โดย Kanyanut Kriengket, KritKo Sawat, Sunant Anchaleenukul, 2550, NECTEC, Thailand

2. คาประสมแบบออกนอกศนย ( exocentric compound) คาประสมทมสวนความหมายแตกตางไปจากสวนประกอบ สวนประกอบแตละสวนทประกอบกนเปนคาประสมไมมสวนหนงสวนใดเปนสวนหลก แตทงสองสวนจะทาหนาทรวมกนเปนคาๆ เดยว แสดงความหมายใหมดงภาพท 2.7

ภาพท 2.7 คาประสมแบบออกนอกศนย (exocentric compound)

โดย Kanyanut Kriengket, KritKo Sawat, Sunant Anchaleenukul, 2550, NECTEC, Thailand

Page 36: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

19

2.2.5 กญญาณฐ เกรยงเกต (2550) การศกษาค านามแสดงอปกรณดาน วทยาศาสตรแนวภาษาศาสตรคอมพวเตอร

งานวจยฉบบนเปนการนาคานามแสดงอปกรณดานวทยาศาสตรมาวเคราะหโครงสรางความสมพนธระหวางคาทมตอกนทง วล คาประสม และ คามล เปนการศกษาวเคราะหโครงสรางหลายระดบของคานามแสดงอปกรณดายวทยาศาสตร ไดแก โครงสรางผวซงประกอบดวยโครงสรางระดบชนดของคาและระดบหนาท โครงสรางระดบตรรกะหรอโครงสรางระดบกลางและโครงสรางระดบลก ไดแก โครงสรางระดบความหมายเปนการทาการทดลอง โดยใชโปรแกรม Unitex มาสรางโครงสรางความสมพนธระหวางสวนประกอบของคานามแสดงอปกรณดานวทยาศาสตร เพอทดสอบการตรวจจบคาจากโครงสรางทประยกตมาจากโปรแกรม Unitex การทดลองเปนการตรวจจบคานามแสดงอปกรณดานวทยาศาสตรโดยแบงออกเปน 2 สวน คอ กราฟหลกสาหรบทดสอบการตรวจจบโครงสรางกบคลงขอมลทเปนรายการคาศพทจากพจนานกรม และ กราฟหลกสาหรบการตรวจจบโครงสรางกบคลงขอมลทไดจากการรวบรวมบทความในนตยสารทเผยแพรทางอนเตอรเนต

ผลการทดสอบรายการคาศพทจากพจนานกรมพบวา เครองคอมพวเตอรสามารถตรวจจบคาได 974 คา เปนคาทถกตอง 973 คา และ ตรวจจบคาผดอก 1 คา และ มคาความครบถวนเปนรอยละ 100 และ คาความแมนยาเปนรอยละ 99.90

ผลการทดสอบจากคลงขอมลทเปนบทความแบงออกเปน 2 ประเภท คอ คานามแสดงอปกรณดานวทยาศาสตร จานวน 815 คา และ คานามแสดงอปกรณทอยนอกสาขาวทยาศาสตร จานวน 1209 คา

จากการทดสอบของคานามแสดงอปกรณดานวทยาศาสตรพบวา มคา ความครบถวนเปน 71.41% และ คาความแมนยาเปน 30.62% สวนคานามทอยนอกสาขามคา ความครบถวนเปน 81.47% และ คาความแมนยาเปน 51.81% สวนปญหาทพบจากการทดสอบ เกดจากคาทมาจากคลงขอมล ไมไดปรากฏเปนรายการคาศพทโดดๆ เชนเดยวกบในพจนานกรมแตปรากฏในประโยคทมบรบทแวดลอม ทาใหเครองคอมพวเตอรตรวจจบคาเกนความยาวทตองการ อกทงยงเกดความผดพลาดอนๆ คอ เครองคอมพวเตอรตรวจจบคา วล หรอ หนวยสรางอน ทมการเวนวรรคระหวางสวนประกอบเขามาดวย จงจาเปนตองอาศยเงอนไขอนๆ เพมเตมเพอชวยในการ คดกรอง

Page 37: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

20

2.2.6 ณรงคกรรณ รอดทรพย (2554) โครงสราง และ วากยสมพนธของนามวลภาษาไทยในปายรณรงคหาเสยงเลอกตงสมาชกสภาผแทนราษฎร

เพอวเคราะหโครงสราง วากยสมพนธ และอรรถสมพนธของหนวยสมาชกนามวลภาษาไทย ซงปรากฏในปายรณรงคหาเสยงเลอกตงสมาชกสภาผแทนราษฎร 2554 ผลการศกษาพบวา นามวลภาษาไทยตองประกอบดวยอยางนอยคานามและอาจมหนวยขยายนามอยทางซายของคานามโดยหนวยขยายนามปรากฏไดตงแต 1 หนวยขนไปถงมากทสดคอ 6 หนวย ไดแก ประโยคคณศพท วลแสดงปรมาณ วลแสดงเจาของ บพบทวล คานามขยาย หรอ คาชเฉพาะ สวนขยายเหลานอาจปรากฏอยางใดอยางหนงและ/หรออาจประกอบกนเปนสวนขยายของคานามหลก แนวคดซงใชวเคราะหและอธบายภาษาในบทความวจยน คอ ทฤษฎไวยากรณหนาทนยมแบบลกษณภาษา (Functional-Typological Approach) ของ Talmy Givón โดยการวจยแยงออกเปนสองประเดน คอ โครงสราง และ วากยสมพนธนามวลภาษาไทย กบ อรรถสมพนธของนามวลภาษาไทยโดยใชกรณศกษาเปนนามวลทปรากฏในปายรณรงคหาเสยงเลอกตงสมาชกสภาผแทนราษฎร

จากผลการทดลองโครงสราง และ วากยสมพนธของนามวลภาษาไทยปรากฏในปายรณรงคหาเสยงเลอกตงสมาชกสภาผแทนราษฎร 2554 ปรากฏทงรปแบบโครงสรางคานาม คาเดยว และ รปแบบโครงสรางคานามกบสวนขยาย สวนอรรถสมพนธของหนวยสมาชกนามวลภาษาไทยซงปรากฏในปายรณรงคหาเสยงเลอกตงปรากฏออกมา 6 ลกษณะ คอ สงทถกครอบครอง-เจาของ ประเดน-สรรพสง สรรพสง-จดประสงค สรรพสง-แหลง สรรพสง-ลาดบ ผชานาญ-สงทชานาญ

Page 38: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

21

ตารางท 2.4 การเปรยบเทยบงานวจยทเกยวของ

ผเขยน เทคนคทใช จดเดน จดดอย Downing and Levi (2520)

เปนการจาแนกอรรถสมพนธพนฐาน โดยพนฐานความเชอทเกยวกบถาวร และ ความเปนปกตวสยของสงตางๆ

จาแนกคานามประสมดวย อรรถสมพนธพนฐานจากพนฐานความเชอทเกยวกบความถาวร และ ความเปนปกตวสย

การศกษาไมใช เปนการวจยแบบทดลองเปนเพยงแนวคดพนฐานทใชในการคดแยกคานามประสม

ณฐกานต เพงผล (2545)

การวเคราะหขอบเขตนามวล การแบงนามวลยอย และ การหาตาแหนงคาหลกแทของนามวล

การรวมคาใหเปนหนวยความหมายทใหญขนสามารถเพมความถกตองของการกาหนดขอบเขตของนามวล

ฐานความรภาษาทรวบรวมไดจากเอกสาร 200 เอกสารไมครอบคลมไวยากรณในภาษาไทยทงหมด

C.Hansakunbutheung, A. Thangthai, C.Wutiwiwatchai and R.Siricharoenchai (2548)

การทดลองเปนการเปรยบเทยบวธการ 5 ชนดเพอทใชในการการหาขอบเขตของวลไดแก POS Sequence Model, CART, RIPPER, SLIPPER และ Neural Network

- วธการทดทสดคอ CART - โครงสรางของ Part of Speech ไดรบการพสจนแลววาใหประสทธภาพสงสดในการแยกคา

การเรยนรตองเลอกลกษณะขอมลใหเหมาะสมกบคณลกษณะทจะนามาใชในการทดสอบ

Page 39: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

22

ตารางท 2.4 (ตอ) การเปรยบเทยบงานวจยทเกยวของ

ผเขยน เทคนคทใช จดเดน จดดอย Kanyanut Kriengket, KritKo Sawat, Sunant Anchaleenukul (2550)

งานวจยททาการแบงคาประสมตามลกษณะทางความหมาย คอ คาประสมแบบเขาศนย และ คาประสมแบบออกนอกศนย

สามารถแบงประเภทของคานามประสมออกเปนสองประเภท คอ คาประสมแบบเขาศนย และ คาประสมแบบออกนอกศนย

การศกษาไมใช เปนการวจยแบบทดลองเปนหลกการทใชในการแบงประเภทคานามประสม

กญญาณฐ เกรยงเกต (2550)

งานวจยฉบบนเปนการนาคานามแสดงอปกรณดานวทยาศาสตรมาวเคราะหโครงสรางความสมพนธระหวางคาทมตอกนทง วล คาประสม และ คามล

การทดสอบรายการคาศพทจากพจนานกรมเครองสามารถตรวจจบได 974 คา เปนคาทถกตอง 973 คา และ ตรวจจบคาผดอก 1 คา และ มคาความครบถวนเปนรอยละ 100

การทดสอบคานามทมาจากคลงขอมลจะไมไดปรากฏเปนรายการคาศพทโดดในพจนานกรมแตปรากฏในประโยคทมบรบทแวดลอมทาใหเครองคอมพวเตอรตรวจจบคาเกนความยาวทตองการ

Page 40: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

23

ตารางท 2.4 (ตอ) การเปรยบเทยบงานวจยทเกยวของ

ผเขยน เทคนคทใช จดเดน จดดอย ณรงคกรรณ รอดทรพย (2554)

วเคราะหโครงสราง วากยสมพนธ และ อรรถสมพนธของหนวยสมาชก นามวลภาษาไทย

สวนอรรถสมพนธของหนวยสมาชกนามวลภาษาไทยซงปรากฏในปายรณรงค หาเสยงเลอกตงปรากฏออกมา 6 ลกษณะ คอ สงทถกครอบครอง-เจาของ ประเดน-สรรพสง สรรพสง-จดประสงค สรรพสง-แหลง สรรพสง-ลาดบ ผชานาญ-สงทชานาญ

ขอมลทใชในการทดลองอาจยงไมครอบคลมอรรถสมพนธของหนวยสมาชกนามวลภาษาไทยลกษณะอนๆ

Page 41: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

24

บทท 3 วธการด าเนนงานวจย

งานวจยฉบบนนาเทคนควทยาการคอมพวเตอร ซงเปนการนาโครงสรางของคานาม

ประสมมาใชในการตรวจสอบ เพอคดแยกคานามประสมออกจากประโยค ดวยวธทางอลกอรทมจากนนจงแตกคาแตละคาทอยภายในประโยคออกมาทละลาดบชน โดยอางองจากลาดบของคาจากซายไปขวาเพอจดกลมของคากอนนาไปวเคราะห เพอใชในการตดแยกคานามประสมออกจากประโยค ดวยวธการสองขนตอนคอ การตรวจสอบคานามประสมและการพจารณาคานามประสม ทาใหคอมพวเตอรสามารถนาขอมลทผานการตรวจสอบไปใชงานไดอยางมประสทธภาพมากขน โดยมขนตอนการดาเนนการ ดงตอไปน

ขอบเขตการทดลอง แนวคดพนฐาน ขนตอนการทางานของระบบ องคประกอบภาพรวมของระบบ ขนตอนการทดลอง และผลการทดลอง พรอมทงอธบายถงปญหาตางๆ ทเกดขนในการทดลอง เครองมอทใชสาหรบพฒนาระบบ การฝกฝนทดลอง และการวดผล การทดลอง 3.1 ความเปนมาและความส าคญของปญหา

การทดลองสาหรบงานวจยน จะทาการทดลองกบคลงขอมล 5 Million Words For BEST2010 ประเภท encyclopedia ทมการหา Part of speech จากโปรแกรม Swath 2.0.1 เรยบรอยแลว ซงบทความทใชในการคดแยกคานามประสมออกจากประโยคเปนบทความทมประโยคไมยาวมากนก มการเวนวรรคของแตละประโยคอยางชดเจนและไมสามารถตรวจสอบคาท Swath ไมสามารถแบงคา หรอ หา Part of Speech ออกมาได ดงแสดงในภาพท 3.1 โดยโปรแกรม Swath มองคาวาสตวเลยงเปนคาเดยวกน ทาใหระบบไมสามารถนาคาวา สตวเลยง ไปวเคราะหเพอคดแยกคานามประสมออกจากประโยคในขนตอนตอไปได

ภาพท 3.1 คาทตรวจสอบไมได

Page 42: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

25

3.2 แนวคดพนฐาน

แนวคดทเสนอในงานวจยนไดทาการศกษาเกยวกบการวเคราะหและคดแยกคานามประสมออกจากประโยค โดยใชโครงสรางของคานามประสม เพอเปนคดแยกคานามประสมออกจากประโยค จากนนจงแตกคาแตละคาทอยภายในประโยคออกมาทละลาดบชน ดวยวธการจบคความสมพนธของคา กอนนาไปวเคราะห เพอใชในการคดแยกคานามประสมออกจากประโยค ซงคาทเกดอาจมตงแตสองพยางคขนไปจนถงสพยางค จากนนจงนาผลลพธทไดมาตรวจสอบดวยวธการทางอลกอรทมเพอคดแยกคานามประสมออกจากประโยค

ภายในประโยคของภาษาไทย ประกอบดวย หนวยยอยภายในประโยค ซงประกอบดวยคาหลายประเภททาใหการหาโครงสรางของคานามประสมคอนขางมความซบซอนและเกดความคลมเครอในการกาหนดขอบเขตของคานามประสม การนาโครงสรางของคานามประสมมาชวยในการคดแยกคานามประสมออกจากประโยคเปนสวนหนงในการชวยลดความซบซอนนลงได แตกยงไมใชทงหมดจงตองมการแยกสวนประกอบยอยๆ ออกมา เพอนาไปวเคราะหตอในอกสองขนตอนคอ การตรวจสอบคานามประสม และ การพจารณาคานามประสม 3.3 ขนตอนการท างานของระบบ

การทางานของระบบเปนการนาบทความภาษาไทยจากคลงขอมล 5 Million Words For BEST2010 ประเภท encyclopedia มาผานโปรแกรม swath เพอคดแยกและตดปาย Part of Speech ของคาแตละคา จากนนจงนาโครงสรางของคานามประสมมาคดแยกคานามประสมออกจากประโยค เพอคดแยกคาแตละคาทอาจจะเปนสวนประกอบของคานามประสมออกจากประโยคจากนนจงแตกคาแตละคาทอยภายในประโยคออกมาทละลาดบชน โดยอางองการจบคความสมพนธของคา เพอจบกลมของคากอนนาไปวเคราะห เพอใชในการคดแยกคานามประสมออกจากประโยคดวยวธการสองขนตอนคอ การตรวจสอบคานามประสมและการพจารณาคานามประสม

Page 43: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

26

ภาพท 3.2 องคประกอบภาพรวมของระบบ

3.3.1 Thai Input Sentence

การนาบทความเขาสระบบดงภาพท 3.3 เปนการเตรยมขอมลกอนทาการ extract compound noun ซงเปนสวนหนงทอยในขนตอนการทางานของระบบดงภาพท 3.2 โดยการตดประโยคออกจากบทความทละหนงบรรทด เพอนาเขาสระบบและตรวจสอบหาคาเชอมภายในประโยค ซงจะเปนสวนชวยในการแบงกลมคาออกจากกนกอนทจะนาประโยคไปประมวลผลในลาดบถดไป

ภาพท 3.3 การนาบทความเขาสระบบ

Page 44: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

27

3.3.2 Word Segmentation Pos Tagging เปนการหาโครงสรางของคาแตละคาภายในประโยค โดยใชหลกการดงน 1. เปนการหาโครงสรางของคาแตละคาซงเปนสวนหนงทอยในขนตอนการ

ทางานของระบบดงภาพท 3.2 โดยใช Part of Speech ของโปรแกรม swath ดงภาพท 3.4 (POS = Part of Speech ของ swath, Description = คาอธบายกลมของ POS) เปนตวตดปายแบงแยกโครงสรางของคาแตละคาดงแสดงในภาพท 3.6 โดยเปนการแบงแยกโครงสรางของคาแตละคา (POSW = Part of Speech ของ swath, ConvertSw = Convert Part of Speech ของ Swath เพอใหเขากบกฎคานามประสมของงานวจยฉบบน , PosLex = Pos of Speech ของ Lexitron, ConvertLW = Convert Part of Speech ของ Lexitron เพอใหเขากบกฎคานามประสมของงานวจยฉบบน)

ภาพท 3.4 Part of Speech ของ swath

2. เปนการหาโครงสรางของคาแตละคาซงเปนสวนหนงทอยในขนตอนการทางาน

ของระบบดงภาพท 3.2 โดยใชพจนานกรม Lexitron ดงภาพท 3.5 (POS Lexitron = POS ของพจนานกรม Lexitron) เปนตวตดปายแบงแยกโครงสรางของคาแตละคา ดงภาพท 3.6 เปนการแบงแยกโครงสรางของคาแตละคาโดย (POSW = Part of Speech ของ swath, ConvertSw = Convert Part of Speech ของ Swath เพอใหเขากบกฎคานามประสมของงานวจยฉบบน , PosLex = Pos of Speech ของ Lexitron, ConvertLW = Convert Part of Speech ของ Lexitron เพอใหเขากบกฎคานามประสมของงานวจยฉบบน)

POS Lexitron

ADV,ADJ

V

CLAS,CLTV

CONJ

N,PRON

ภาพท 3.5 Part of Speech ของ Lexitron

Page 45: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

28

ภาพท 3.6 แบงแยกโครงสรางของคาแตละคา

3.3.3 Pattern-based Compound Noun Analysis เปนการแตกคาแตละคาทอยภายในประโยคออกมาทละลาดบชนซงเปนสวนหนง

ทอยในขนตอนการทางานของระบบดงภาพท 3.2 โดยอางองจากความสมพนธของคาดวยวธการจบคความสมพนธของคาตงแต 2-4 Gram ดงแสดงในภาพท 3.7 และ ภาพท 3.8 (ID = จากภาพหมายเลข 1 หมายถง คา 1 คา, Word = คาแตละคาทถกจบคความสมพนธใหกลายเปนคา 1 คา)

ภาพท 3.7 วธการจบคความสมพนธของคา

Page 46: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

29

ภาพท 3.8 ตวอยางการจบคความสมพนธของคา

3.3.4 Thai Linguistic Rules

เปนการจบกลมจากโครงสราง Part of Speech ของคานามประสมซงเปนสวนหนงทอยในขนตอนการทางานของระบบดงภาพท 3.2 โดยเปนการใชโครงสรางคานามประสม เพอรวมคาทจะเปนนามประสมออกจากประโยคซงกฎทนามาใชนามาจากเอกสารตางดงน

1. หนงสอคานามประสม ศาสตรและศลปในการสรางคาไทย (อญชล สงหนอย, 2548)

2. หนงสอระบบคาภาษาไทย (สนนท อญชลนกล, 2546) 3. การศกษาคานามแสดงอปกรณ ดานวทยาศาสตรแนวภาษาศาสตร

คอมพวเตอร (กญญาณฐ เกรยงเกต, 2550) 4. คานามประสม (Compound Nouns) สบคนจาก (Guessing the

Meanings of Compound Words, 2555) 5. COMPOUND NOUNS IN ENG สบคนจาก (Edufind, Parts of speech of

Compound nouns)

Page 47: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

30

ตารางท 3.1 กฎคานามประสม

จ านวนค าทผสมกนแลวเปนค านามประสม

เอกสาร ล าดบท

2-Gram กฎ คาทพบ 1 น+น ปากกา ปาก+กา 2,3,4,5

พวงมาลย พวง+มาลย 2 น+ก ตราช ตรา+ช 1,2,3,5

ปากคบ ปาก+คบ หวเผา หว+เผา

3 ก+น พดลม พด+ลม 1,2,3,4,5

4 ก+ก ไขควง ไข+ควง 3,2

กนชน กน+ชน ว=วเศษณ 5 น+ว นาแขง นา+แขง 5

6 ว+น หวานใจ หวาน+ใจ 4,5

จน=ล าดบท,ลนลกษณะนาม 7 จน+ลน สามขา สาม+ขา 3

8 น+บ ไฟขาง ไฟ+ขาง 1,2,4

3,4-Gram 9 น+น+น เกจหวเทยน เกจ+หว+เทยน 3

แผงแปนอกษร แผง+แปน+อกษร กระปกเกยรธรรมดา กระปก+เกยร+ธรรมดา ปมเชอเพลงไฟฟา ปม+เชอเพลง+ไฟฟา 10 น+ก+น เครองพมพเลเซอร เครอง+พมพ+เลเซอร 1,2,3

เครองฟอกไอเสย เครอง+ฟอก+ไอเสย 11 น+น+ก สายไฟพวง สาย+ไฟ+พวง 3

12 น+น+น+น ลอคแกนพวงมาลย ลอค+แกน+พวง+มาลย 3

13 น+จน+ลน ขวดสามคอ ขวด+สาม+คอ 3

Page 48: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

31

3.3.5 Permanent Compound Noun Analysis การตรวจสอบคานามประสม เมอผานกฎคานามประสมแลว ขนตอนตอไปเปน

การนาคาทผานกฎมาเขาขนตอนการตรวจสอบคานามประสม ดงแสดงในภาพท 3.9 โดยจะทาการตรวจสอบดงน

1. พบคาทคนหาในพจนานกรม Lexitron (Check_Lexitron) และ ทาหนาทเปนคานามสาหรบกรณทพบ และคาทไมใชคานามจะถกนาเขาสขนตอนการพจารณาคานามประสม

2. พบคาทคนหาในพจนานกรมฉบบราชบณทตยสถาน ( Check_RadChaBudit) และทาหนาทเปนคานามกรณทพบ และ คาทไมใชคานามจะถกนาเขาสขนตอนการพจารณาคานามประสม

ภาพท 3.9 การตรวจสอบคานามประสม

3.3.6 Semantic-based Compound Noun Analysis

การพจารณาคานามประสม กรณทไมพบคานามประสมในพจนานกรมตอง พจารณาความแตกตางระหวางคานามประสม นามวล และประโยค ดงภาพท 3.10

1. กรณทพบวาเปนคา superordinate-subordinate จะถอวาเปนคานามประสม โดยใชความหมายของ subordinate เปนตวตงจากนนจงนา superordinate เขาไปคนหาในความหมายของ subordinate วาม superordinate อยในความหมายของ subordinate นนหรอไม ถาพบวาเปนสวนหนงของ subordinate และ ทง superordinate และ subordinate ม Part of Speech เปนคานาม (NN) จะถอวาเปนคานามประสมตวอยางเชน superordinate = ปลา(N), subordinate = ดก(N) โดยการตรวจสอบ ดก หมายถง ชอ ปลานาจดทกชนดในสกล clarias จากการตรวจสอบขางตนจะเหนวามคาวา ปลา คอสวนทขดเสนใตอยในสวนความหมายของคาวา ดก และ คาวา ปลา และ ดกตางทาหนาทเปนคานาม จงสามารถสรปไดวา ปลาดก คอคานามประสม

2. อรรถศาสตร อางองเรองโครงสรางการแสดงความเปนเจาของ (Owner) เปนการนาคาทตองการคนหาเตมคาวา “ของ” ลงไปจากนนจงนาไปคนในคลงขอมล ถามความเปนเจาของจะถกคดออก

Page 49: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

32

3. ลาดบการเรยงคา เนองจากคานามประสมจะไมสามารถสลบท (Swap) และแยกคาได (Sperate) เปนการนาคาทตองการคนหามาทดลองสลบทหรอแยกคา จากนนจงนาไปคนหาในคลงขอมล เพอใชในการตรวจสอบ กรณทพบวา สามารถสลบทหรอแยกคาไดจะถกคดออก

ภาพท 3.10 พจารณาคานามประสม

3.3.7 ค านวณเปอรเซนโอกาสทจะเปนค านามประสม

แบงเปนสองสวนคอ สวนตรวจสอบคานามประสม และ สวนพจารณาคานามประสมโดยคดเปนเปอรเซนดงน

3.3.7.1. ตรวจสอบค านามประสม 1. กรณพบคาทคนหาในพจนานกรม Lexitron จะใหคาคะแนนเปน 1

กรณทไมพบ จะใหคาคะแนนเปน 0 2. กรณพบคาทคนหาในพจนานกรมฉบบราชบณทตยสถาน จะใหคา

คะแนนเปน 1 กรณทไมพบ จะใหคาคะแนนเปน 0 กรณทพบขอใดขอหนงจะถอวามโอกาสทจะเปนคานามประสม 100%

และจะไมมการนามาตรวจสอบในสวนพจารณาคานามประสม 3.3.7.2. พจารณาค านามประสม

1. กรณทพบวาเปน superordinate-subordinate จะถอวาเปนคานามประสม 100%

2. กรณทไมมโครงสราง การแสดงความเปนเจาของ จะใหคาคะแนนเปน 1

3. ลาดบการเรยงคา 3.1 ไมสามารถสลบทได จะใหคาคะแนนเปน 1 3.2 ไมสามารถแยกคาได จะใหคาคะแนนเปน 1 จากขอ 2, 3.1, 3.2 สามารถนามาคดเปนเปนเปอรเซนไดดงน

Page 50: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

33

1. กรณทพบทง 3 ขอ สามารถสรปไดวามโอกาสทจะเปน คานามประสม 100%

2. กรณทพบทง 2 ขอ สามารถสรปไดวามโอกาสทจะเปน คานามประสม 0%

3. กรณทพบ 1 ขอ สามารถสรปไดวามโอกาสทจะเปน คานามประสม 0% 3.4 เครองมอทใชส าหรบพฒนาระบบ

เครองมอและซอฟทแวรคอมพวเตอรทใชในงานวจยฉบบนแสดงในตารางท 3.2 ตารางท 3.2 เครองมอทใชสาหรบงานวจย

Hardware - Intel Core i7 Operating System

Microsoft Windows XP Professional

Software - Swath 2.0.1 - Paint - Notepad -Microsoft visual studio 2010 -MySql

3.5 การฝกฝนทดลอง

ผลการทดลองในการคดแยกคานามประสมออกจากประโยค จากการทดลองไดนา ประโยค 100 ประโยค มาทาการคดแยกคานามประสมออกจากประโยค พบวาสามารถคดแยกคานามประสมออกจากประโยคไดด เมอโปรแกรม swath สามารถแบงคาออกจากประโยคไดถกตอง เพราะถาแบงคาผดตงแตเรมตน จะทาใหกระบวนการอนๆ มความผดพลาดตามไปดวย

Page 51: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

34

3.6 การวดผลการทดลอง

ขอมลดบไดมาจากคลงจากคลงขอมล 5 Million Words For BEST 2010 ประเภท encyclopedia จานวน 100 บรรทด เปนบทความทางดานสารานกรม เพอใชทดสอบคดแยกคานามประสมออกจากประโยคจานวน 130 คา ประกอบดวย ตวอกษรจานวน 1013 ตว นามาคดแยกคานามประสมออกจากประโยค

การวดผลความถกตองของการคดแยกคานามประสมออกจากประโยคของงานวจยนเปนการคานวณคาความครบถวน (recall) และ คาความแมนยา (precision) ของเครองคอมพวเตอร

3.6.1 คาความครบถวน (Recall) คอ คาทไดจากการนาคาทเครองคอมพวเตอรมา คดแยกคานามประสมออกจากประโยคไดและตรวจสอบแลววาเปนคาทถกตอง ซงในทนคอจานวนคานามประสมทคอมพวเตอรสามารถคดแยกออกมาไดถกตอง หารดวยจานวนคานามประสมทถกตองทงหมด แลวคณดวย 100 เพอใหคาความครบถวนเปนเปอรเซนต ดงภาพท 3.11

ภาพท 3.11 คาความครบถวน (Recall)

3.6.2 คาความแมนย า (Precision) คอ คาทไดจากการนาคาทเครองคอมพวเตอร คดแยกคานามประสมออกจากประโยคไดถกตอง ซงในทนคอจานวนคานามประสมทคอมพวเตอรสามารถคดแยกออกมาไดถกตอง หารดวยจานวนคาทเครองคอมพวเตอรสามารถบอกขอบเขตคานามประสมออกจากประโยคไดทงหมด แลวคณดวย 100 เพอใหไดคาความแมนยาเปนเปอรเซนต ดงแสดงในภาพท 3.12

ภาพท 3.12 คาความแมนยา (Precision)

Page 52: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

35

บทท 4 ผลการวจย

ในบทนจะกลาวถงการทดลองและผลการทดลองคดแยกคานามประสมออกจาก

ประโยคโดยวเคราะหการคดแยกคานามประสมออกจากประโยคดวยเครองคอมพวเตอรเปรยบเทยบความถกตองกบการคดแยกคานามประสมจากผเชยวชาญ พรอมทงอธบายถงผลความผดพลาดทเปนปญหากอนการประมวลผลขนตน และลกษณะปญหาตางๆทเกดขนในการทดลอง

การคดแยกคานามประสมออกจากประโยคเปนการนาโครงสรางของคานามประสม มาใชในการตรวจสอบ เพอคดแยกคานามประสมออกจากประโยค ดวยวธทางอลกอรทม จากนนจงแตกคาแตละคาทอยภายในประโยคออกมาทละลาดบชน โดยอางองจากลาดบของคาจากซายไปขวาเพอจดกลมของคากอนนาไปวเคราะห เพอใชในการคดแยกคานามประสมออกจากประโยค โดยดวยวธการสองขนตอนคอ การตรวจสอบคานามประสม และการพจารณาคานามประสม 4.1 การเตรยมขอมล (Preprocessing)

เปนการเตรยมขอมลกอนทาการสกดคานามประสมออกมาจากประโยค โดยการตดประโยคออกจากบทความทละหนงบรรทด จากนนจงตรวจสอบ Part of Speech (POSW = POS ทไดมาจากโปรแกรม swath, PosLex = POS ทไดมาจากฐานขอมล Lexitron) ของคาแตละคาทอยภายในประโยคดงภาพท 4.1 เพอเปนการเตรยมขอมลกอนทจะนาเขาสระบบ แลวจงตรวจสอบคาเชอมภายในประโยค เพอจะเปนสวนชวยในการแบงกลมคาออกจากกน จากนนจงแตกคาแตละคาทอยภายในประโยคออกมาทละลาดบชน โดยอางองจากความสมพนธของคาดวยวธการจบคความสมพนธของคาดงภาพท 4.2

4.1.1 เครองมอทใชส าหรบการทดสอบระบบ 1. คดประโยค 100 ประโยคออกมากจากคลงขอความภาษาไทย BEST Corpus

Training Set 1 Release 3 ของ NECTEC ซงประกอบดวยคา 1013 คาจากประโยคทงหมด 100 บรรทด

2. เตรยมพจนานกรม Lexitron ซงประกอบดวย คาศพททงหมด 81,708 คาเพอใชเปนพจนานกรมทใชสาหรบตรวจสอบคานามประสม

3. เตรยมพจนานกรมฉบบราชบณฑตยสถาน พ.ศ. 2542 ประกอบดวยคาศพท 37,000 คา เพอใชเปนพจนานกรมทใชสาหรบตรวจสอบคานามประสม

Page 53: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

36

ภาพท 4.1 การแบงกลมคาออกจากกน

ภาพท 4.2 การจบคความสมพนธของคา

4.2 การทดลอง

4.2.1 Permanent Compound Noun Analysis (การตรวจสอบค านามประสม) เปนการนาคาทไดจากการจบคความสมพนธของคามาผานกฎของคานามประสม

ทง 13 กฎ จากนนจงนามาตรวจสอบกบพจนานกรม เพอเปนขนตอนแรกในการสกดคานามประสมออกจากประโยคซงประกอบดวยขนตอนตางๆ ดงน

Page 54: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

37

1. Pattern-based Compound Noun Analysis (การจบคความสมพนธของคา) จากการทดลองจะใชประโยค หมพนธตางประเทศทนยมเลยงกน มาใชในการทดลอง โดยจะแบงการแตกคาแตละคาทอยภายในประโยคออกมาทละลาดบชน โดยอางองจากความสมพนธของคา ดวยวธการจบคความสมพนธของคาตงแต 2-4 Gram ดงภาพท 4.3

ภาพท 4.3 ตวอยางการจบคความสมพนธของคา

2. Thai Linguistic Rules (ตรวจสอบกฎคานามประสม ) เปนการนาคาทไดจาก

การจบคความสมพนธของคามาตรวจสอบกบกฎคานามประสมทง 13 กฎ ซงจะไดผลลพธดงภาพท 4.4 ตวอยางการตรวจสอบกฎคานามประสม (Predit = สวน POS ของ swath ตรวจสอบกบกฎคานามประสม, PredicLw = สวน POS ของ Lexitron ตรวจสอบกบกฎคานามประสม)

Page 55: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

38

ภาพท 4.4 ตวอยางการตรวจสอบกฎคานามประสม

3. Permanent Compound Noun Analysis เมอผานกฎคานามประสมแลว

ขนตอนตอไปจงนามาตรวจสอบคาพจนานกรมทงสองฉบบดงภาพท 4.5 ตวอยางการตรวจสอบกบพจนานกรม (Check_Lexitron = ตรวจสอบกลมคากบ Lexitron, Check_RadChaBudit = ตรวจสอบกลมคากบพจนานกรมฉบบราชบณฑตยสถาน พ.ศ. 2542)

ภาพท 4.5 ตวอยางการตรวจสอบกบพจนานกรม

จาก 3 ขนตอนขางตนจะสามารถสรปไดวา ตางประเทศ เปนคานามประสม

เนองจากพบในพจนานกรม Lexitron และทาหนาทเปนนาม สวนกลมคาอนๆ ทม Score (คะแนน ) ไมใช 100 จะตองนาไปพจารณาในสวนการพจารณาคานามประสมเปนลาดบถดไป

Page 56: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

39

4.2.2 Semantic-based Compound Noun Analysis (การพจารณาค านามประสม)

กรณทไมพบคานามประสมในพจนานกรม ตองพจารณาความแตกตางระหวางคานามประสมและนามวล และประโยคประกอบดวย 3 ขนตอนดงน

ประโยคทใชในการทดสอบระบบ คอ ภมอากาศในเขตพนทแหงแลงของโลกจะมหมเปนจานวนนอย โดยประโยคขางตนจะตองผานการตรวจสอบคานามประสมมากอนถงจะนา สวนกลมคาทเหลอมาเขาสขนตอนการพจารณาคานามประสมดงภาพท 4.6 โดยจะยกตวอยางการพจารณาในสวนของกลมคาทมแถบสเขยว เขต|พนท|แหงแลง|

ภาพท 4.6 ตวอยางคาทใชในการพจาณา

1. superordinate-subordinate ขนตอนการตรวจสอบจะใชความหมายของ

subordinate เปนตวตงจากนนจงนา superordinate เขาไปคนหาในความหมายของ subordinate วาม superordinate อยในความหมายของ subordinate นนหรอไม ถาพบวาเปนสวนหนงของ subordinate และ ทง superordinate และ subordinate ม Part of Speech เปนคานามจะถอวาเปนคานามประสม จากกลมคาทนามาทดสอบจะไมพจารณา superordinate-subordinate เนองจากคาทนามาทดสอบไมเขาเงอนไขของ superordinate-subordinate (สามารถดคาอธบายเพมเตมไดจากบทท 3)

2. อรรถศาสตร เปนการอางองเรองโครงสรางการแสดงความเปนเจาของ (Owner) โดยนาคาทตองการคนหาเตมคาวา “ของ” ลงไปจากนนจงนาไปคนในคลงขอมล ถามความเปนเจาของจะถกคดออก จากกลมคาทนามาทดสอบสามารถพจารณาลกษณะทาง อรรถศาสตรไดดงภาพท 4.7

Page 57: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

40

ภาพท 4.7 โครงสรางการแสดงความเปนเจาของ

3. ลาดบการเรยงคา เปนการนาคาทตองการคนหามาทดลองสลบทหรอแยกคา

จากนนจงนาไปคนหาในคลงขอมลเพอใชในการตรวจสอบ จากกลมคาทนามาทดสอบสามารถพจารณาเรองของลาดบการเรยงคาไดดงภาพท 4.8 ลาดบการเรยงคา (Swap = การสลบท , Separate = การแยกคา) กรณทพบวาสามารถสลบทหรอแยกคาไดจะถกคดออก

ภาพท 4.8 ลาดบการเรยงคา

จาก 3 ขนตอนขางตนจงสามารถสรปไดวา เขตพนทแหงแลง เปนคานาม

ประสมเนองจากผานเงอนไขของการพจารณาคานามประสม 4.2.3 ตารางสรปผลการทดลอง

จากการทดสอบประโยค 100 ประโยคจากคาทงหมด 1,013 คาสามารถสรปออกมาเปนไดดงตารางท 4.1 โดยสามารถอธบายไดดงน

Page 58: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

41

4.2.3.1 Permanent Compound Noun Analysis 1. Table1 เปนสวนตรวจสอบกบพจนานกรม 2. Permanent เปนสวนของการตรวจสอบกบฐานขอมลความถาวรท

ไดมาจากการเรยนรในการทดสอบระบบ 4.2.3.2 Semantic-based Compound Noun Analysis

1. sup-sub เปนสวนการพจารณา superordinate-subordinate 2. Check3 เปนสวนของการพจารณาลกษณะทางอรรถศาสตร และ

ลาดบการเรยงคา ตารางท 4.1 ตารางสรปผลการทดลอง

4.3 วธวดผลการทดลอง

4.3.1 ตรวจสอบโดยผเชยวชาญ รายชอผเชยวชาญ 1. คณ นศาชล ลนวงษา ปรญญาตร วทยาศาสตรสงแวดลอม และ

ประกาศนยบตร อาชพ คร 2. คณ ณฐพล พนดวง ปรญญาตร ครศาสตรเอกภาษาไทย อาชพ คร 3. คณ จฑามาศ นกนอย ปรญญาตร ครศาสตรบณฑต อาชพ คร

Page 59: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

42

1. Permanent Compound Noun Analysis สวนการตรวจสอบคานามประสมใชผเชยวชาญจานวนสามทาน มาชวยตรวจสอบคานามประสมทไดออกมาจากระบบ ซงพบวาระบบสามารถตรวจสอบคานามประสมไดถกตอง 60 คา 2. Semantic-based Compound Noun Analysis สวนการพจารณาคานามประสมใชผเชยวชาญจานวนสามทาน มาชวยตรวจสอบคานามประสมทไดออกมาจากระบบ ซงพบวาระบบสามารถตรวจสอบคานามประสมไดถกตอง 49 คา 4.3.2 การวดผลการทดลอง

การวดผลความถกตองของการคดแยกคานามประสมออกจากประโยคจะใช คาความครบถวนและคาความแมนยาในการวดผลการทดสอบระบบโดยไดผลลพธดงน คาทถกตอง 72 คาทใชในการทดสอบทงหมด 130 คาทพบทงหมด 174 คาความครบถวน (Recall) 72/130 * 100 = 55.38 % คาความแมนยา (Precision) 72/174*100 = 41.38 %

Page 60: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

43

บทท 5 สรปผลการวจยและขอเสนอแนะ

5.1 สรปผลการทดลอง

จากผลการทดลองจากประโยค 100 ประโยค จากขนตอนการตรวจสอบจากคานามประสมและการพจารณาคานามประสมระบบสามารถจบกลมคาไดมากสด 4 คา โดยอางองตามโครงสรางคานามประสมของงานวจยฉบบน ซงจะจบกลมคาแตละคา เรมตนตงแต 2 คาไปจน 4 คา จากการทดลองสามารถตรวจสอบคานามประสมทมความยาวมากสดไดถง 4 คา และสามารถสรป ผลการทดลองออกเปนดงน

5.1.1 สวนท 1 ตรวจสอบค านามประสม สามารถแยกคานามประสมออกมาจากประโยคได 57 คาและมความถกตอง 41

คา ไมถกตอง 12 คาและพบคานามประสมเพมขนมาอก 4 คา 5.1.2 สวนท2 สวนพจารณาค านามประสม

5.1.2.1 Superordinate-Subordinate สามารถแยกคานามประสมออกจากประโยคได 11 คาและมความถกตอง

3 คา ไมถกตอง 5 คาและพบคานามประสมเพมขนมาอก 3 คา 5.1.2.2 Permanent

สามารถแยกคานามประสมออกจากประโยคได 12 คาและมความถกตอง 12 คา

5.1.2.3 ตรวจสอบการสลบทการแยกค าและการแสดงความเปนเจาของ สามารถคดแยกคานามประสมออกจากประโยคได 94 คา มความถกตอง

16 คาไมถกตอง 51 คาและพบคานามประสมเพมขนมาอก 27 คา 5.1.3 การวดผลการทดลอง

5.1.3.1 การวดผลจากผเชยวชาญ จากการทดลองโดยใชการวดผลการทดลองจากผเชยวชาญสามารถสกด

คานามประสมออกมาไดจากประโยค 130 คา ซงพบในพจนานกรม 74 คา และไมพบในพจนานกรม 56 คา

Page 61: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

44

5.1.3.2 การวดผลจากการทดลอง จากการทดลองโดยใชการสกดคานามประสมออกมาจากผเชยวชาญ

สามารถคดคานามประสมออกมาจากประโยค 174 คา และ ตรงกบการวดผลจากผเชยวชาญจานวน 72 คา และตรงกบคาในพจนกรม 41 คา และไดเพมมากกวาผเชยวชาญ 4 คา

5.2 การอภปรายผลการทดลอง

ภาษาไทยเปนภาษาทมความซบซอนทงทางดานไวยากรณ ความหมาย รวมถงลาดบ

การเรยงคาซงภาษาไทยจะเขยนตดตอกนเปนสายอกขระ โดยไมมเครองหมายเวนวรรค ตอนแสดงการแบงคาเหมอนภาษาองกฤษ ทาใหเปนความยากในการศกษาและพฒนาในเรองของการทจะทาใหคอมพวเตอรสามารถคานวณและวเคราะหคาแตละคาทประกอบอยในประโยคได ซงจากการทดลอง สามารถสรปปญหาทไดมาจากการทดลองไดดงน

5.2.1 ความผดพลาดทเปนปญหากอนการประมวลผลขนตน 1. ปญหาจากการแบงคา เนองจากความซบซอนของคาในภาษาไทย ซงภายใน

ประโยคของภาษาไทย ประกอบดวยหนวยยอย ภายในประโยคทประกอบดวยคาหลายประเภท ทาใหในบางกรณ การหาโครงสรางของคานามประสม คอนขางมความซบซอนและเกดความคลมเครอในการกาหนดขอบเขตของคาดงภาพท 5.1 ซงโปรแกรมแบงคาไมสามารถแบงคาออกมาไดเปน หยวก|กลวย

ภาพท 5.1 ความคลมเครอในการกาหนดขอบเขตของคา

2. ปญหาจากโปรแกรมแบงคาไมสามารถแบงคาออกเปนคายอยๆ ได ทาใหการ

คดแยกคานามประสมมความผดพลาดตามไปดวยจากภาพท 5.2 ความตองการของระบบ คอคาวา สตว|เลยงแตโปรแกรมแบงคามองคาวาสตวเลยงเปนคาหนงคา

Page 62: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

45

ภาพท 5.2 ไมสามารถแบงคาออกเปนคายอยๆได

5.2.2 ลกษณะปญหาตางๆทเกดขนในการทดลอง

1. แบงคานามประสมปะปนกบคาอน จากการทดลองพบวาโปรแกรมแบงคา แบงคาจากประโยคโดยมคานามประสม สตวเลยง ตดไปกบคาอนทาใหไมสามารถคดแยกคานามประสมออกจากประโยคไดดงตารางท 5.1 ตารางท 5.1 การแบงคาจากประโยคโดยมคานามประสมตดไปกบคาอน Word Predic Rule Check PredicLw RSwatch RLexi

หมเปน NV NS T T

เปนสตวเลยง VN SN T T

สตวเลยงท NO NN F T

ทรจก OV NV F T

2. โปรแกรมแบงคาแบงคาไมถกตอง จากการทดลองพบวาโปรแกรมแบงคา

แบงคาจากประโยคไดไมถกตอง ทาใหไมสามารถคดแยกคานามประสมออกจากประโยคไดถกตองดงแสดงในตารางท 5.2 ซงโปรแกรมแบงคาไมสามารถแบงคาออกมาไดเปน พนธ|ดรอก

Page 63: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

46

ตารางท 5.2

แบงคาไมถกตอง Word Predic Rule Check PredicLw RSwatch RLexi พนธลารจไวต NN NO T F ลารจไวตพนธ NN ON T F พนธด NV NV T T ดร VN VO T F รอก NN ON T F พนธลารจไวตพนธ NNN NON T F

3. คาทไมใชคานามประสม จากการทดลองพบวามการพบคาทไมใชคานาม

ประสมและเปนไปตามเงอนไขของการตรวจสอบคานามประสมและการพจารณาคานามประสม เนองจากภาษาไทยมความซบซอนมาก ทาใหในบางกรณจงไมสามารถคดแยกคานามประสมออกจากประโยคไดหรอคดแยกออกมาไดถกตองดงภาพท 5.3

ภาพท 5.3 คดแยกออกมาไมถกตอง

4. จากการทดลองเรองการสลบท การแยกคา และความเปนเจาของ ระบบคด

แยกออกมาไดไมถกตองด งตารางท 5.3

Page 64: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

47

ตารางท 5.3 สลบทแบงคาไมถกตอง

สลบท,แยกค า,ความเปนเจาของ คาทตรงกน ลาดบคาอน คาอน

16 ลกผสม|ตางๆ| 17 ยง|นา| 18 นา|เอา|

5. การวเคราะห superordinate-subordinate ยงมความผดบางอยในบางกรณ

เนองจากคา superordinate-subordinate สามารถใชตรวจสอบไดในบางกรณและมอกหลายกรณทยงเกดความผดพลาดซงสบเนองมาจากความซบซอนของภาษาไทยดงตารางท 5.4 ตารางท 5.4 Superordinate-Subordinate (sup-sub) แบงคาไมถกตอง

sup-sub id Word Sup-Sub

1 ประเทศ|เดนมารก| 1 3 ของ|ซาก| 1 4 ท|ด| 1 9 รส|ด| 1

11 หม|ประเภท| 1

Page 65: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

48

5.3 สรปผลการวจย

จากงานวจยฉบบนทาใหสามารถ เรยนรวธการพฒนาอลกอรทมเพอใชสาหรบในเรองของการสกดคานามประสมออกจากประโยคในภาษาไทย ซงจากผลการทดลองของการพจารณาคานามประสม ทาใหสามารถสกดคาประสมออกมาจากประโยคไดอยนอกเหนอจากสวนทอยในพจนานกรมและไดคาประสมชนดอนออกมารวมอยดวย จากผลลพธดงกลาวทาใหสามารถนาไปใชเปนแนวทางในการเรยนร เพอศกษาในเรองของการสกดคาประสมออกจากประโยคชนดอนๆ ได ในอนาคตและควรจะหาวธการทเหมาะสม เพอมาปรบปรงในเรองของการแบงคาและ การคดแยกคา เนองจากโปรแกรมการสกดคานามประสมออกจากประโยคยงไมสามารถคดแยกคาออกมาไดถกตองตามลกษณะปญหาตางๆ ทอธบายในสวนขางตน การนาไปพฒนาตอจงจาเปนตองใหความสาคญในเรองของการแบงคาเพอเปนสวนเสรมทาใหระบบมประสทธภาพเพมมากขน

Page 66: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

49

รายการอางอง

หนงสอและบทความในหนงสอ

อญชล สงหนอย, คานามประสม : ศาสตรและศลปในการสรางคาไทย , (กรงเทพมหานคร : สานกพมพแหงจฬาลงกรณมหาวทยาลย, 2548)

สนนท อญชลนกล, ระบบคาภาษาไทย, (กรงเทพมหานคร : โครงการเผยแพรผลงานทางวชา การ, คณะอกษรศาสตร, จฬาลงกรณมหาวทยาลย, 2546) วทยานพนธ

Downing and Levi (2520). On the creation and use of English compound nouns

Language. ณฐกานต เพงผล (2545). การวเคราะหนามวลภาษาโดยอางองขอมลสถตและขอสนเทศทางภาษา.

วศวกรรมสาสตรมหาบณฑต (วศวกรรมคอมพวเตอร). มหาวทยาลยเกษตรศาสตร . C. Hansakunbutheung, A. Thangthai, C. Wutiwiwatchai and R.Siricharoenchai (2548).

Learning Methods and Features for Corpus Based. NECTEC, Thailand. Kanyanut Kriengket, KritKo Sawat, Sunant Anchaleenukul (2550). A Computation

Linguistics Study of Compound Nouns in Thai. NECTEC, Thailand. กญญาณฐ เกรยงเกต (2550). การศกษาค านามแสดงอปกรณดานวทยาศาสตรแนวภาษา

ศาสตรคอมพวเตอร. อกษรศาสตรมหาบณฑต. จฬาลงกรณมหาวทยาลย . ณรงคกรรณ รอดทรพย (2554). โครงสราง และ วากยสมพนธของนามวลภาษาไทยในปายรณรงคหา

เสยงเลอกตงสมาชกสภาผแทนราษฎร. วารสารปารชาต (ฉบบพเศษ), ผลงานวจยจากการ ประชมวชาการ ครงท 22.

Page 67: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

50

สออเลกทรอนกส

Edufind, “Parts of speech of Compound nouns,” Accessed October 28, 2014,

http://www.edufind.com/english-grammar/compound-nouns/ โรงเรยนมหดลวทยานสรณ, “เอกสารประกอบการเรยน รายวชา ท๔๐๑๐๕ หลก

ภาษาไทยในชวตประจาวน,” สบคนเมอวนท 28 ตลาคม 2557, http://www.mwit.ac.th /~saktong/learn6/79.pdf

Trueplookpanya, “หลกภาษาไทย,” สบคนเมอวนท 28 ตลาคม 2557, http://www.trueplookpanya.com/new/cms_detail/knowledge/1673-00/

Guessing the Meanings of Compound Words, “คานามประสม” สบคนเมอวนท 28 ตลาคม 2557, https://compoundwords4.wordpress.com/2012/01/02/ คานามประสม-compound-nouns/

Page 68: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

ภาคผนวก

Page 69: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

51

ภาคผนวก ก ประวตผเชยวชาญคนท 1

ชอ นางสาวนศาชล ลนวงษา วนเดอนปเกด วนท 27 ธนวาคม พ.ศ. 2529 วฒการศกษา ปการศกษา: 2551 วทยาศาสตรสงแวดลอม และ

ประกาศนยบตรอาชพคร มหาวทยาลยศลปากร

อาชพ คร ท โรงเรยนจนทรกระจาง

Page 70: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

52

ภาคผนวก ข ประวตผเชยวชาญคนท 2

ชอ นายณฐพล พนดวง วนเดอนปเกด วนท 19 พฤศจกายน พ.ศ. 2531 วฒการศกษา ปการศกษา: 2557 ครศาสตรเอกภาษาไทย

มหาวทยาลยรามคาแหง

อาชพ คร ท โรงเรยนจนทรกระจาง

Page 71: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

53

ภาคผนวก ค ประวตผเชยวชาญคนท 3

ชอ นางสาวจฑามาศ นกนอย วนเดอนปเกด วนท 7 ธนวาคม พ.ศ. 2531 วฒการศกษา ปการศกษา: 2555 ครศาสตรบณฑต

มหาวทยาลยจฬาลงกรณ

อาชพ ครอาสา ท วดพทธานสรณ

Page 72: ระบบอัตโนมัติส าหรับสกัดค านามประสมในประโยคภาษาไทยethesisarchive.library.tu.ac.th/thesis/2015/TU_2015_5309035193_2927_1794.pdf1.5

54

ประวตผเขยน

ชอ นางสาวณชชา บารง วนเดอนปเกด วนท 10 เมษายน พ.ศ. 2530 วฒการศกษา ปการศกษา: 2551 เทคโนโลยบณฑต

(เทคโนโลยสารสนเทศ) มหาวทยาลยเทคโนโลย พระจอมเกลาพระนครเหนอ ปราจนบร

ตาแหนง Senior Programmer บรษท กรงไทยธรกจลสซง จากด

ผลงานทางวชาการ

ณชชา บารง, และ รชฎา คงคะจนทร. (ธนวาคม 2558). ระบบอตโนมตสาหรบสกดคานามประสมในประโยคภาษาไทย. The Eleventh International Symposium on Natural Language Processing (SNLP 2016), พระนครศรอยธยา.

ประสบการณทางาน 2557-ปจจบน : Senior Programmer บรษท กรงไทยธรกจลสซง จากด 2552-2556 : Programmer บรษท สพรมโพรดกส จากด