master thesis at king mongkut's institute of technology ladkrababg. title: text adaptive...

97
เท็กอะแดปทีพเรโซแนนเทียรีนิวรอลเน็ตเวิรค A TEXT ADAPTIVE RESONANCE THEORY NEURAL NETWORK นรเศรษฐ จันทสูตร NORRASETH CHANTASUT วิทยานิพนธนี้เปนสวนหนึ่งของการศึกษาตามหลักสูตรปริญญาวิทยาศาสตรมหาบัณฑิต สาขาวิชาเทคโนโลยีสารสนเทศ บัณฑิตวิทยาลัย สถาบันเทคโนโลยีพระจอมเกลาเจาคุณทหารลาดกระบัง .. 2547 ISBN 974-15-1150-7

Upload: norraseth

Post on 12-Nov-2014

951 views

Category:

Documents


2 download

DESCRIPTION

The most studies of data mining have focused on structured data such as relational, transactional, and data warehouse data. However, the most available data that consist of large amounts of text documents such as news, articles, and research papers is stored in document database. The ability to group these documents is an important requirement for clustering analysis. This research proposes A Text Adaptive Resonance Theory Neural Network for document clustering. A Text Adaptive Resonance Theory Neural Network is designed to cluster on that data set that has a non-numerical feature value. Consequently, the proposed learning algorithm works directly on textualinformation without text transformation into a numerical value. The experiments are conducted on 2 datasets. The first dataset is a synthesized dataset, which is generated by the Data Mining & Data Exploration Laboratory and the second dataset is a Reuter-21578 Distribution 1.0 which is collected from the documents appeared on the Reuters newswire in 1987. The Entropy and F-Measure is used to measure the effectiveness of the proposed technique. According to the experimental results, the proposed neural network has shown good performance in clustering textual data.Student: Mr.Norraseth ChantasutThesis Advisor: Asst.Prof.Dr.Worapoj KreesuradejYear: 2004

TRANSCRIPT

Page 1: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

เทกอะแดปทพเรโซแนนเทยรนวรอลเนตเวรค

A TEXT ADAPTIVE RESONANCE THEORY NEURAL NETWORK

นรเศรษฐ จนทสตร NORRASETH CHANTASUT

วทยานพนธนเปนสวนหนงของการศกษาตามหลกสตรปรญญาวทยาศาสตรมหาบณฑต สาขาวชาเทคโนโลยสารสนเทศ

บณฑตวทยาลย สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง

พ.ศ. 2547 ISBN 974-15-1150-7

Page 2: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

A TEXT ADAPTIVE RESONANCE THEORY NEURAL NETWORK

NORRASETH CHANTASUT

A THESIS SUBMITTED IN PARTIAL FULFILLMENT OF THE REQUIREMENT FOR THE DEGREE OF

MASTER OF SCIENCE IN INFORMATION TECHNOLOGY SCHOOL OF GRAUDATE STUDIES

KING MONGKUT’S INSTITUTE OF TECHNOLOGY LADKRABANG 2004

ISBN 974-15-1150-7

Page 3: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

COPYRIGHT 2004 SCHOOL OF GRADUATE STUDIES KING MONGKUT’S INSTITUTE OF TECHNOLOGY LADKRABANG

Page 4: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

I

หวขอวทยานพนธ เทกอะแดปทพเรโซแนนเทยรนวรอลเนตเวรค นกศกษา นายนรเศรษฐ จนทสตร รหสประจาตว 43067138 ปรญญา วทยาศาสตรมหาบณฑต สาขาวชา เทคโนโลยสารสนเทศ พ.ศ. 2547 อาจารยผควบคมวทยานพนธ ผศ.ดร.วรพจน กรสระเดช

บทคดยอ การศกษาสวนใหญของเดตาไมนง (Data Mining) มงเนนเกยวกบขอมลทมโครงสราง

(Structured Data) แตอยางไรกตามขอมลเอกสารประเภทตางๆ เชน ขาว บทความ เอกสารงานวจย เปนตน ซงจะจดเกบ ขอมลทเกบอยในฐานขอมลเอกสาร (Document Databases) การจดกลมเอกสารเหลานจงเปนเรองทมความสาคญสาหรบการวเคราะหการจดแบงกลม วทยานพนธนจงนาเสนออลกอรทมการจดกลมเอกสารโดยใช เทกอะแดปทพเรโซแนนเทยรนวรอลเนตเวรค (Text Adaptive Resonance Theory Neural Network) วธการของเทกอะแดปทพเรโซแนนเทยรนวรอลเนตเวรค (Text Adaptive Resonance Theory Neural Network) ถกออกแบบเพอแบงกลมขอมลทเปนขอความโดยตรงและไมมการแปลงขอความเปนตวเลข ในการทดลองการทางานของโครงขายประสาทเทยมทไดรบการออกแบบใหมน ไดใชชดขอมล 2 ชด ไดแก ขอมลสงเคราะห (Synthesized Dataset) ซงสรางขนในหองปฏบตการ Data Mining & Data Exploration Laboratory และ ขอมลขาวรอยเตอร (Reuters-21578 Distribution 1.0) ซงถกรวบรวมจากขอมลขาวจรงของรอยเตอร (Reuters) ป ค.ศ. 1987 คา Entropy และ F-Measure ถกใชเพอวดผลลพธความถกตองของวธการใหม จากผลการทดลองโครงขายประสาทเทยมทไดรบการปรบแตงนสามารถรบขอมลทเปนขอความไดโดยตรง และทาการจดกลมขอมลทมคณสมบตมคาเปนขอความไดเปนอยางด

Page 5: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

II

Thesis Title A Text Adaptive Resonance Theory Neural Network Student Mr. Norraseth Chantasut Student ID. 43067138 Degree Master of Science Programme Information Technology Year 2004 Thesis Advisor Asst.Prof.Dr.Worapoj Kreesuradej

ABSTRACT The most studies of data mining have focused on structured data such as

relational, transactional, and data warehouse data. However, the most available data that consist of large amounts of text documents such as news, articles, and research papers is stored in document database. The ability to group these documents is an important requirement for clustering analysis. This research proposes A Text Adaptive Resonance Theory Neural Network for document clustering. A Text Adaptive Resonance Theory Neural Network is designed to cluster on that data set that has a non-numerical feature value. Consequently, the proposed learning algorithm works directly on textual information without text transformation into a numerical value. The experiments are conducted on 2 datasets. The first dataset is a synthesized dataset, which is generated by the Data Mining & Data Exploration Laboratory and the second dataset is a Reuter-21578 Distribution 1.0 which is collected from the documents appeared on the Reuters newswire in 1987. The Entropy and F-Measure is used to measure the effectiveness of the proposed technique. According to the experimental results, the proposed neural network has shown good performance in clustering textual data.

Page 6: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

III

กตตกรรมประกาศ

วทยานพนธฉบบนสาเรจลลวงไดอยางด ดวยคาแนะนาและคาปรกษาเกยวกบแนวทางในการทาวจยจาก ผศ.ดร.วรพจน กรสระเดช ซงเปนอาจารยผควบคมวทยานพนธ เพอทจะหาอลกอรทมใหมทเหมาะสมสาหรบการจดแบงกลมขอมลเอกสารขาวโดยเฉพาะ ทงนผวจยรสกซาบซงในความอนเคราะหจากทานและขอกราบขอบพระคณเปนอยางสงไว ณ ทน

นอกจากนนขาพเจาขอขอบคณและเอยนามถงบคคลตางๆ ทไดมสวนรวมในการสรางงานวจยชนนใหเสรจสมบรณขนมาได

ขอกรอบขอบพระคณบพการ ผใหสตปญญา ความคดอาน และคอยใหกาลงใจขาพเจาและใหการสนบสนนคาใชจายสวนทสาคญตางๆ ตลอดมา

ขอขอบพระคณ รศ.ดร.อารต ธรรมโน และอาจารยวารน เครอคลาย รวมทงคณาจารยในคณะเทคโนโลยสารสนเทศทกทานทไดประสทธประสาทความรตางๆ รวมทงใหคาปรกษาเมอมขอสงสยเพอใชเปนพนฐานความรในการทางานวจยและแกปญหาทพบในการทางานวจย ตลอดจนหองปฏบตการ Data Mining & Data Exploration Lab ทไดเออเฟอสถานทตลอดการทาวจยน

ขอขอบคณเจาหนาทคณะเทคโนโลยสารสนเทศทไดใหความอนเคราะหในความสะดวกตางๆในการทางานตงแตตน

นอกจากนขอขอบคณพๆ เพอนๆ นกศกษาทกคนทคอยใหความชวยเหลอ ใหคาแนะนาและกาลงใจขาพเจามาตลอด รวมทงคณทรงพล ชตพงศพฒนกล และคณสมคด แสนเสนาะ ในการแลกเปลยนความรและขอมลกลมขาวสาหรบใชในการทดลอบการทางานของอลกอรทม สดทายนขอขอบพระคณ ดร.จฬารตน ตนประเสรฐ และ ดร.นพดล ศรเพชร รวมทงกลมงานวจยเทคโนโลยคลงขอมล ฝายวจยและพฒนาสาขาเทคโนโลยคอมพวเตอรเพอการคานวณ ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต ทไดใหการสนบสนนงานวทยานพนธน

คณคาและประโยชนอนพงมจากวทยานพนธฉบบน ผวจยขอมอบแดผมพระคณทกทาน

นรเศรษฐ จนทสตร

Page 7: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

IV

สารบญ หนา บทคดยอภาษาไทย .............................................................................................................. I บทคดยอภาษาองกฤษ......................................................................................................... II กตตกรรมประกาศ .............................................................................................................. III สารบญ ............................................................................................................................. IV สารบญตาราง .................................................................................................................... VI สารบญรป ........................................................................................................................ VII บทท 1 บทนา...................................................................................................................... 1

1.1 ความเปนมา ความสาคญของปญหา.......................................................................... 1 1.2 จดประสงคของงานวจย............................................................................................. 3 1.3 แผนการดาเนนงานวจย............................................................................................. 3 1.4 เครองมอทใชในการวจย ............................................................................................ 4 1.5 ประโยชนทคาดวาจะไดรบจากงานวจยครงน............................................................... 4

บทท 2 หลกการและทฤษฎทเกยวของ ................................................................................... 5

2.1 หลกการจดแบงกลมเอกสาร (Document Clustering) ................................................. 5 2.1.1. Document Representation........................................................................... 6 2.1.2. Similarity Measures ................................................................................... 10 2.1.3. Clustering Algorithms................................................................................ 11 2.2 โครงขายประสาท (Neural Network)........................................................................ 15 2.3 โครงขายประสาทเทยม (Artificial Neural Network) .................................................. 17 2.4 Adaptive Resonance Theory Neural Network ...................................................... 18 2.4.1 ART1 Network ............................................................................................ 19 2.4.2 ART1 Clustering Algorithms ....................................................................... 20 2.5 การวดคณภาพของการจดกลม (Cluster Evaluation Measure) ................................. 22 2.5.1 Entropy....................................................................................................... 23 2.5.2 F-Measure .................................................................................................. 24

Page 8: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

V

สารบญ (ตอ) หนา บทท 3 ทฤษฎและหลกการทางานของ Text ART Neural Network........................................ 26 3.1 Document Representation ..................................................................................... 26 3.2 Similarity Measure for Symbolic Objects ............................................................... 27 3.3 A Text Adaptive Resonance Theory Neural Network ............................................. 29 3.4 Learning Algorithms............................................................................................... 30 บทท 4 วธการดาเนนการวจย ............................................................................................. 39 4.1 ขอมล Synthesized Alphabet Document................................................................. 39 4.2 ขอมล Synthesized Text Documents....................................................................... 40 4.3 ขอมลขาว Reuters–21578 ....................................................................................... 42 4.4 สรปผลการทดลอง .................................................................................................... 47 บทท 5 สรปผลการวจยและขอเสนอแนะ.............................................................................. 52 5.1 สรปผลงานวจย ........................................................................................................ 52 5.2 บทวเคราะห ............................................................................................................. 53 5.3 ขอเสนอแนะและแนวทางในการทาวจยตอ.................................................................. 54 เอกสารอางอง ................................................................................................................... 55 ภาคผนวก ........................................................................................................................ 58 ภาคผนวก ก แสดงตวอยางขาว Reuters-21578. ................................................................. 59 ภาคผนวก ข แสดงตวอยางการทางานของ Text ART Neural Network.................................. 68 ภาคผนวก ค ผลงานวจยทไดรบการตพมพ .......................................................................... 72 ประวตผเขยน.................................................................................................................... 87

Page 9: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

VI

สารบญตาราง

ตารางท หนา 2.1 แสดงการเปรยบเทยบระหวาง Biological กบ Artificial Neural Network ......................... 18 2.2 ตวอยางตาราง Confusion Matrix................................................................................. 22 2.3 ตารางแสดงคา Entropy ของแตละ Cluster ................................................................... 23 2.4 ตารางแสดงคา F-Measure ของแตละ Cluster .............................................................. 25 3.1 ขอมลเอกสาร .............................................................................................................. 27 4.1 Synthesized Alphabet Document.............................................................................. 40 4.2 แสดงผลลพธทไดจากการทดสอบของ Synthesized Alphabet Document ...................... 40 4.3 Synthesized Text Document ..................................................................................... 41 4.4 แสดงผลลพธทไดจากการทดสอบของ Synthesized Text Document.............................. 42 4.5 แสดงชดขอมลสาหรบใชเทรนนงและใชทดสอบของขอมลขาว Reuters 3 กลม ................. 44 4.6 แสดงผลลพธทไดจากการทดสอบของขอมลขาว Reuters 3 กลม..................................... 44 4.7 แสดงชดขอมลสาหรบใชเทรนนงและใชทดสอบของขอมลขาว Reuters 5 กลม ................. 45 4.8 แสดงผลลพธทไดจากการทดสอบของขอมลขาว Reuters 5 กลม..................................... 45 4.9 แสดงชดขอมลสาหรบใชเทรนนงและใชทดสอบของขอมลขาว Reuters 14 กลม ............... 46 4.10 แสดงผลลพธทไดจากการทดสอบของขอมลขาว Reuters 14 กลม ................................. 47 ก.1 แสดงตวอยางของคาทเปน Stop Words ....................................................................... 61 ก.2 แสดงตวอยางของคาทไดหลงจากตด Stemming ของคา ................................................ 63 ก.3 แสดงตวอยางของคาทตด stemming และคาทเปน stop word ....................................... 63 ก.4 แสดงตวอยางโครงสรางของขอมลขาว Reuters-21578 ทนาเขาโมเดล ............................ 64 ก.5 แสดงตวอยาง Weight ทไดจากการเรยนร (Synthesized Text Document)...................... 65 ก.6 แสดงตวอยาง Weight ทไดจากการเรยนร (Routers-21578)........................................... 66

Page 10: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

VII

สารบญรป รปท หนา 2.1 ขนตอนการแบงกลมเอกสาร ........................................................................................... 5 2.2 แสดงแผนภาพ Dendogram ของ Hierarchical Clustering............................................ 12 2.2 แสดงแผนภาพ Cluster ของ Partitional Clustering ....................................................... 14 2.3 แสดงแผนภาพวาดของ โครงขายประสาทในสมองมนษย ................................................ 16 2.4 แสดงแผนภาพของโครงขายประสาทเทยม ..................................................................... 18 2.5 โครงสรางของ Binary Adaptive Resonance Theory Neural Network…………………...20 3.1 โครงสรางของ Text Adaptive Resonance Theory Neural Network ............................. 29 3.2 แสดง Flow Chart การทางานของอลกอรทม Text ART Neural Network......................... 33 4.1 (a) ชดตวอกษรทใชสรางขอมลใน Title .......................................................................... 39 4.2 (b)ชดตวอกษรทใชสรางขอมลใน Keyword .................................................................. 39

Page 11: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

บทท 1 บทนา

1.1 ความเปนมา ความสาคญของปญหา การศกษาสวนใหญของ Data Mining มงเนนเกยวกบขอมลทมโครงสราง (Structured

Data) แตอยางไรกตามขอมลสารสนเทศทเกบอยจะอยในรปของ Text Databases หรอ Document Databases ซงจะจดเกบเอกสารประเภทตางๆ เชน เอกสารบทความ เอกสารงานวจย เอกสารขาว เปนตน ขอมลทเกบอยใน Document Databases สวนมากจะเปนขอมลทม Attribute แบบโครงสรางไมชดเจน (Semi-Structured Data) ลกษณะของขอมลทม Measurement ในลกษณะโครงสรางแบบ Semi-Structured คอขอมลทม Attribute ทงทมโครงสราง (Structured Data) และทไมมโครงสราง (Unstructured Data) รวมอยในขอมล ตวอยางเชน Title Author Publication_Date จดเปน Structured Data สวน Abstract และ Contents จดเปน Unstructured Data ในขณะทระบบฐานขอมลทเกบเอกสารประเภทตางๆ ทมลกษณะแบบโครงสรางทไมชดเจน (Semi-Structured Data) ไดมปรมาณของเอกสารมากขนอยางรวดเรว สงผลใหปจจบนปรมาณขอมลทเปนขอความหรอเอกสารมปรมาณเพมมากขนอยางรวดเรว วธการและอลกอรทมตางๆของ Data Mining และ Text Processing ไดถกนามาประยกตเพอใชกบขอมลทเปนขอความ หนงในวธการทนาสนใจคอการจดแบงกลมเอกสาร (Document Clustering) [5]

Document Clustering นนคอวธการจดแบงกลมขอความโดยอาศยคาความแตกตางหรอคาความคลายคลงของวตถหรอขอมลทนามาเปรยบเทยบกน ขอมลทมความคลายคลงกนมากจะถกกาหนดใหอยกลมเดยวกนและขอมลทมความคลายคลงกนนอยจะถกกาหนดใหอยคนละกลมกน ซงวธการตางๆนนจาเปนตองการอลกอรทมทสามารถทางานไดดกบขอมลทสนใจหรอตองการทจะนามาเปนขอมลอนพตของอลกอรทม เพอใหกระบวนการทางานของการจดแบงกลมขอความมประสทธภาพดและไดผลลพธทถกตองในระดบทยอมรบได วธการและอลกอรทมทนาเสนอในงานวจยนจงมงเนนเกยวกบ อลกอรทมสาหรบการจดแบงกลม (Clustering Algorithms) เพอปรบปรงและออกแบบอลกอรทมใหมสาหรบการจดแบงกลมทมความเหมาะสมกบขอมลทเปนขอความหรอเอกสารประเภทขาวตางๆ

การจดกลมแบบคลสเตอรง (Clustering) คอ กระบวนการการจดกลมของออบเจคตเปนกลมตางๆทมความคลายคลงกนใหอยในกลมเดยวกน และกลมทมความแตกตางกนใหอยในกลมทแตกตางกน และคลสเตอรคอกลมขอมลทรวบรวมใหอยกลมเดยวกนโดยใชหลกการวดความ

Page 12: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

2

คลายคลง ซงการจดกลม (Clustering) มลกษณะการทางานแบบเรยนรดวยตวเอง (Unsupervised Learning) แตกตางจากการจาแนกกลม (Classification) ทมลกษณะการทางานแบบเรยนรโดยการสอน (Supervised Learning) การแบงกลมสามารถแบงออกเปน 2 วธการหลก คอ Hierarchical clustering และ Partitioning clustering [1]

อลกอรทมทใชหลกการของ Hierarchical clustering มสองอลกอรทมคอ Agglomerative และ Divisive clustering อลกอรทมทใชหลกการของ Partitioning clustering ไดแก K-Means, Competitive Learning Neural Network, Kohonen Neural Network และ Adaptive Resonance Theory เปนตน [1] ซงอลกอรทมเหลานจะรบขอมลเขาเปนตวเลข (Numerical Feature Value) ดงนน การจดกลมขอมลทไมใชตวเลข จาเปนตองทาการแปลงคณสมบตขอมล (Feature Type) ใหอยในลกษณะของตวเลขเพอใหสามารถนาขอมลเขาอลกอรทมได ขนตอนการแปลงคณสมบตของออปเจตทเปนเอกสารมาเปนขอมลตวเลข เรยกวา การแทนเอกสาร (Document Representation) ซงจะตองแปลงขอมลทเปนเอกสารขอความใหอยในรปแบบทสามารถประมวลผลดวยอลกอรทมทวไปได วธการหนงทไดแผหลายใหการแทนเอกสารขอความคอ วธการ Vector Space Model นาเสนอโดย G. Salton [2] มลกษณะขอมลเปน Matrix Array 2 Dimensions ประกอบดวย TERM x Document แตการทา Document Representation โดยวธการ Vector Space Model อาจสรางจานวน Feature Vectors จานวนมากทาใหเกดปญหา Very High Dimensional Vector Space มผลกบการคานวณทใชเวลามากขนของอลกอรทม และอาจทาใหขอมลสญเสยความหมายในตวมนเองเนองจากการแปลงเอกสารขอความมาเปนอาเรย 2 มต ทม Feature type เปนตวเลข [6] ดงนนในปจจบนปญหาการจดกลมไดขยายปญหาในการออกแบบอลกอรทมสาหรบการจดกลมขอมลทเปนตวเลขมาเปนปญหาในการออกแบบอลกอรทมสาหรบการจดกลมทมลกษณะขอมลเปนเอกสารขอความหรอลกษณะขอมลทไมใชตวเลข

ในชวงเวลาทผานมามโครงขายประสาทเทยมทไดรบการพฒนาเพอใหสามารถรบขอมลทเปนขอความได คอ Kohonen Neural Network พฒนาเปนโครงขายประสาทเทยมใหมชอ Text Processing Kohonen Neural Network และ Competitive Learning Neural Network พฒนาเปนโครงขายประสาทเทยมใหมชอ Text Processing Competitive Learning Neural Network ซงโครงขายประสาทเทยมใหมนสามารถจดแบงกลมขอความไดโดยตรง โดยไมมแปลงรปแบบขอความนนมาเปนตวเลข ทาใหโครงขายประสาทเทยมใหมนสามารถรบขอมลทเปนขอความได การวดความคลายคลงสามารถทาไดสองแนวทางคอแนวทางแรกเปนการวดความแตกตาง ถาเปรยบเทยบกบทกๆโหนดแลวโหนดใดมความแตกตางกนนอยทสด โหนดนนคอโหนดทชนะ และ

Page 13: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

3

แนวทางทสองเปนการวดความคลายคลง ถาเปรยบเทยบกบทกๆโหนดแลวโหนดใดมความคลายคลงมากทสด โหนดนนคอโหนดทชนะ [3]

A Text Adaptive Resonance Theory Neural Network เปนโครงขายประสาทเทยมทไดรบการปรบแตงการทางานของอลกอรทมขนเพอขยายความสามารถของ Adaptive Resonance Theory Neural Networks ใหสามารถรบขอมลเขาเปนขอความ (Textual Dataset) ไดโดยตรง โดยไมตองผานขนตอนการแปลงรปแบบขอมลใหเปนตวเลขหรอขอมลเชงปรมาณ (Quantitative Feature) และขนตอนการปรบแตงตามความสอดคลอง (Adaptive Resonance) ดวยอาศยคาพารามเตอร Vigilance ในการควบคมระดบคาคลายคลงของ Pattern ททาการ Clustering ได ดวยหลกการทางานแบบเรยนรดวยตวเองและหลกการวดความคลายคลงของซมโบลคออบเจต (Similarity Measure for Symbolic Object) [5] โครงขายประสาทเทยมทไดปรบแตงอลกอรทมนสามารถจดกลมขอมลทมคณสมบตเปนขอความไดเปนอยางด

1.2 จดประสงคของงานวจย งานวจยนมจดประสงคเพอพฒนาวธการจดแบงกลมเอกสารดวยโครงขายประสาทเทยม

ทสามารถรบคาขอมลเขาทเปน Qualitative Value ไดโดยตรงโดยไมตองแปลงคาขอมลใหอยในรปแบบตวเลข เพอใชเปนแนวทางในการพฒนาและปรบปรงอลกอรทม ในการจดกลมเอกสารทเปนขอความ เชน ขาวการเมอง ขาวเศรษฐกจ ขาวกฬา เปนตน ใหมประสทธภาพดสามารถทางานกบขอมลทเปนขอความไดดและมความถกตองในระดบทยอมรบได

1.3 แผนการดาเนนงานวจย

1.3.1 ขนตอนการดาเนนงานวจย 1. ศกษาผลงานวจยและเอกสารทางวชาการทเกยวของกบการวจย 2. กาหนดหวขอ เปาหมาย วตถประสงค และขอบเขตการทาวทยานพนธ 3. ศกษาทฤษฏและหลกการทเกยวของ 4. วเคราะห ออกแบบและทดลองอลกอรทมใหม 5. พฒนาโปรแกรมและทดสอบอลกอรทมกบขอมลทกาหนด 6. วเคราะหผล เปรยบเทยบ และสรปผล 7. จดทาเอกสารประกอบวทยานพนธ

Page 14: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

4

1.3.2 ระยะเวลาทคาดวาจะใชในแตละขนตอน

ระยะเวลาทใช (เดอนท) ขนตอนการทางาน 1 2 3 4 5 6 7 8 9 10 11 12

ศกษาผลงานวจยและเอกสารทางวชาการ

กาหนดหวขอ เปาหมาย วตถประสงค และขอบเขตการทาวทยานพนธ

ศกษาทฤษฎและหลกการทเกยวของ

วเคราะหออกแบบ และทดลอง อลกอรทมใหม

พฒนาโปรแกรมและทดสอบ อลกอรทมกบขอมลทกาหนด

วเคราะหผล เปรยบเทยบ และสรปผล

จดทาเอกสารประกอบวทยานพนธ

1.4 เครองมอทใชในการวจย 1. ฮารดแวรประกอบดวย PC Computer CPU Pentium 4 , Clock Rate 1.5 GHz , RAM 256

MB, HARD DISK 20 GB, MONITER 15 นว, KEYBORD, VGA CARD และ เครองพมพ อยางละหนงชด

2. ระบบปฏบตการคอ MS-Windows XP Professional 3. ซอฟตแวรทใชคอ MATLAB 5.0

1.5 ประโยชนทคาดวาจะไดรบจากงานวจยครงน 1. ความรความเขาใจหลกการจดแบงกลมเอกสาร (Document Clustering) 2. ความรความเขาใจการทางานของโครงขายประสาทเทยมแบบ Unsupervised Learning 3. แนวทางในการพฒนาและปรบปรงอลกอรทม ซงคาดวาจะทาใหไดอลกอรทมใหม

Page 15: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

บทท 2 หลกการและทฤษฏทเกยวของ

2.1 หลกการจดแบงกลมเอกสาร (Document Clustering Concepts) การจดแบงกลมเอกสาร คอ กระบวนการวเคราะหขอมลเอกสารเพอจดกลมของเอกสารตามคณลกษณะความคลายคลงหรอความแตกตางของคณลกษณะของเอกสาร ในทนคณลกษณะของเอกสารหมายถง ชอเรองของเอกสารและคาสาคญของเอกสาร [6] ซงขนตอนทสาคญในการจดกลมเอกสารคอขนตอนของอลกอรทมทใชในการแบงกลม เชน K-Mean algorithm, Agglomerative Clustering และ Neural Networks ขนตอนการแบงกลมแสดงไวในรปท 2.1

รปท 2.1 ขนตอนการแบงกลมเอกสาร

Page 16: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

6

ขอมลเอกสาร (Document) จะถกตดคาโดยการตดกลมคาทเรยกวา Stop Words ออกจากขอมลเอกสารกอน เมอตด Stop Words เรยบรอยแลว จากนนหารากของคาโดยใชเทคนคของ Streaming Words หลงจากขนตอนน สงทไดคอกลมคาทใชเปน Features ของ Document ในทน Features ของ Document คอ Terms จากนนจงสราง Matrix ทประกอบดวย Doc x Terms ซงการสราง Matrix นเปนวธการทวไปของ Document Representation ในกระบวนการทางานของการจดแบงกลมเอกสาร (Document Clustering) สวนทสาคญของการจดแบงกลมเอกสารสามารถแบงออกเปน 3 สวน คอ

2.1.1 Document Representations 2.1.2 Similarity Measures 2.1.3 Clustering Algorithms

2.1.1. Document Representation ในการคานวณหาความคลายคลงของเอกสาร จาเปนตองกาหนด Attribute ของเอกสาร

เพอนามาคานวณในสมการหาคาความคลายคลง (Similarity Measures) โดย Attribute ของเอกสารทถกเลอกเพอใชในการคานวณ เรยกวา Measurement ซงอาจเปน Attribute ตางๆ เชน Title ของเอกสาร Author ของเอกสาร และ Keywords ของเอกสาร ซงลกษณะขอมลใน Measurement ของเอกสารอยในลกษณะขอมลเชงคณภาพ (Qualitative Feature) วธการทวไปสาหรบการนาขอมลเชงคณภาพ (Qualitative Feature) จาก Measurement ของเอกสารมาแปลงเปนขอมลเชงปรมาณ (Quantitative Feature) มหลายวธการ ในทนจะกลาวถงวธการทเปนทรจกและเปนทใชกนแพรหลายทงหมด 3 วธการ ดงน [6],[26]

2.1.1.1 Binary Representation วธการแบบ Binary นจะสามารถบอกไดเพยงบอกแตละเอกสารมคาทเปน Index Terms ปรากฏในเอกสารหรอไม ดวยการแทนดวย 0 และ 1 โดย 0 หมายถงไมมคานปรากฏในเอกสาร และ 1 หมายถงมคานปรากฏในเอกสาร ดงเชนในตวอยาง

Page 17: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

7

ในตวอยางนมเอกสาร A ถงเอกสาร F แตละเอกสารมคาทเปน Index Terms ดงขางลางน Doc A care, cat, persian Doc B care, care, care, cat, cat, cat, persian, persian, persian Doc C cat, cat, cat, cat, cat, cat, cat, cat, cat Doc D care, cat, dog, dog, dog, dog, dog, dog, persian Doc E care, cat, dog Doc F care Index Terms = <care,cat,dog,persian>

ดงนนเราแทนเอกสารแบบไบนาร (Binary Document Representation) จะไดผลลพธดงน Doc A = <1, 1, 0, 1> Doc B = <1, 1, 0, 1> Doc C = <0, 1, 0, 0> Doc D = <1, 1, 1, 1> Doc E = <1, 1, 1, 0> Doc F = <1, 0, 0, 0>

ซงเราสามารถสราง Binary Matrix ไดดงน care cat dog persian Doc A 1 1 0 1 Doc B 1 1 0 1 Doc C 0 1 0 0 Doc D 1 1 1 1 Doc E 1 1 1 0 Doc F 1 0 0 0

วธการแบบ Binary มขอเสยในเรองการไมมนาหนกของคาในเอกสารและความถของคาท

ปรากฏในเอกสาร การแทนเอกสารดวยวธนจงขาดประสทธภาพในสองปจจยดงกลาว

Page 18: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

8

2.1.1.2 Term Frequency (TF) วธการแบบ TF นสามารถบอกความถของคาทปรากฏในเอกสารได จงมประสทธภาพดกวาวธการแบบ Binary โดยวธการแบบ TF เปนการนบแตละคาทปรากฏในเอกสารวาจะจานวนทปรากฏกครง โดยยงคงใช 0 แทนความหมายวาไมมคาปรากฏในเอกสาร คลายกบวธการแบบ Binary ดงตวอยาง ในตวอยางนมเอกสาร A ถงเอกสาร F แตละเอกสารมคาทเปน Index Terms ดงขางลางน

Doc A care, cat, persian Doc B care, care, care, cat, cat, cat, persian, persian, persian Doc C cat, cat, cat, cat, cat, cat, cat, cat, cat Doc D care, cat, dog, dog, dog, dog, dog, dog, persian Doc E care, cat, dog Doc F care Index Terms = <care,cat,dog,persian>

ดงนนเราแทนเอกสารแบบไปนาร (TF) จะไดผลลพธดงน TFdocA = <1, 1, 0, 1> TFdocB = <3, 3, 0, 3> TFdocC = <0, 9, 0, 0> TFdocD = <1, 1, 6, 1> TFdocE = <1, 1, 1, 0> TFdocF = <1, 0, 0, 0>

ซงเราสามารถสราง Term-Frequency Matrix ไดดงน care cat dog persian Doc A 1 1 0 1 Doc B 3 3 0 3 Doc C 0 9 0 0 Doc D 1 1 6 1 Doc E 1 1 1 0 Doc F 1 0 0 0

Page 19: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

9

2.1.1.3 Term Frequency * Inverted Document Frequency (TF*IDF)

วธการแบบ TF*IDF เปนการหาจานวนความถของคาทปรากฏในเอกสารรวมกบการหานาหนกของคาทปรากฏในเอกสาร เนองจากคาทเปน Index Terms แตละคามความสาคญแตกตางกน จงตองใหนาหนกของคาเหลาน การหานาหนกของคาสามารถหาไดดงสมการน

IDFD,t j = log2 ND nD,t j( ) (2.1)

โดยกาหนดให

ND = จานวนทงหมดของเอกสาร D

nD,t j = จานวนเอกสารทม index term tj

หลงจากหานาหนกของคา (IDF) ไดเรยบรอยแลวใหมคณกบ Term-Frequency ดงสมการ

Wdi ,t j= TFdi ,t j

× IDFD,t j (2.2)

ในตวอยางนมเอกสาร A ถงเอกสาร F แตละเอกสารมคาทเปน Index Terms ดงขางลางน

Doc A care, cat, persian Doc B care, care, care, cat, cat, cat, persian, persian, persian Doc C cat, cat, cat, cat, cat, cat, cat, cat, cat Doc D care, cat, dog, dog, dog, dog, dog, dog, persian Doc E care, cat, dog Doc F care

หาจานวนคาทปรากฏในเอกสารซงจะได Term-Frequency Vector ดงน TFdocA = <1, 1, 0, 1> TFdocB = <3, 3, 0, 3> TFdocC = <0, 9, 0, 0> TFdocD = <1, 1, 6, 1> TFdocE = <1, 1, 1, 0> TFdocF = <1, 0, 0, 0>

Page 20: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

10

หลงจากนน หานาหนกของแตละคา

IDFD,t j = <log2(6/5), log2(6/5), log2(6/2), log2(6/3)>

= <0.26, 0.26, 1.58, 1.00>

หลงจากหานาหนกของคา (IDF) ไดเรยบรอยแลวใหมคณกบ Term-Frequency

WdocA = <1 × 0.26, 1 × 0.26, 0 × 1.58, 1 × 1.00> = <0.26, 0.26, 0.00, 1.00>

WdocB = <3 × 0.26, 3 × 0.26, 0 × 1.58, 3 × 1.00> = <0.79, 0.79, 0.00, 3.00>

WdocC = <0 × 0.26, 9 × 0.26, 0 × 1.58, 0 × 1.00> = <0.00, 2.37, 0.00, 0.00>

WdocD = <1 × 0.26, 1 × 0.26, 6 × 1.58, 1 × 1.00> = <0.26, 0.26, 9.51, 1.00>

WdocE = <1 × 0.26, 1 × 0.26, 1 × 1.58, 0 × 1.00> = <0.26, 0.26, 1.58, 0.00>

WdocF = <1 × 0.26, 0 × 0.26, 0 × 1.58, 0 × 1.00> = <0.26, 0.00, 0.00, 0.00> ซงเราสามารถสราง Term-Frequency * Inverted-Document-Frequency Matrix ไดดงน

care cat dog persian Doc A 0.26 0.26 0.00 1.00 Doc B 0.79 0.79 0.00 3.00 Doc C 0.00 2.37 0.00 0.00 Doc D 0.26 0.26 9.51 1.00 Doc E 0.26 0.26 1.58 0.00 Doc F 0.26 0.00 0.00 0.00

อยางไรกตาม วธการแปลงขอมลเชงคณภาพมาเปนขอมลเชงปรมาณสาหรบการจดแบง

เอกสาร อาจกอใหเกดปญหา Very High Dimensional Vector Spaces ได ถา Index Terms ม

Page 21: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

11

จานวนมากขน เชน Collection ของเอกสารชดหนง จานวน 1,000 เอกสาร เมอผานขนตอนกอนการประมวลผล (Preprocessing Document) อาจทาใหเกดจานวน Index Terms มากถง 30-50 คา ซง Index Terms ทมจานวนมากน จะมผลกระทบกบขนตอนของ Document Representation ทาใหเมอผานขนตอนการทา Document Representation ดงกลาว จานวน Feature Vector จะมจานวนมากขนตามไปดวย นนคอผลลพธสงทายเมอผานขนตอน Document Representation จะมขนาด Feature เปน 30-50 Dimensions

2.1.2. Similarity Measures Similarity Measures เปนพนฐานสาหรบการกาหนดกลมของขอมล โดยวดคาความคลายคลงระหวาง 2 patterns โดยตองใหทก Patterns ม Feature space เหมอนกน ในการคานวณหาความคลายคลงของ Pattern ทม Feature type เปน continuous เราสามารถใชสตร Euclidean Distance เพอหาคาความคลายคลงน [5],[21],[28]

2

jpip

2

2j2i

2

1j1i xxxxxx)j,i(d −++−+−= L (2.3)

กาหนดให i = <Xi1,Xi2,…Xip> j = <Xj1,Xj2,…,Xjp> p = Feature ของ Feature Vector i และ j

อยางไรกตาม สตร Euclidean Distance สามารถใชไดเฉพาะกบขอมลประเภท Quantitative ทอธบายขอมลดวยจานวนตวเลขหรอบอกถงคาตวเลขปรมาณของสงทสนใจ ดงนนการหาความแตกตางของขอมลทไมใชขอมลจานวนตวเลขดวยสตรน จงใชไมได ตวอยางขอมลเหลาน เชน เอกสารบทความ ชอหวขอขาว และคาสาคญของเอกสารตางๆ เพราะฉะนนวธการทวไปสาหรบการจดแบงกลมขอมลเอกสาร จงตองทาการ Represent ขอมลใหอยลกษณะขอมลเชงปรมาณหรอจานวนตวเลข (Quantitative) ดงวธการในขอ 2.1.1 ทไดกลาวมาแลว

2.1.3. Clustering Algorithms Clustering Algorithms จะทาการแบงกลมขอมลออกเปนกลมๆ ทเราเรยกวา Cluster

ขอมลทคณลกษณะคลายคลงกนจะถกจดใหอยกลมเดยวกน และขอมลทมคณลกษณะแตกตาง

Page 22: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

12

กนจะถกจดใหอยคนละกลม อลกอรทมทใชในการแบงกลมจะอาศยหลกการ Similarity Measures หรอ Dissimilarity Measures เพอระบวาขอมลนนๆมความคลายคลงหรอแตกตางกนเทาไร อลกอรทมสาหรบแบงกลมขอมลทมอยสามารถแบงออกเปน 2 แนวทาง คอ Hierarchical Clustering และ Partitional Clustering [21],[28]

2.1.3.1. Hierarchical Clustering

เทคนค Hierarchical Clustering คอการจดรวมกลมขอมลเปนชนๆตามลาดบชน จากขอมลเพยงคลสเตอรเดยวทประกอบไปดวยชดของขอมลทงหมดทระดบบนสด เมอผานขน ตอนการจดกลมกจะไดเปนคลสเตอรยอยๆ ไปจนกระทงแตละคลสเตอรจะมเฉพาะเพยงขอมลชดเดยวทระดบลางสด ซงผลทไดจากใชงานอลกอรทมการจดกลมแบบ Hierarchical นสามารถแสดงไดเปนโครงแบบตนไมทเรยกวา Dendogram ดงรปท 2.1 แสดงแผนภาพ Dendogram ของ Hierarchical Clustering ในการสรางลาดบชนของ Hierarchical Clustering นนเราสามารถจาแนกไดเปนสองวธ คอวธแบบ Agglomerative และ วธแบบ divisive ซงวธแบบ Agglomerative เปนวธทใชกนมากใน Hierarchical Clustering [2]

รปท 2.2 แสดงแผนภาพ Dendogram ของ Hierarchical Clustering

Hierarchical Agglomerative Clustering วธนจะเรมจากชดของขอมลเดยวในแตละคลสเตอร แลวทแตละขนจะทาการรวม

(merge) คลสเตอรทเหมอนกนมากทสดสองคลสเตอรเขาดวยกน ซงจะทาซาๆในขนตอนนจนกระทงไดจานวนของคลสเตอรทนอยทสดแลว หรอถาตองการใหไดลาดบชนทสมบรณกตองทาขนตอนนไปจนกระทงเหลอคลสเตอรเพยงหนงคลสเตอร อลกอรทมสาหรบหาความคลายคลงระหวางแตละคคลสเตอรม 2 วธคอ Single-Link และ Complete-Link ในอลกอรทมแบบ Single-

Page 23: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

13

Link คาความแตกตาง (Distance) ระหวางสองคลสเตอร คอคาความแตกตาง (Distance) ทนอยทสด (Minimum) ระหวาง 2 Patterns จาก 2 คลสเตอร ในขณะทอลกอรทมแบบ Complete-Link คาความแตกตาง (Distance) ระหวางสองคลสเตอร คอคาความแตกตาง (Distance) ทมากทสด (Maximum) ระหวาง 2 Patterns จาก 2 คลสเตอร ขนตอนการทางานของ Hierarchical Agglomerative Clustering Algorithm ขนตอนท 1 คานวณหา Distance ระหวางแตละค Patterns จากคลสเตอร เกบคา Distance ลงใน Proximity Matrix ขนตอนท 2 หาคทมคาความคลายคลงมากทสดจาก Proximity Matrix แลวรวม 2 คลสเตอรเปน 1 คลสเตอร จากนน Update คา Distance ใน Proximity Matrix ขนตอนท 3 ถา Patterns ทงหมดจากทกคลสเตอร ถกรวมเปน 1 คลสเตอร เรยบรอยแลว ใหหยดการทางาน นอกจากนใหกลบไปทางานทขนตอนท 2

2.1.3.2 Partitional Clustering Partitional Clustering ทางานโดยระบคลสเตอรขนมาจานวนหนงกอนพรอมๆกน โดยท

ในแตละคลสเตอรจะประกอบไปดวยขอมลทงหมดทกระจายกนไปอยในแตละคลสเตอร แลวทาการปรบ (update) คลสเตอรซาๆดวยฟงกชนทจะทาใหไดคลสเตอรเหลอจานวนนอยทสด การปรบ คลสเตอรไมใชการนาคลสเตอรทมอยมารวมกน แตเกดจากปรบเปลยนโยกยายของขอมลระหวาง คลสเตอรเหลานน ซงอลกอรทมแบบ Partitional Clustering ไมไดมการสราง Dendogram เหมอนวธ Hierarchical Clustering โดยทอลกอรทมแบบ Partitional Clustering ทรจกกนดเชนอลกอรทมในกลม K-means เปนตน [21],[28]

อลกอรทม K-means จะมการทางานโดยรมจากการกาหนดคลสเตอรแบบสมขนมาจานวน k คลสเตอร (ซงจะกาหนดจดศนยกลางของแตละคลสเตอรขนมาพรอมกนดวย) ตอจากนนใหขอมลแตละตวไปเปนสมาชกอยในคลสเตอรทอยใกลกบมนมากทสด โดยการวดระยะหางระหวางตวมนกบจดศนยกลางของคลสเตอร ตวอลกอรทมจะทาการคานวณไปเรอยๆจนครบจานวนของขอมลทกตวและทกคลสเตอร เพอใหขอมลไปเปนสมาชกอยในคลสเตอรใดคลสเตอรหนง เมอเสรจสนขนตอนนแลวอลกอรทมกจะทาการหาจดศนยกลาง ของทกๆคลสเตอร ทมขอมลอยใหมอกครง โดยจะหาจากคาเฉลยของระยะหางจากจดศนยกลางกบสมาชกทกตวในคลสเตอร ซงจานวนของคลสเตอรอาจจะมการเปลยนแปลงไดในขนตอนน โดยจานวนจะลดลงหรอคงทเทานนและอลกอรทมจะวนกลบ ไปเรมทาการคานวณระยะหางระหวางขอมลแตละตวกบจดศนยกลางของทกๆคลสเตอรทไดใหมนอกครง และจะทาซาๆขนตอนเหลานไปจนกระทงจานวน

Page 24: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

14

ของขอมลในแตละคลสเตอรไมมการเปลยนแปลง จะเหนไดวาอลกอรทม K-means เหมาะสมกบโครงสราง ของคลสเตอรทเปนรปทรงกลม นอกจากนการกาหนดคลสเตอรเรมตนกเปนสงสาคญมากของอลกอรทม K-means ทจะทาใหผลของการจดกลมมคณภาพ

รปท 2.2 แสดงแผนภาพ Cluster ของ Partitional Clustering

Criterion ทใชใน K-Mean Algorithm คอ Squared Error ดงสมการ

∑∑= =

−=N

i

K

jj

ji cxCXE

1

2

1

2 ),( (2.4)

กาหนดให j

ix คอ ขอมลท i ใน Cluster ท j และ jc คอ Centroid ของ Cluster ท j ขนตอนการทางานของ K-mean Algorithm ขนตอนท 1 กาหนดคา K เปนคาเรมตนของจานวนกลม Cluster ขนตอนท 2 กาหนดใหขอมลทมคา Squared Error นอยทสดเมอเปรยบเทยบกบ Centroid ของ Cluster ท j ให assign อยใน Cluster นน ขนตอนท 3 Update คา Mean (Centroid) ของ Cluster ท j ขนตอนท 4 ถายงไมถงจด Convergence ใหกลบทขนตอนท 2, Convergence สามารถเปนไดคอ จานวน Loop การทางาน อกอลกอรทมหนงทนากลาวถงคอ Fuzzy Clustering มความแตกตางอยางเหนไดชดคอ Clustering Algorithm ทวไปจะระบ Pattern ใด Pattern หนงใหอยใน Cluster ใด Cluster หนง (one and only one cluster) เชน K-Mean Clustering แตสาหรบ Fuzzy Clustering จะระบ Pattern ใด Pattern หนงใหอยหลาย Cluster โดยมคา Membership Function ทใชบอกถงระดบความสมพนธระหวาง Pattern และ Cluster [21] ขนตอนการทางานของ Fuzzy Clustering Algorithm ขนตอนท 1 กาหนดคา K เปนคาเรมตนของจานวนกลม Cluster และสราง Membership Matrix (U) ทประกอบดวย N x K เมอ N คอ จานวน Objects หรอ Patterns และ K คอ จานวน Cluster

Page 25: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

15

สมาชกใน Membership Matrix (U) แทนดวย uij หมายถงคา Grade of Membership ของ Pattern Xi ในคลสเตอร Cj คา uij มคาอยระหวาง [0,1] ขนตอนท 2 กาหนดใหขอมลทมคา Squared Error นอยทสดเมอเปรยบเทยบกบ Centroid ของ Cluster ท j ให assign อยใน Cluster นน โดยมสตรดงน

∑∑∑== =

=−=N

iiikk

N

i

K

kkiij xuccxuUXE

11 1

22 ;),( (2.5)

ขนตอนท 3 ทาขนตอนท 2 ซา จนกระทง uij ของ Membership Matrix U ไมมการเปลยนแปลง

2.2 โครงขายประสาท (Neural Network) โครงขายประสาทภายในสมองของมนษย เปนสงสาคญทธรรมชาตใหมนษยมาโดยท

ความพเศษของโครงขายประสาทเทยมภายในสมองมนษยนนคอมนมความสามารถ “คดหาเหตผล” ซงทาใหมนษยเปนสตวทฝกและเรยนรไดดกวาสตวใดๆ กเพราะวามนษยมสมองทนาอศจรรยนนเอง ซงสมองของมนษยประกอบดวย เซลประสาททเรยกวา นวรอน (neuron) ทเชอมตอซงกนและกนอยางหนาแนน อยภายในสมองมนษยราวๆ 10 พนลานนวรอน [7],[8],[22] ดงนนการใชหลายๆนวรอนประมวลผลพรอมๆกน ทาใหสมองมนษยสามารถปฏบตงานทซบซอนไดเรวกวาการทางานของเครองคอมพวเตอรในปจจบนมาก โดยทแตละนวรอนจะมโครงสรางงายๆท ประกอบดวยตวเซล หรอ soma และมเสนประสาทแยกออกไปสองกงหลกๆ ทเรยกวา dendrite แบบหนง และเสนประสาทเดยวยาวทเรยกวา axon แบบหนง ในตวเซลจะ ม นวเคลยส ( nucleus) อยตรงกลาง ซงบรรจไปดวยขอมล (information) เกยวกบพนธกรรม และมของเหลวทเรยกวา plasma บรรจหอหมอย ตามรป 2.3 คอแผนภาพวาดของโครงขายประสาทในสมองมนษย [21],[22]

Page 26: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

16

รปท 2.3 แสดงแผนภาพวาดของ โครงขายประสาทในสมองมนษย

นวรอนแตละตวจะรบสญญาณ (impulse) จากนวรอนตวอนๆ ผานทาง dendrite

(receiver) ของมนและสงผานสญญาณทกาเนดขนโดยตวเซลของมนเองไปตามเสนประสาทแอกซอน (Axon) ซงสญญาณจะผานเสนประสาทนไปยงจดปลายทาง ทเรยกวาไซแนปส (Synapse) โดยทไซแนปส คอ จดทเชอมตอระหวางสองนวรอน (axon ของนวรอนหนง กบเดนไดรท (Dendrite) ของอกนวรอนหนง) เมอสญญาณ ไปถงจดปลายของตวไซแนปส แลวกจะเกดปฏกรยาเคมขนมาและตอจากนน ปฏกรยาเคมกจะถกแปลงเปนสญญาณไฟฟา และถกปลอยออกมาโดยตวทเรยกวา neurotransmitter ซงสญญาณจะ แพรขามชองวางไซแนปส (ไปยงเดนไดรท (Dendrite) ของนวรอนอนตอไป) และจะทาใหเกดผลกระทบขนกบไซแนปส โดยทผลกระทบทเกดกบไซแนปส สามารถจะถกปรบไดโดยสญญาณ (การเพมขนหรอลดลงของศกยไฟฟา) ทผานตวมนดงนนตวไซแนปส จงสามารถเรยนรจากกจกรรมทมนเขาไปมสวนรวมได โดยจะขนอยกบพฤตกรรมในอดตทผานมาดวย ดงนนการทความจาของมนษย ซงสามารถตอบสนองตอการระลกหรอจดจาไดนน เกดจากการทตวนวรอนมความสามารถทจะเรยนรโดยผานประสบการณ ทมนเคยมสวนรวมมานนเอง ซงโดยทการเรยนรคอพนฐานและคณลกษณะทจาเปนของโครงขายประสาทในสมองของมนษย และดวยความสามารถทมนเรยนรไดนเอง ไดเกดความพยายาม ทจะจาลองการทางานของโครงขายประสาทนมาใชในคอมพวเตอร ทเรยกกนวา “โครงขายประสาทเทยม (Artificial Neural Network)”

Page 27: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

17

2.3 โครงขายประสาทเทยม (Artificial Neural Network) วธการจดแบงกลมโดยใชโครงขายประสาทเทยม เปนวธการเพอปรบปรงความเหมาะหรอ

ความสอดคลองของกลมขอมลททาการวเคราะหและหลกการทเกยวกบคณตศาสตร (Mathematical Model) วธการของโครงขายประสาทเทยมสาหรบการแบงกลมทมอยในขณะน สวนใหญใช Winner-Take-All Learning Rule ในธรรมชาตเซลประสาทของสงมชวตมหลายประเภทแลวแตหนาทของมน เซลประสาทในตวของคนเรากเชนกน มอยหลายประเภทตามตาแหนงและหนาทของมน เชน เซลประสาทกลามเนอ เซลประสาทในสมอง เซลลประสาททลนและจมก เปนตน [7],[8]

เซลลประสาทประกอบดวยสวนใหญๆ 4 สวน [7] คอตวเซลลประสาทหรอนวรอน ซงมนวเคลยสอยตรงกลาง รอบๆ ตวเซลประสาทมสงทยนออกไปเพอรบและสงสญญาณจากเซลประสาทอนๆ สงดงกลาวเรยกวา แอกซอน (Axon) ทปลายกงจะแตกออกเปนกานยอยๆ เรยกวา เดนไดรท (Dendrite) รอยตอระหวางกานของเซลประสาททตางกนเรยกวา ไซแนปส (Synapse) ซงสามารถเปลยนคาความตานทานไดตามสญญาณทสงระหวางกนของเซลประสาท การสงสญญาณระหวางเซลประสาททาไดโดยการถายเทสารประกอบโซเดยมและโพแทสเซยม [7]

ฮอดกน (Hodkin) และฮกลย (Huxley) [7] ซงไดรบรางวลโนเบลทางชววทยาไดคนพบวาการไหลของสารประกอบโซเดยมและโพแทสเซยมของเซลลประสาทของปลาหมกไดทาใหเกดความตางศกย จะอยระหวาง 50 ถง 70 มลลโวลต จากผลการศกษาดงกลาวทาใหเราสามารถจาลองการทางานของเซลลประสาทโดยอาศยวงจรอเลกทรอนกสได โครงสรางของโครงขายประสาทเทยมมลกษณะทคลายคลงกบสมองและระบบประสาทซงประกอบดวยสวนของการประมวลผลตางๆ ทเรยกวานวรอน (Neuron) ทกๆ นวรอนสามารถมอนพทไดหลายอนพท แตมเอาตพทเพยงเอาตพทเดยว และทกๆ เอาตพทจะแยกไปยงอนพทของนวรอนอนๆ ภายในโครงขาย การตดตอกนภายในระหวางนวรอนไมใชลกษณะของการตอแบบธรรมดา ทกๆ อนพทจะมคาถวงนาหนกเปนตวกาหนดกาลงของการตดตอภายในและชวยในการตดสนใจ การทางานของนวรอนในบางโครงขายจะถกกาหนดไวตายตว แตบางโครงขายสามารถทจะปรบแตงได ซงอาจจะเปนการปรบแตงจากภายนอกโครงขายหรอนวรอนสามารถปรบตวไดดวยตวของมนเอง[4] ในจดนเองแสดงถงความสามารถในการเรยนรและจดจาของโครงขายประสาทเทยม มโครงขายประสาทเทยมหลายรปแบบ สาหรบโครงขายประสาทเทยมทใชในการ Clustering สวนใหญจะนาวธการของ Winner-Take-All มาใช เชน Competitive Learning, Kohonen self-organizing maps และ Adaptive Resonance Theory

โครงขายประสาทเทยม ประกอบดวยตวประมวลผลทเรยกวา “นวรอน” ทเชอมตอถงกน และนวรอนแตละตวกจะสงผานสญญาณจากตวมนไปยงนวรอนตวอนๆทอยตางเลเยอรกน ผาน

Page 28: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

18

ทาง จดเชอมตอทเรยกวา weight โดยทตวนวรอนทอยในเลเยอรเดยวกนจะมหนาทเหมอนกน ซงแตละนวรอนจะรบคาสญญาณอนพททเชอมตอกบตวมนทงหมดมาประมวลผล และจะใหสญญาณออก มาทเอาทพทเพยงหนงคาเทานน โดยทสญญาณเอาทพททไดจากแตละเลเยอรจะถกสงไปยงนวรอนในเลเยอรปลายทางตอไป รปท 2.4 แสดงแสดงแผนภาพของ Artificial Neural Network และ ตารางท 2.1 แสดงเปรยบเทยบระหวาง Biological กบ Artificial Neural Network [21],[22],[7],[8]

รปท 2.4 แสดงแผนภาพของโครงขายประสาทเทยม

ตารางท 2.1 แสดงการเปรยบเทยบระหวาง Biological กบ Artificial Neural Network

Biological Neural Network Artificial Neural Network Soma Neuron

Dendrite อนพท Axon เอาทพท

Synapse Weight

2.4 Adaptive Resonance Theory Neural Network Adaptive Resonance Theory (ART) พฒนาโดย Carpenter และ Grossberg ในป 1987 เปาหมายของอลกอรทมนคอ การจดแบงกลมขอมลทเปนตวเลข ซงมอลกอรทมของ ART1 สาหรบจดแบงกลมขอมลตวเลขทเปน Binary และอลกอรทมของ ART2 สาหรบการจดแบงกลมขอมลตวเลขทเปนเลขจานวนจรง ลกษณะการทางานของนวรอนนเปนแบบเรยนรดวยตวเอง (Unsupervised Learning) [4] [22],[23] Adaptive Resonance Theory (ART) ถกออกแบบ

Page 29: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

19

เพอใหผใชสามารถควบคมระดบความคลายคลงของขอมล (Pattern) ในการจดแบงกลมได และคณสมบต Stability และ Plasticity ทาให ART มความสามารถจดแบงกลมขอมลทมลกษณะหลายหลากไดด [1],[2],[7],[19] คณสมบต Stability หมายถง การท Winning node ไมมการเปลยนแปลงเมอ Input Pattern ตวเดมทเคยถกสงเขาสโมเดล ถกสงเขาโมเดลอกครง สาหรบในโครงสรางประสาทเทยมแบบ Unsupervised Learning ทวไป จะใชวธลดอตราการเรยนร (Learning Rate) ลงใหเขาใกล 0 มากทสด ผลทไดคอ Winning node เรมมความ Stability มากขนแตอยางไรกตามการลดอตราการเรยนรของโครงขายประสาทเทยมกมขอเสยดวยเชนกน คอ เมอลดอตราการเรยนรลงเปน 0 แลวจะไมมความสามารถในการจดกลม Cluster ทเขาใหม ปญหาในการทโครงขายประสาทเทยมแบบ Unsupervised Learning ไมสามารถเรยนรขอมลใหมไดเรยกวา ปญหา Plasticity ดงนน Carpenter และ Grossberg จงไดเสนอแนวคด Stability และ Plasticity ขน ในวธการทเรยกวาทฤษฏการปรบตวตามความสอดคลอง (Adaptive Resonance Theory) โดยมวธการสาหรบควบคมระดบความคลายคลงของขอมลตามคา Vigilance Threshold และในป 1987 Carpenter และ Grossberg ไดนาเสนอโมเดลทไดรบออกแบบทมคณสมบต Stability และ Plasticity ม 2 โมเดล คอ ART1 (Binary ART) และ ART2 (Continuous ART) วธการควบคมระดบความคลายคลงของขอมลทาไดโดยการรเซตเมอคาความคลายคลงนอยกวาคา Vigilance ทกาหนดโดยผใช ดงนนการทางานของ ART จงแบงออกได 2 สวน คอ Competition และ Resonance [4],[7],[8] 1. Competition คอสวนททาการเปรยบเทยบความเหมอนกนระหวางขอมลเขากบโหนดตางๆในนวรอน 2. Resonance คอสวนทตดสนหาความสอดคลองการจดแบงกลมทเกดจากสวน Competition

2.4.1 ART1 Network โครงสรางของ ART1 ประกอบดวย 2 เลเยอร คอ F1 (Processing Layer) และF2 (Output

Layer) การทางานของ Binary Adaptive Resonance Theory Neural Network มการทางานแบบ Feed Back เพอใหโครงขายประสาทเทยมนมความสามารถในการควบคมระดบความคลายคลงของการจดกลมโดยใชวธการรเซต [4] ดงนนโครงขายประสาทนจงม Weights 2 ระดบคอ Bottom-up weight ,bij ,ซงจะเชอมตอและสงขอมลระหวางโหนดท i ใน F1(b) layer ไปยงโหนด

Page 30: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

20

ท j ใน F2 layer และ Top-down weight, tji ,ซงจะเชอมตอและสงขอมลระหวางโหนดท j ใน F2 layer และโหนดท i ใน F1(b) layer

ในสวนของการรบขอมลเขา โครงขายประสาทเทยมนถกออกแบบมาใหรบขอมลทเปนไบนาร การเรยนรขอมลทเขามาเปนแบบเรยนรดวยตวเอง (Unsupervised Learning) โครงสรางของโครงขายประสาทเทยมนประกอบดวย 3 ชน คอ

1. Input Layer (F1(a) layer) 2. Interface Layer (F1(b) layer) 3. Output Layer (F2 layer) Binary Adaptive Resonance Theory Neural Network ม R unit เพอใชในการรเซตการ

จดกลมขอมล เรยกวา วธการ Reset mechanism ซงจะทาการรเซตโดยเงอนไขทมคา Vigilance Parameter โดยคา Vigilance Parameter เปนคาทใชควบคมระดบความคลายคลงของขอมลเขา และ Weights ในโครงขายประสาทเทยม

2.4.2 ART1 Clustering Algorithms ขนตอนท 0: กาหนดคาเรมตนใหกบ bottom-up weight และ top-down weight ในแตละ

โหนดของโครงขายประสาทเทยม คาเรมตนเหลานอาจไดจากการสมเลอกจากขอมลทนามาใชในกระบวนการเรยนร

Reset

Y1

Y2

Yj

bij

tji

X1

Di

Y3

Y4

Zi

D1

Xi

รปท 2.5 โครงสรางของ Binary Adaptive Resonance Theory Neural

vigilance

F1(a) Layer F1(b) Layer F2 Layer

R

Gain

+

- +

Page 31: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

21

และกาหนดคาVigilance parameter, ρ, = (0, 1] และ L (Learning Rate) และ Top-down weight มคาเปน 1

ขนตอนท 1: เมอยงไมตรงเงอนไขในการหยด ใหทาขนตอนท 2-9

ขนตอนท 2: เลอกขอมลเขาทงหมด หาคา Norm

∑=i iss , ทาขนตอนท 3-8 ตอไป

ขนตอนท 3: กาหนดขอมลเขา D จาก F1(a) ใหกบตวแปร X ใน F1(b)

ii SX =

ขนตอนท 4: คานวณเปรยบเทยบขอมลเขา X กบแตละโหนดของโครงขายประสาทเทยมจนครบทกโหนด

∑=i

iijj xbY

ขนตอนท 5: เปรยบเทยบหาโหนด J ของโครงขายประสาทเทยมทมคามากทสด

ขนตอนท 6: เปรยบเทยบขอมลเขา X กบ top-down weight ทเชอมตอกบ winning node J

Jiii tsx = คานวณหาคา Norm ของ X

∑=i

ixx

ขนตอนท 7: ทดสอบเงอนไขการ reset mechanism

ถา sx

< ρ, ให YJ = -1 (ยบยงโหนด J), ทาขนตอนท 5 อกครง

ถา sx

≥ ρ, ใหทาขนตอนท 8

ขนตอนท 8: ปรบปรงคา bottom-up weight และ top-down weight ของโหนด J

xLLxnewb i

iJ +−=

1)(

iJi xnewt =)(

ขนตอนท 9: ทดสอบเงอนไขการหยด เงอนไขการหยดสามารถกาหนดโดย:

9.1Weight ไมมการเปลยนแปลง

Page 32: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

22

9.2ไมมการรเซต

9.3 จานวนรอบของการเรยนร

โครงขายประสาทเทยมแบบ ART นมคณสมบตการทางานแบบ order-dependent ซงมความหมายคอ จานวนของกลม (Clusters, Partitions) ขนอยกบการกาหนดคา Vigilance Threshold ดงนน ในชวงการเรยนร (Learning) ของโครงขายประสาทเทยมแบบ ART คา Vigilance จะเปนคา Threshold ทใชตดสนหาความสอดคลองของการจดแบงกลมขอมล ในกรณทขอมลทนาเขาโครงขายประสาทเทยมไมสามารถจดใหอยในเอาทพทโหนดทมอยเดมได โครงขายประสาทเทยมจะทาการสรางเอาทพทโหนดใหมขนมาแทนและใหขอมลนนถกจดใหอยในเอาทพทโหนดใหมทสรางขน ในอกความหมายหนงคอการกาหนดคา Vigilance Threshold มผลกบจานวนกลมทไดจากการทางานของโครงขายประสาทเทยมแบบ ART

2.5 การวดคณภาพของการจดกลม (Cluster Evaluation Measure) การประเมนประสทธภาพของอลกอรทมทใชในการจดกลมไดจากการวดคณภาพของ

ขอมลในแตละคลสเตอร การวดคณภาพจะขนอยกบความรทเราม เกยวกบขอมลทเราใชในการจดกลมวาขอมลนนๆมการจดเปนหมวดหมอยางไร อาทเชน การทเรารวาขาวแตละขาวนนถกระบไววามนถกจดใหอยในหวขอขาวไหน ผลลพธของอลกอรทมจะเกบลงตาราง Confusion Matrix [28] (class x cluster) ในแถว (Row) จะเปน class ของขอมลและ columns เปน cluster ของอลกอรทม

ตารางท 2.2 ตวอยางตาราง Confusion Matrix

Cluster1 Cluster2 Cluster3 Class1 785 25 0 Class2 5 245 7 Class3 0 3 695 ซงเราสามารถนาผลของการจดกลมโดยอลกอรทมของเรามาเปรยบเทยบกนกบกลมของ

ขอมลทไดมการจดกลมไวแลววาคณภาพของการจดกลมขอมลของอลกอรทมเราเปนอยางไร ซงขอมลทใชในงานวจยนเปนขอมลทมผรวบรวมและไดแบงแยกหมวดหมของขอมลไวแลวดงนนเราจงเลอกใชวธการวดประสทธภาพ 2 ตวชวด คอ Entropy และ F-Measure [13],[23]

Page 33: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

23

2.5.1 Entropy คา Entropy เปนตวชวดวาผลลพธ Entropy สามารถมคาไดตงแต 0 จนถง log2(C) เมอ C

คอจานวนกลมทมไดของขอมล เชน ถาม 2 class คา Entropy จะมคาระหวาง 0-1 หรอ ถาม 3 class คา Entropy จะมคาระหวาง 0-1.585 คา Entropy ทเขาใกล 0 แสดงถงระดบประสทธภาพของการจดแบงกลม Cluster มความถกตองสงและ Impurity ตา เชน จากตวอยางตารางท 2.2 Confusion Matrix คา Entropy ของทงเซตคอ 0.0959 และถาคานวณหา Entropy ของแตละ Cluster จะไดดงน

ตารางท 2.3 ตารางแสดงคา Entropy ของแตละ Cluster Cluster Entropy 1 0.0384 2 0.3656 3 0.0559

Cluster1 มคา Entropy ดทสด เนองจากมสมาชกของ Class อนเขามาอยใน Cluster

เดยวกนนอยทสด คอ มสมาชก 5 ตวทเปนของ Class2 เขามาปนอยใน Cluster1 ซงเปนตวแทนของ Class1 และเราเรยกปรากฏการณนวา ระดบ Impurity ตา ขนตอนการคานวณคา Entropy เรมจากกาหนดให P คอผลทไดจากอลกอรทมจดกลม ซงม m คลสเตอร ททกคลสเตอร j ใน P เราจะคานวณหาคา ijp ซงเปนคาความเปนไปไดทจานวนของคลสเตอร j จะอยใน คลาส iคา Entropy ของแตละคลสเตอร j คานวณไดจากสมการท 2.6 และคาผลรวมสทธคานวณจากสมการท 2.7 ตามลาดบ

=−∑ log( )E p pj ij ij

i (2.6)

= ×∑=1

m N jE Ep jNj (2.7)

เมอ jN คอขนาดของคลสเตอร j

N คอ จานวนของขอมลทงหมด m คอจานวนคลสเตอร

Page 34: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

24

2.5.2 F-Measure ตวชวด ตวทสองทจะกลาวถง คา F-Measure เปนคาทเกดจากการรวมกนของคา

Precision และ คา Recall ซงสองคานเปนแนวคดจากงานวจย Information Retrieval โดยทคา Precision และคา Recall ของคลสเตอร j กบ คลาส i แสดงไดดงน

j

ij

NN

)j,i(P = (2.8)

i

ij

NN

)j,i(R = (2.9)

เมอ ijN คอจานวนสมาชกของ คลาส i ในคลสเตอร j jN คอจานวนสมาชกของ คลสเตอร j iN คอจานวนสมาชกของ คลาส i

คา F-Measure ของ คลาส i หาไดจาก

=+2( ) PRF iP R

(2.10)

ท คลาส i เราตองการใหคลสเตอรมคา F-Measure สงๆท คลสเตอร j สาหรบ คลาส i

และ คา F-Measure จะกลายมาเปนคาคะแนนสาหรบ คลาส i คา F-Measure รวมของ P ทไดจากการจดกลมคอคาเฉลยของคา F-Measure สาหรบแตละ คลาส i หาไดจาก

( )( )×∑

=∑

i F iiFp ii (2.11)

i คอจานวนของขอมลใน คลาส i คา F-Measure มคาระหวาง 0-1 ถาคา F-Measure ทไดมคาสงเขาใกล 1 แสดงวาขอมล

ใน Cluster ทไดจากการจดกลมมความถกตองสง และถาคา F-Measure ทไดมคาสงเขาใกล 0 แสดงวาขอมลใน Cluster ทไดจากการจดกลมมความถกตองตา เชน จากตวอยางตารางท 2.2 Confusion Matrix คา F-Measure ของทงเซตคอ 0.9776 และถาคานวณหา F-Measure ของแตละ Cluster จะไดดงน

Page 35: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

25

ตารางท 2.4 ตารางแสดงคา F-Measure ของแตละ Cluster Cluster F-Measure 1 0.9906 2 0.8645 3 0.9853

Page 36: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

บทท 3

ทฤษฎและหลกการทางานของ เทกอะแดปทพเรโซแนนเทยรนวรอลเนตเวรค

(A Text Adaptive Resonance Theory Neural Network)

3.1 Document Representation เพอแปลงขอมล Textual อยในรปแบบสาหรบ Learning Algorithm ขอมล Textual จะตองผานขนตอน Pre-processing ดงน

• ตดตวอกษร digit และ เครองหมายจดทระบชวงวรรคตอนในเนอหา (punctuation marks)

• แปลงคาทเปนตวอกษรใหญใหเปนตวอกษรเลก • ตดคาทเปน Stop Words ออก [29] • ตดสวนทเปน Suffix ของคาออก โดยใชอลกอรทม Porter เพอหารากของคาศพท

[30] ขนตอนกอนการเปรยบเทยบความคลายคลงของเอกสารคอ ขนตอนการแทนเอกสาร

ตางๆ (Document Representation) ใหอยรปแบบทสามารถนามาคานวณได เอกสารตางๆ ซงประกอบดวย ชอเรอง คาสาคญ สามารถแทนอยในรปแบบของ Cartesian Product ไดดงน [5]

dDDDDDoc ××××= ...321 (3.1)

d คอจานวนคณสมบตของเอกสาร และคณสมบตของเอกสารมลกษณะขอมลเปน

ขอความ ตวอยางเชน

KeywordTitleDoc ×= (3.2)

เมอ Title Feature คอคาทใชอธบายชอเรองของเอกสาร Keyword Feature คอคาทใชอธบายคาทพบบอยในเอกสาร หรอคาสาคญของ

เอกสาร

Page 37: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

27

ตารางท 3.1 ขอมลเอกสาร

Title Keyword Doc A {tax,net} {salary,money,costs} Doc B {network,internet} {tcp/ip,web,e-mail} Doc C {internet,google} {search,rank,web} Doc D {internet,microsoft} {desktop,software}

3.2 Similarity Measure for Symbolic Objects การเปรยบเทยบความคลายคลงของเอกสาร ระหวางเอกสาร A และเอกสาร B ตาม

แนวคดของ El-Sonbaty สามารถเขยนในสมการไดดงน

∑=

=d

kkk BASBAS

1),(),( (3.3)

ในการเปรยบเทยบความคลายคลงของ ),( kk BAS มการเปรยบเทยบ 2 สวนยอยคอ สวน

ทเปนขนาดของ Feature เรยกวา Span, ),( BASs และสวนทเปนเนอหาของ Feature เรยกวา Content, ),( BASc ซงนยามสมการไวดงน [5]

สวนการเปรยบเทยบความคลายคลงของ Span มนยามเปน

s

bas xl

llBAS

2)(

),(+

= (3.4)

สวนการเปรยบเทยบความคลายคลงของ Content มนยามเปน

sc l

intersBAS =),( (3.5)

นยามของสญลกษณในสมการมดงน

la = จานวนสมาชกทงหมดใน Feature A

Page 38: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

28

lb = จานวนสมาชกทงหมดใน Feature B

inters = จานวนของสมาชกทงหมดท Intersection กนระหวาง Feature A และ Feature B

ls = la + lb – inters = จานวนสมาชกทงหมดของ Feature A และ Feature B รวมกนลบดวยจานวนของสมาชกทงหมดท Intersection กนระหวาง Feature A และ Feature B

เมอเปรยบเทยบความคลายคลงครบทงสองสวนยอยแลว จงทาการรวมคาผลลพธจากสองยอยเขาดวยดงสมการ Net Similarity น

)B,A(S)B,A(S)B,A(S kkckkskk += (3.6)

คาความคลายคลงของ Net Similarity นสามารถคานวณได ดงตวอยางท 3.1

ตวอยางท 3.1 การใชสตร Similarity Measure for symbolic object S(DocATitle, DocBTitle) S({‘tax’, ‘net’},{‘network’, ‘internet’})

= [(2+2) / (2*(2+2-0)) ]+[ 0/(2+2-0) ] = 0.5+0.0 = 0.5

S(DocAKeyword, DocBKeyword) S({‘salary’, ‘money’, ‘costs’},{‘tcp/ip’, ‘web’, ‘e-mail’})

= [(3+3) / (2*(3+3-0) )]+[ 0/(3+3-0) ] = 0.5+0.0 = 0.5

ดงนน Net Similarity ไดเทากบ 0.5+0.5 = 1.0 หมายเหต: ขอมลทใชในตวอยางท 3.1 มาจากขอมลในตารางท 3.1

Page 39: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

29

3.3 A Text Adaptive Resonance Theory Neural Network

จากรปท 3.1 Text ART Neural Network มโครงสรางไมแตกตางจากโครงสรางของ

Binary ART Neural Network การเรยนรขอมลทเขามาเปนแบบเรยนรดวยตวเอง (Unsupervised Learning) โครงสรางของโครงขายนวรอลนประกอบดวย 3 ชน คอ

1. Input Layer (F1(a) layer) 2. Interface Layer (F1(b) layer) 3. Output Layer (F2 layer) แตมความแตกตางคอ ในสวนของการรบขอมลเขา โครงขายนวรอลนถกออกแบบมาใหรบ

ขอมลทเปนขอความ (Textual data) ดงนน โครงขายนวรอลแบบ Text ART นจงมขอแตกตางจาก Binary ART 3 ประการ คอ

1. พนทสาหรบเกบขอมลในสวนของ bottom-up weight และ top-down weight 2. การหาโหนดชนะโดยใช similarity measure สาหรบ symbolic objects 3. การปรบ bottom-up weight และ top-down weight ของ winning node Text Adaptive Resonance Theory Neural Network ม R unit เพอใชในการรเซตการจด

กลมขอมล เรยกวา วธการ Reset mechanism ซงจะทาการรเซตโดยเงอนไขทมคา Vigilance Parameter โดยคา Vigilance Parameter เปนคาทใชควบคมระดบความคลายคลงของขอมลเขา และ Weights ในนวรอลเนตเวรค

Reset

Y1

Y2

Yj

bij

tji

X1

Di

Y3

Y4

Zi

D1

Xi

รปท 3.1 โครงสรางของ Text Adaptive Resonance Theory Neural Network

vigilance

F1(a) Layer F1(b) Layer F2 Layer

Gain

R

+

+

-

Page 40: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

30

การทางานของ Text Adaptive Resonance Theory Neural Network มการทางานแบบ Feed Back เพอใหโครงขายนวรอลนมความสามารถในการควบคมระดบความคลายคลงของการจดกลมโดยใชวธการรเซต [4] ดงนนโครงขายประสาทนจงม Weights 2 ระดบคอ Bottom-up weight ,bij ,ซงจะเชอมตอและสงขอมลระหวางโหนดท i ใน F1(b) layer ไปยงโหนดท j ใน F2 layer และ Top-down weight, tji ,ซงจะเชอมตอและสงขอมลระหวางโหนดท j ใน F2 layer และโหนดท i ใน F1(b) layer เพอทจะทาใหโครงขายนวรอลนสามารถหาความคลายคลงของขอมลเขาทเปน Qualitative value ในทนคอ Text ได ดงนนทง Bottom-up weight และ Top-down weight จะเกบคาใน Weight เปน Qualitative value และคาแสดงความเปนสมาชกของ Weight

)},(),...,,(),,{( 2211 pijpijijijijijij eAeAeAb = (3.7)

กาหนดให Apij คอ คา qualitative value ของ Bottom-up Weightและ epij คอคา Degree

แสดงความเปนสมาชกของ Apij คา epij ของ Apij ในโครงขายนวรอลนมคาอยในชวงระหวาง 0 ถง 1 ซงคา Degree นเปน

คาทใหระดบความเปนสมาชกของ Apij กบ ขอมลเขา ถา Degree ของ Apij มคาเทากบ 0 ใหความหมายวา Qualitative value ของ Apij ไมไดเปนสวนหนงของขอมลเขา i ถา Degree ของ Apij มคาเทากบ 1 ใหความหมายวา Qualitative value ของ Apij เปนสมาชกของขอมลเขา i

)},(),...,,(),,{( 2211 pjipjijijijijiji eBeBeBt = (3.8)

กาหนดให Bpij คอ คา qualitative value ของ Top-down weight และ epij คอคา Degree

แสดงความเปนสมาชกของ Bpji คา epji ของ Bpji ในโครงขายนวรอลนมคาอยในชวงระหวาง 0 ถง 1 ซงคา Degree นเปน

คาทใหระดบความเปนสมาชกของ Bpji กบ ขอมลเขา ถา Degree ของ Bpji มคาเทากบ 0 ใหความหมายวา Qualitative value ของ Bpji ไมไดเปนสวนหนงของขอมลเขา j ถา Degree ของ Bpji มคาเทากบ 1 ใหความหมายวา Qualitative value ของ Bpji เปนสมาชกของขอมลเขา j

3.4 Learning Algorithms A Text Adaptive Resonance Theory Neural Network เปนการขยายความสามารถของ ART1 Neural Network โดยเพมเตมแนวคดเกยวกบคณสมบตทมคาของขอมลเปนแบบขอมลเชงคณภาพ Qualitative value ซงทาใหอลกอรทมนสามารถจดการกบขอมลแบบเชง

Page 41: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

31

คณภาพไดโดยตรงโดยไมตองผานกระบวนการแปลงคา Qualitative Value เปน Numerical Value ขนตอนของการเรยนรของอลกอรทมมดงน ขนตอนท 0: กาหนดคาเรมตนใหกบ bottom-up weight และ top-down weight ในแตละโหนดของโครงขายนวรอล คาเรมตนเหลานอาจไดจากการสมเลอกจากขอมลทนามาใชในกระบวนการเรยนร และกาหนดคาVigilance parameter, ρ = (0,1] ขนตอนท 1: เมอยงไมตรงเงอนไขในการหยด ใหทาขนตอนท 2-9 ขนตอนท 2: เลอกขอมลเขาทงหมด แลวทาการ Transpose

tdDDDDDoc ),...,,,( 321= , ทาขนตอนท 3-8 ตอไป (3.9)

ขนตอนท 3: กาหนดขอมลเขา D จาก F1(a) ใหกบตวแปร X ใน F1(b)

kk DX = (3.10) ขนตอนท 4: คานวณเปรยบเทยบขอมลเขา X กบแตละโหนดของโครงขายนวรอลจนครบทกโหนด

∑∑= =

=d

i

p

nnijnijij eAXSY

1 1).,( (3.11)

กาหนดให

p คอจานวนของ bottom-up weight d คอจานวนของ feature values ขนตอนท 5: เปรยบเทยบหาโหนด J ของโครงขายนวรอลทมคามากทสด ขนตอนท 6: เปรยบเทยบขอมลเขา X กบ top-down weight ทเชอมตอกบ winning node J

)*5.0()*2(

)*5.0(),(1

dd

dtXSZ

d

iJii

=∑=

(3.12)

Page 42: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

32

ขนตอนท 7: ทดสอบเงอนไขการ Reset Mechanism ถา Z < ρ, ให YJ = -1 (ยบยงโหนด J), ทาขนตอนท 5 อกครง

ในกรณ ทกเอาทพตโหนดถกยบยง ใหสรางเอาทพตโหนดใหม ถา Z ≥ ρ, ใหทาขนตอนท 8 ขนตอนท 8: ปรบปรงคา bottom-up weight และ top-down weight ของโหนด J

∩∉−

∩∈+

=

∪=

Otherwise;*5

,Xb A if )e(f

,Xb A if )e(f

e

Xbb

iJnij)old(

niJ

iJnij)old(

niJ

)new(niJ

)old(iJ

)new(iJ

η

η

η

(3.13)

∩∉−

∩∈+

=

∪=

Otherwise;*5

,X tB if )e(f

,X tB if )e(f

e

Xtt

Jinji)old(

nJi

Jinji)old(

nJi

)new(nJi

)old(Ji

)new(Ji

η

η

η

(3.14)

กาหนดให (.)f นยามดงน

><

≤≤=

1 x if 10 x if 0

1 x 0 if )(

xxf

(3.15)

ขนตอนท 9: ทดสอบเงอนไขการหยด เงอนไขการหยดสามารถกาหนดโดย: 9.1Weight ไมมการเปลยนแปลง 9.2ไมมการรเซต 9.3 จานวนรอบของการเรยนร

Page 43: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

33

สาหรบงานวจยนไดทาการจาลองการทางานของอลกอรทมแบบ Text ART Clustering ใน Matlab ซงสามารถเขยนในรปแบบ Flowchart ไดดงน

รปท 3.2 แสดง Flow Chart การทางานของอลกอรทม Text ART Neural Network

Page 44: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

34

3.2 ตวอยางการคานวณของ Text ART Neural Network ตวอยางโครงสรางของ Text Adaptive Resonance Theory Neural Network ซงม F1

Layer เทากบ 2 อนพต และ F2 Layer เทากบ 3 เอาทพท กาหนดคาพารามเตอรตางๆ และตวอยางขอมลเอการอนพตทผานการ Pre-Processing ดงน

Learning Rate = 0.01

Vigilance = 0.1

Learning Loop = 100

1st Training Document, D = ({‘money’, ‘bank’},{‘economic’ , ‘market’ , ‘finance’ , ‘interest’})

DTitle = {‘money’, ‘bank’}

DKeyword = {‘economic’, ‘market’, ‘finance’, ‘interest’}

Initialized bottom-up weight

b11 = {(interest,0.5),(bank,0.5),(credit,0.5)}

b21 = {(interest,0.5),(bank,0.5),(finance,0.5)}

b12 = {(compute,0.5),(science,0.5),(logic,0.5)}

b22 = {(compute,0.5),(accuracy,0.5),(math,0.5)}

b13 = {(logic,0.5),(bank,0.5),(biz,0.5)}

b23 = {(interest,0.5),(bank,0.5),(cost,0.5)}

Initialized top-down weight

t11 = {(market,1),(money,1),(biz,1)}

t12 = {(market,1),(money,1),(finance,1)}

t21 = {(algorithm,1),(biz,1),(crude,1)}

t22 = {(interest,1),(biz,1),(crude,1)}

t31 = {(acq,1),(economic,1),(war,1)}

t32 = {(money,1),(economic,1),(marvel,1)}

Page 45: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

35

การคานวณใน Competitive Layer:

[ ]eAXSeAXSY KeywordTitle ).,().,( +=

eAXSAXSeAXSAXSY KeywordcontentKeywordspanTitlecontentTitlespan )].,(),([)].,(),([ +++=

ตวอยางคานวณหาคา Net Similarity ของ Output Y ลาดบท 1

XTitle = {‘money’, ‘bank’}

Sspan (XTitle, A11)

รายละเอยดการคานวณ

Sspan ({‘money’, ‘bank’},{‘interest’}) = 0.5

Sspan ({‘money’, ‘bank’},{‘bank’}) = 0.75

Sspan ({‘money’, ‘bank’},{‘credit’}) = 0.5

Scontent (XTitle,A11)

รายละเอยดการคานวณ

Scontent ({‘money’, ‘bank’},{‘interest’}) = 0

Scontent ({‘money’, ‘bank’},{‘bank’}) = 0.5

Scontent ({‘money’, ‘bank’},{‘credit’}) = 0

รายละเอยดการใชสมการ Sspan และสมการ Scontent สามารถดไดทตวอยางท 3.1

(Sspan+ Scontent) * e11 = [(0.5+0)*0.5, (0.75+0.5)*0.5, (0.5+0)*0.5] = [0.5, 1.25, 0.5]

Similarity ระหวาง XTitle และ Bottom-up Weight ของ Output Y ลาดบท 1

เทากบ (0.5+1.25+0.5) = 1.125

XKeyword = {‘economic’, ‘market’, ‘finance’, ‘interest’}

Sspan (XKeyword, A21)

รายละเอยดการคานวณ

Sspan ({‘economic’, ‘market’, ‘finance’, ‘interest’},{‘interest’}) = 0.625

Page 46: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

36

Sspan ({‘economic’, ‘market’, ‘finance’, ‘interest’},{‘bank’}) = 0.5

Sspan ({‘economic’, ‘market’, ‘finance’, ‘interest’},{‘finance’}) = 0.625

Scontent (XKeyword, A21)

Scontent ({‘economic’, ‘market’, ‘finance’, ‘interest’},{‘interest’}) = 0.25

Scontent ({‘economic’, ‘market’, ‘finance’, ‘interest’},{‘bank’}) = 0

Scontent ({‘economic’, ‘market’, ‘finance’, ‘interest’},{‘finance’}) = 0.25

รายละเอยดการใชสมการ Sspan และสมการ Scontent สามารถดไดทตวอยางท 3.1

(Sspan+ Scontent) * e21 = [(0.625+0.25)*0.5, (0.5+0)*0.5, (0.625+0.25)*0.5] = [ 0.875, 0.5 ,0.875]

Similarity ระหวาง XKeyword และ Bottom-up Weight ของ Output Y ลาดบท 1

เทากบ (0.875+0.5+0.875) = 1.125

Net Similarity ของ Output Y ลาดบท 1 เทากบ 1.125+1.125 = 2.25

หลงจากนนทาการคานวณหาคา Net Similarity ของ Output Y ลาดบท 2 และ 3 จนครบทกโหนด

Net Similarity ของ Output Y ลาดบท 2 เทากบ 0.75+0.75 = 1.5

Net Similarity ของ Output Y ลาดบท 3 เทากบ 1.125+0.9375 = 2.0625

ผลลพธในตวอยางน โหนดทชนะ คอ Output Y ลาดบท 1 ดวยคา Net Similarity เทากบ 2.25

หลงจากนน เขาสการคานวณหาความสอดคลอง (Resonance)

การคานวณใน Resonance Layer:

XTitle = {‘money’, ‘bank’}

Sspan (XTitle, t11)

Sspan ({‘money’, ‘bank’}, {‘market’, ‘money’, ‘biz’}) = 1.125

Scontent (XTitle, t11)

Scontent ({‘money’, ‘bank’}, {‘market’, ‘money’, ‘biz’}) = 0.25

Page 47: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

37

S (XTitle, t11) = 1.125+0.25 = 1.375

XKeyword = {‘economic’, ‘market’, ‘finance’, ‘interest’}

Sspan (XKeyword, t12)

Sspan ({‘economic’, ‘market’, ‘finance’, ‘interest’}, {‘market’, ‘money’, ‘finance’}) =1.2

Scontent (XKeyword, t12)

Scontent ({‘economic’, ‘market’, ‘finance’, ‘interest’}, {‘market’, ‘money’, ‘finance’}) =0.4

S (XKeyword, t12) =1.2+0.4 = 1.6

S(X,t1) =1.375+1.6 = 2.575

)*5.0()*2()*5.0(),( 1

dddtxS

Z−

−=

525.0)2*5.0()2*2()2*5.0()575.2(=

−−

=Z

นามาเปรยบเทยบกบคาพารามเตอร Vigilance Threshold ผลลพธคอ Resonance

ดงนนให 1st Document เอาทพททเอาทพทโหนดลาดบท 1

หลงจากนนทาการปรบ Weight ของโหนดลาดบท 1

การปรบ Weight ของโหนดลาดบท 1 (โหนดทชนะ):

Title และ Keyword ของอนพต Document X

XTitle = {‘money’, ‘bank’}

XKeyword = {‘economic’, ‘market’, ‘finance’, ‘interest’}

คาสมาชกใน bottom-up weight ชดเดม

b11 = {(interest,0.5),(bank,0.5),(credit,0.5)}

b21 = {(interest,0.5),(bank,0.5),(finance,0.5)}

คาสมาชกใน top-down weight ชดเดม

Page 48: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

38

t11 = {(market,1),(money,1),(biz,1)}

t12 = {(market,1),(money,1),(finance,1)}

ปรบคาสมาชกใน bottom-up weight ตามสมการท (3.13) ได bottom-up weight ชดใหม ดงน b11 = {(interest,0.49),(bank,0.51),(credit,0.49),(money,0.05)}

b21 = {(interest,0.51),(bank,0.49),(finance,0.51),(economic,0.05),(market,0.05)}

ปรบคาสมาชกใน top-down weight ตามสมการท (3.14) ได top-down weight ชดใหม ดงน t11 = {(market,0.99),(money,1),(biz,0.99),(bank,0.05)}

t12 = {(market,1),(money,0.99),(finance,1),(economic,0.05),(interest,0.05)}

Page 49: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

บทท 4

วธการดาเนนการวจย

ขอมลทใชในการวจยจะม 2 สวน สวนแรกเปนขอมลตวอกษรทไดจากการสมจากตวอกษรตามโครงสราง (Profile) ทกาหนดขนมาเอง เรยกวา ขอมลสงเคราะห (Synthesized Dataset) การสมขอมลขนมาเองนกเพอใชในการทดสอบการประมวลผลของตวโมเดล Text ART Neural Network กอนการนาไปใชกบขอมลจรง ขอมลสงเคราะห (Synthesized Dataset) แบงออกเปน 2 กลมขอมล คอ Synthesized Alphabet Document และ Synthesized Text Document สวนทสองจะเปนขอมลขาวรอยเตอร (Reuters–21578) ทเปนเอกสารขาวจรง [27] การทดลองกบขอมลขาว กเพอเปนการพจารณาถงประสทธภาพของตวโมเดลเมอนาไปใชงานกบขอมลจรงโดยทขอมลแตชนดมรายละเอยดดงน

4.1 ขอมล Synthesized Alphabet Document ในการทดลองเพอทดสอบความถกตองเบองตนของอลกอรทม โดยใชชดขอมลซงสรางขนเพอใชในการฝกฝนจานวน 100 ชด ซงสรางจากกลมตวอกษรจานวน 3 กลม กลมตวอกษรนใชเปนตวแทนของขอมลทมคาของคณสมบตเปนขอความ ขอมลแตละตวประกอบดวยคณสมบต 2 คณสมบต คอ Title และ Keyword

รปท 4.1 a ชดตวอกษรทใชสรางขอมลใน Title รปท 4.1 b ชดตวอกษรทใชสรางขอมลใน Keyword

Page 50: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

40

ตารางท 4.1 Synthesized Alphabet Document กลมขอมล จานวนขาวทใชเรยนร จานวนขาวทใชทดสอบ

Class 1 34 33 Class 2 30 26 Class 3 36 41 รวม 100 100

รายละเอยดของชดขอมลตวอกษรทใชในการทดลองแสดงในตารางท 4.1 หลกจากเสรจ

สนการเทรนนงแลวคา Weight สดทายทไดกจะเปนตวแทนของชดขอมล ตอจากนนจะทาการทดสอบความถกตองของการแบงกลมของโมเดล ผลทไดจากการทดสอบความถกตองของตวโมเดล แสดงในตารางท 4.2 ตารางท 4.2 แสดงผลลพธทไดจากการทดสอบของ Synthesized Alphabet Documents

จานวนสมาชกทตกในแตละ Cluster Class 1 2 3

1 0 32 0 2 0 1 27 3 41 0 0

คา F measure = 0.99009 คา Entropy = 0.044368

Learning Rate ( )η = 0.01 Epoch = 100 Loops Output Nodes = 3 Vigilance = 0.1

4.2 ขอมล Synthesized Text Documents ขอมล Synthesized Text Documents ใชชดขอมลซงสรางขนเพอใชในการฝกฝน

(Training set) จานวน 100 รายการ และชดขอมลสาหรบการทดสอบ (Testing set) จานวน 1,500 รายการ ซงสรางจากกลมตวอกษรจานวน 3 กลม กลมตวอกษรนใชเปนตวแทนของขอมลท

Page 51: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

41

มคาของคณสมบตเปนขอความ ขอมลแตละตวประกอบดวยคณสมบต 2 คณสมบต คอ Title และ Keyword

Cluster 1: Title = {compute, algorithm, database, intel, java, network} Keyword = {algorithm, database, predict, cluster, web, firewall} Cluster 2: Title = {java, network, internet, protocol cisco, 3com} Keyword = {web, firewall, mail, smtp, http, ftp} Cluster 3: Title = {car, business, travel, hotel, bank, airline} Keyword = {market, tour, benz, toyota, money, airway}

ตารางท 4.3 Synthesized Text Documents กลมขอมล จานวนขาวทใชเรยนร จานวนขาวทใชทดสอบ

Class 1 36 499 Class 2 27 510 Class 3 37 491 รวม 100 1500

รายละเอยดของชดขอมลตวอกษรทใชในการทดลองแสดงในตารางท 4.3 หลกจากเสรจ

สนการเทรนนงแลวคา Weight สดทายทไดกจะเปนตวแทนของชดขอมล ตอจากนนจะทาการทดสอบความถกตองของการแบงกลมของโมเดล ผลทไดจากการทดสอบความถกตองของตวโมเดล แสดงในตารางท 4.4

Page 52: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

42

ตารางท 4.4 แสดงผลลพธทไดจากการทดสอบของ Synthesized Text Documents จานวนสมาชกทตกในแตละ Cluster Class

1 2 3 1 35 484 0 2 478 32 0 3 0 0 491

คา F measure = 0.95561 คา Entropy = 0.16297

Learning Rate ( )η = 0.01 Epoch = 100 Loops Output Node = 3 Vigilance = 0.1

4.3 ขอมลขาว Reuters – 21578 ขอมลขาว Reuters–21578 เปนขอมลขาวของสานกขาว Reuters โดยขอมลชนดนไดมผ

รวบรวมและไดจดแยกหมวดหมของขาวไวแลว โดย Reuters Ltd. (Sam Dobbins, Mike Topliss, Steve Weinstein) และ Carnegie Group, Inc. (Peggy Andersen, Monica Cellio, Phil Hayes, Laura Knecht, Irene Nirenburg) ในป ค.ศ. 1987 ประวตยอยของขอมลชดนมดงตอไปน

ในป ค.ศ. 1990 เอกสารขาว Reuters ไดถกใชงานเพอจดประสงคงานวจยดานการคนคนสารสนเทศ (Information Retrieval) โดยม W. Bruce Croft แหงคณะ Computer and Information Science ทมหาวทยาลย Massachusetts at Amherst. การรวบรวมเรมแรก ทาโดย David D. Lewis และ Stephen Harding ในป ค.ศ. 1990 ณ หองปฏบตการ Information Retrieval Laboratory.

จากนนใน ป ค.ศ. 1991-1992 นาย David D. Lewis และนาย Peter Shoemaker จาก Center for Information and Language Studies ท University of Chicago. ไดจดทาขอมลขาวReuters เพมเตมอกซงมชอ Dataset คอ Reuters-22173, Distribution 1.0 ซงไดนาเผยแพรครงแรกในเดอนมกราคม ป ค.ศ. 1993 ผาน FTP ทศนย Intelligent Information Retrieval (W. Bruce Croft, Director) แหงมหาวทยาลย Massachusetts at Amherst.

ในป ค.ศ. 1996 ณ งานสมมนาวชาการ ACM SIGIR '96 conference ชวงเดอนสงหาคม กลมนกวจย Text Categorization ไดปรกษาหารอในหวขอเรอง “how published results on

Page 53: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

43

Reuters-22173 could be made more comparable across studies.” ผลสรปคอการออกเวอรชนของชดขอมลขาว Reuters ใหมทมรปแบบชดเจน ลดความคลมเครอในรปแบบเอกสารลง (less ambiguous formatting)

ดงนน Steve Finch และ David D. Lewis จงไดทาการปรบปรงแกไข (cleanup) ขอมลขาว Reuters ตงแตเดอนกนยายน จนถงเดอนพฤศจกายน ในป ค.ศ. 1996 โดยใชรปแบบการจดการเอกสารของ Finch's SGML-tagged ผลลพธคอเอกสารขาวไดถกตดทงไป 595 เอกสาร เนองจากมความซาซอนอยางมาก ดงนนในเวอรชนใหมจงมเอกสารขาวเหลออย 21,578 เอกสารขาว จงเรยกชดขอมลขาวชดใหมนวา Reuters-21578 Distribution 1.0. [27]

Reuters-21578 ประกอบดวยขาวจานวน 21,578 เอกสารขาว จากจานวน 135 กลมขาวโดยขาวแตละขาวจะมโครงสรางขอมลเปนไฟล SGML ตวอยางขาวแสดงในภาคผนวก ข. จากขอมลขาวทมเราจะนาขาวทงหมดมาผานขนตอนการเตรยมขอมลกอนนาไปใชงาน ดงน

ขนตอนท 1 แยกเอาเฉพาะขอความใน Title และใน Body ของทกๆขาว และทา Index ของแตละขาววาอยใน Topic ไหน

ขนตอนท 2 นาตวเนอขาวทได (จากแทก Body) ทงหมดมาหาคาสาคญ (keyword) ดวยโปรแกรม copernic summarizer โดยในการหาคาสาคญของแตละขาวไดกาหนดจานวนของคาทซาไวท 10 คา

ขนตอนท 3 นา ขอความ Title และ Keyword ทไดมาหา stemming ของคารวมทงตดคาทเปน stop word

จากขาว Reuters- 21578 ทงหมดเราไดเลอกกลมขาวทใชทาการทดลองทงหมดจานวน 3, 5 และ 14 กลมขาวตามลาดบโดยทกลม 3 และ 5 กลมขาวจานวนขอมลทใชเทรนนงและทดสอบไดกาหนดโดยสมขนมา สวนขอมลจานวน 14 กลมขาวชดขอมลการเทรนนงและทดสอบไดทาตามขอกาหนดของ ModApet ทมรายละเอยดอยในไฟลทมาพรอมกบไฟลขาว Reuters-21578

Page 54: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

44

ตารางท 4.5 แสดงชดขอมลสาหรบใชเทรนนงและใชทดสอบของขอมลขาว Reuters 3 กลม กลมขาว จานวนขาวทใชเรยนร จานวนขาวทใชทดสอบ

acq 331 1932 crude 221 496 grain 215 467 รวม 767 2895

รายละเอยดของชดขอมล Reuters-21578 ทใชในการทดลองอยในตารางท 4.5 โดย ผลท

ไดจากการทดสอบความถกตองของตวโมเดล แสดงในตารางท 4.6

ตารางท 4.6 แสดงผลลพธของการทดสอบของขอมลขาว Reuters-21578 จานวน 3 กลม จานวนสมาชกทตกในคลสเตอร โหนดเอาทพทตวท

(เปนตวแทนของกลม) 1 2 3 1 (acq) 1762 81 89

2 (crude) 140 324 32 3 (grain) 29 35 403

คา F measure = 0.85313 คา Entropy = 0.45886

Learning Rate ( )η = 0.001 Epoch = 81/100 Loops Output Node = 3 Vigilance = 0.03

Page 55: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

45

ตารางท 4.7 แสดงชดขอมลสาหรบใชเทรนนงและใชทดสอบของขอมลขาว Reuters 5 กลม กลมขาว จานวนขาวทใชเรยนร จานวนขาวทใชทดสอบ

earn 355 3181 acq 331 1932

money-fx 239 596 crude 221 496 grain 215 467 รวม 1361 6674

ตารางท 4.8 แสดงผลลพธของการทดสอบของขอมลขาว Reuters-21578 จานวน 5 กลม จานวนสมาชกทตกในคลสเตอร โหนดเอาทพทตวท

(เปนตวแทนของกลม)

1 2 3 4 5

1 (money-fx) 148 127 1486 119 52 2 (crude) 51 17 4 54 370 3 (grain) 23 422 14 7 1 4 (acq) 569 7 9 11 0 5 (earn) 102 46 64 2789 180

คา F measure = 0. 84963 คา Entropy = 0.50952

Learning Rate ( )η = 0.001 Epoch = 136/300 Loops Output Node = 5 Vigilance = 0.03

Page 56: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

46

ตารางท 4.9 แสดงชดขอมลสาหรบใชเทรนนงและใชทดสอบของขอมลขาว Reuters 14 กลม กลมขาว จานวนขาวทใชเรยนร จานวนขาวทใชทดสอบ 1.earn 2433 727 2. acq 1362 492

3. money-fx 420 93 4. grain 348 73 5. crude 306 134 6. trade 313 90

7. interest 254 70 8. ship 176 64

9. wheat 169 27 10. corn 141 24 11. dlr 87 18

12. money-supply 75 13 13. oilseed 107 24 14. sugar 107 21 รวม 6298 2866

Page 57: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

47

ตารางท 4.10 แสดงผลลพธของการทดสอบของขอมลขาว Reuters-21578 จานวน 14 กลม จานวนสมาชกทตกในคลสเตอร โหนดเอาทพทตวท

(เปนตวแทนของกลม)

1 2 3 4 5 6 7 8 9 10 11 12 13 14

1(trade, interest) 1 646 30 13 4 12 4 0 5 0 7 5 0 0

2 (acq) 25 3 2 231 24 13 3 5 99 0 16 57 14 0

3 (-) 20 7 3 0 31 1 14 0 7 0 6 1 0 3

4 (earn) 10 1 0 0 3 5 1 20 0 25 1 0 0 7

5 (money-fx) 10 6 0 1 4 89 0 19 0 0 4 0 0 1

6 (crude) 47 1 0 1 3 1 1 0 1 5 1 0 0 29

7 (-) 35 1 1 0 15 0 10 0 0 0 4 0 0 4

8 (ship, wheat) 12 0 1 0 0 15 0 1 32 2 1 0 0 0

9 (-) 2 0 15 0 1 1 0 0 0 4 1 0 0 3

10 (grain, oilseed) 4 1 0 0 1 1 2 8 0 4 1 0 0 2

11 (-) 0 1 0 0 14 0 2 0 0 0 0 0 1 0

12 (-) 0 1 2 0 3 1 0 0 0 0 0 0 0 6

13 (-) 2 0 0 0 3 3 0 4 0 5 1 0 0 6

14 (money-supply, sugar)

3 0 0 0 0 0 1 1 0 2 0 0 14 0

คา F measure = 0.66189 คา Entropy = 0.85547

Learning Rate ( )η = 0.001 Epoch = 275/300 Loops Output Node = 14 Vigilance = 0.03

4.4 สรปผลการทดลอง จากผลการทดลองตารางท 4.2 เปนผลการทดลองกบชดขอมลตวอกษรผล Synthesized

Alphabet Documents ทไดคอคา F- measure เทากบ 0.99009 และ คา Entropy เทากบ 0.044368 และจากผลการทดลองตารางท 4.4 เปนผลการทดลองกบชดขอมลตวอกษรผล

Page 58: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

48

Synthesized Text Documents ทไดคอคา F- measure เทากบ 0.95561 และ คา Entropy เทากบ 0.16297 ซงเปนคาทแสดงวาประสทธภาพของการตวอลกอรทมนน สามารถจดกลมกบขอมลทเรากาหนดนนไดดมากมความถกตองถงประมาณ 95-99 เปอรเซนต

ในสวนของชดขอมลขาว Reuters-21578 จากตารางท 4.6 เปนผลการทดลองของขอมล 3 กลมซงผลทได คา F-measure เทากบ 0.85313 และ คา Entropy เทากบ 0.45886 ซงประสทธภาพของการจดกลมกบขอมลอยในเกณฑทดมความถกตองประมาณ 85 เปอรเซนตและสามารถระบโหนดเอาทพททเปนตวแทนของแตละกลมไดอยางชดเจน สาหรบขอมล 5 กลมตามตารางท 4.8 นนทได คา F-measure เทากบ 0. 84963 และ คา Entropy เทากบ 0.50952 ซงประสทธภาพของการจดกลมกบขอมลยงถอวาอยในเกณฑทดมความถกตองประมาณ 85 เปอรเซนต และสามารถระบโหนดเอาทพททเปนตวแทนของแตละกลมไดอยางชดเจนเชนเดยวกบขอมล 3 กลม และ สดทายสาหรบขอมล 14 กลม ซงเปนชดขอมลขนาดใหญผลทไดจากตารางท 4.10 ได คา F-measure เทากบ 0.66189 และ คา Entropy เทากบ 0.85547 ประสทธภาพของการจดกลมกบขอมลอยในเกณฑทพอใชดวยจานวนเปอรเซนต F-Measure 0.66 และจากผลการทดลองของขอมล 14 กลม นยงพบอกวาบางโหนดเอาทพทไมสามารถระบไดวาเปนตวแทนของกลมขอมลกลมใด เนองจากขอมลทใชในการทดลองมการทบซอนกนมาก ซงจะเหนไดคา Entropy ทสงถง 0.85547

ดงนนจากผลการทดลองทงหมด โครงขายประสาทเทยมนมความสามารถแบงกลมขอมลไดดเมอขอมลนนเปนขอมลทมลกษณะ Less-Overlapping Dataset และขอดอกประการหนงของโครงขายประสาทเทยมนคอลดขนตอนการเตรยมขอมลลงได เนองจากขอมลทผานการ Extraction ไดเปนกลมคาทใชเปน Identifier ของแตละเอกสาร ซงกลมคานสามารถสง (Present) เขาสโครงขายประสาทเทยมไดโดยตรง โดยไมตองผานขนตอนการ Map หรอ Transformation ดวยวธการทวไปของ Document Representation ทงแบบ Binary, Term-Frequency และ TFxIDF เพอใหได Feature Space ของเอกสารทเกบขอมลเชงปรมาณ (Quantitative Feature Space) นอกจากนยงไดนาผลการทดลองทไดเปรยบเทยบกบผลการทดลองของ TPCLNN [18] ซงไดทาการจดแบงกลมเอกสารขาว Reuter-21578 และใชหลกการทางานแบบ Unsupervised Learning Neural Network ใน 4 สวนดงน

สวนท 1 เปรยบเทยบในสวนผลลพธทไดจากการวดประสทธภาพดวยคา F-Measure สวนท 2 เปรยบเทยบในสวนผลลพธทไดจากการวดประสทธภาพดวยคา Entropy สวนท 3 เปรยบเทยบในสวนผลลพธทไดจากการวดจานวนรอบการฝก Epoch สวนท 4 เปรยบเทยบในสวนการทางานของอลกอรทม

Page 59: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

49

สวนท 1 เปรยบเทยบในสวนผลลพธทไดจากการวดประสทธภาพดวยคา F-Measure

กราฟท 4.1 แสดงการเปรยบเทยบคา F-Measure ระหวาง Text ART Neural Network และ

Text Processing Competitive Learning Neural Network ในสวนท 1 นจากกราฟท 4.1 ประสทธภาพของการจดกลมเอกสารดวย F-Measure ของ

Text ART Neural Network มประสทธภาพดกวา แตยงคงใกลเคยงกน สวนท 2 เปรยบเทยบในสวนผลลพธทไดจากการวดประสทธภาพดวยคา Entropy

กราฟท 4.2 แสดงการเปรยบเทยบคา Entropy ระหวาง Text ART Neural Network และ Text

Processing Competitive Learning Neural Network (TPCLNN)

0.450.51

0.86

0.39

0.5

0.8

00.10.20.30.40.50.60.70.80.9

1

Reuter 3 Reuter 5 Reuter 14

Entorpy

Text ART NNTPCLNN

0.85 0.85

0.66

0.88 0.84

0.65

00.10.20.30.40.50.60.70.80.9

1

Reuter 3 Reuter 5 Reuter 14

F-measure

Text ART NNTPCLNN

Page 60: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

50

ในสวนท 2 นจากกราฟท 4.2 ประสทธภาพของการจดกลมเอกสารดวย Entropy ของ TPCLNN ทประสทธภาพดกวา แตยงคงใกลเคยงกน ดงนนจากสวนท 1 และสวนท 2 สรปไดวาประสทธภาพการจดกลมเอกสารของ Text ART Neural Network และ TPCLNN มประสทธภาพดใกลเคยงกน

สวนท 3 เปรยบเทยบในสวนผลลพธทไดจากการวดจานวนรอบการฝก Epoch

กราฟท 4.3 แสดงการเปรยบเทยบจานวน Epoch ระหวาง Text ART Neural Network และ Text Processing Competitive Learning Neural Network (TPCLNN)

ในสวนท 3 สรปไดจากกราฟท 4.3 ดงน รอบการฝก (Epoch) ของ Text ART Neural

Network ใชจานวนรอบนอยกวา โดยขนตอนการทางานของ Text ART Neural Network เปรยบเทยบขนตอนการทางานของ TPCLNN จะอธบายไวในสวนท 4 ตอไป

สวนท 4 เปรยบเทยบในสวนการทางานของอลกอรทม ในสวนท 4 ในการคานวณการทางานอลกอรทมของ Text ART Neural Network และ

TPCLNN ใชหลกการทางานบนพนฐานของการเรยนรแบบไมมผสอน (Unsupervised Learning) รวมกบหลกการวดความแตกตางของเอกสาร ซงแตละครงในการทางานจะมเพยงเอาทพตโหนดเดยวเทานนทจะเปนผชนะและไดรบการปรบ Weights แตมความแตกตางกน ดงแสดงในตารางท 4.11

81

136

275

379

256

340

050

100150200250300350400

Reuter 3 Reuter 5 Reuter 14

Datasets

Loop Text ART

TPCLNN

Page 61: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

51

ตารางท 4.11 เปรยบเทยบการทางานอลกอรทมของ Text ART Neural Network และ TPCLNN Text ART Neural

Network TPCLNN

Similarity/Dissimilarity Measure Similarity Dissimilarity Winning nodes Max{Yj} Min{Yj} Update weights Weight ของโหนดชนะ Weight ของโหนดชนะ Control degree of similarity ม ไมม

การเลอกโหนดชนะของ Text ART Neural Network จะเลอกโหนดทมคาสงทสด เนองจากใชหลกการจดแบงเอกสารใชหลกการ Similarity Measure for Symbolic Objects ซงหลกการน Objects ทมความคลายกนมาก จะมคา Similarity สง ในขณะทการเลอกโหนดชนะของ TPCLNN จะเลอกโหนดทมคานอยทสด เนองจากใชหลกการจดแบงเอกสารใชหลกการ Dissimilarity Measure for Symbolic Objects ซงหลกการน Objects ทมความคลายกนมาก จะมคา Dissimilarity ตา

แตมความแตกตางกนคอ Text ART Neural Network มคณสมบตการควบคมระดบความคลายคลงของการจดกลม (Control degree of similarity) ซงกาหนดโดยคา Vigilance Threshold และทาให Text ART Neural Network ม Weights 2 ชด คอ Bottom-up Weights และ Top-down Weights โดยทเอกสารอนพตจะตองถกเปรยบเทยบความคลายคลงดวย Similarity Measure for Symbolic Objects เปนจานวน 2 ครง ตอ 1 รอบการฝก โดยรอบทหนง หาโหนดผชนะ คานวณดวยสตร Similarity Measure for Symbolic Objects ระหวางเอกสารอนพตและ Bottom-up Weight และรอบทสอง หาความตรงกนในเลอกโหนดผชนะดวยสตร Similarity Measure for Symbolic Objects ระหวางเอกสารอนพตและ Top-down Weight โดยมคา Vigilance Threshold ทาหนาทควบคมระดบความคลายกนของเอกสารอนพตกบ Top-down Weight ของนวรอลเนตเวรค ในขณะท TPCLNN ม Weights 1 ชด เอกสารอนพตจงถกเปรยบเทยบความคลายคลงดวย Dissimilarity Measure for symbolic objects เปนจานวน 1 ครง ตอ 1 รอบการฝก โดย หาโหนดผชนะ คานวณดวยสตร Dissimilarity Measure for Symbolic Objects ระหวางเอกสารอนพตและ Weight ของนวรอลเนตเวรค ดงนนจานวนขนตอนในการคานวณของ Text ART Neural Network จงมจานวนขนตอนมากกวาเมอเปรยบเทยบกบจานวนขนตอนในการคานวณของ TPCLNN แตเมอคดจานวนรอบการฝก (Training Epoch) จากผลการทดลองText ART Neural Network ใชจานวนรอบการฝกนอยกวา

Page 62: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

บทท 5

สรปผลการวจยและขอเสนอแนะ

5.1 สรปผลงานวจย งานวจยน ไดนาเสนอวธการจดกลมเอกสารโดยใชหลกการของโครงขายประสาทเทยมท

เรยนรแบบหาผชนะแบบ Adaptive Resonance Theory รวมกบการหาความคลายคลงกนของเอกสารแบบ Similarity Measure for Symbolic Objects จากหลกการทงหมดทกลาวมาทาใหโครงขายประสาทเทยมทพฒนาขนมานนสามารถรบขอมลอนพททเปนขอความ (text) เขาไปประมวลผลไดโดยตรง โดยทไมจาเปนตองแปลงอนพท ใหเปนขอมลในเชงตวเลขกอนแตอยางใด ซงวธการนชวยลดปญหาของการเกด High Dimension ของคาเมอใชวธการของ Vector Space Model ในการแบงกลมทมขอมลขนาดใหญ ซง Feature ทถกเลอกสาหรบการนาเขาในโครงขายประสาทเทยมประกอบดวย กลมคาของชอเรอง (Set of Title)และกลมคาของคาสาคญ (Set of Keyword) ของเอกสาร ดงนนจานวน Input Nodes ของโครงขายประสาทเทยมจงเทากบ 2 Input Nodes

เพอกาหนดระดบความคลายคลงของเอกสารในการจดแบงกลม โครงขายประสาทเทยมนจงใชคา Vigilance เปนตวแปรทกาหนดคา Threshold ดงนนโครงขายประสาทเทยมนจงมการทางานหลก 2 สวนคอ • สวนแรกคอ Competitive สวนนทาหนาทหาโหนดผชนะตามกฎของ Winning-Take-All โดย

โหนดผชนะ (Winning-Node) คอโหนดทมคาเอาทพตสงทสด และใหโหนดทคาเอาทพตรองลงมาเปนโหนดคแขง (Candidate Node) โดยการคานวณคาความคลายคลงระหวางเอกสารอนพตกบ Bottom-Up Weight

• อกสวนคอ Resonance สวนนจะทาหนาททดสอบเงอนไขทสาคญ โดยการคานวณคาความคลายคลงระหวางเอกสารอนพตกบ Top-Down Weight ซงจะเกบคาคานวณทไดลงในตวแปร Z ถาคา Z มคาสงกวาคา Vigilance แสดงวามความสอดคลองกบเงอนไข (Resonance) จงยอมรบใหเอาทพตโหนดนนเปนโหนดผชนะ และทาการปรบ Weight ของเอาทพตโหนดทชนะนนตามเงอนไขทกลาวไวในบทท 3

ในสวนของการวดประสทธภาพของผลการทดลองในงานวจยนไดใชคา Entropy และคา

F- Measure เปนตวชวดประสทธภาพของการจดกลม ซงจากผลการทดลองในบทท 4 เมอนาผลท

Page 63: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

53

ไดมาเปรยบเทยบกบผลจากงานวจยโครงขายประสาทเทยมทเรยนรแบบหาผชนะ (A Text Processing Competitive Learning Neural Network (TPCLNN)) [18] ซงสามารถใหเปอรเซนตของ F-Meausre เทากบ 65% พบวา Text ART Clustering มประสทธภาพดกวา TPCLNN

5.2 บทวเคราะห จากการศกษาการจดแบงกลมเอกสารโดยใช Text ART Neural Network พบวาวธการนม

ขอดเหนอวธการอนๆ ในหลายประเดน

5.2.1 ลดความซบซอนของขนตอน Pre-processing เนองจากขนตอนของการทา Document Representation ของงานวจยน แตกตางจากขนตอนการทา Document Representation ทวไป ซงในงานวจยน ลกษณะขอมลไดจาก Document Representation แบบ Title x Keyword ประกอบดวยกลมคาของชอเรองและกลมคาของคาสาคญของเอกสาร จงสามารถสงเขาโครงขายประสาทเทยมแบบ Text Adaptive Resonance Theory ไดโดยตรงซงลดขนตอนการแปลง Textual Values เปน Numerical Values และยงชวยลดปญหา Input Dimensional Feature Space ลงไดดวยเชนกน

5.2.2 คา Vigilance เนองจากคาเอาทพตโหนดของโครงขายประสาทเทยมอาจมคาทสงใกลเคยงกน เพอเลอกเอาทพตโหนดทมความคลายคลงและสอดคลองกบเอกสารมากทสด คา Vigilance จงเปนตวแปรทสาคญทใชสาหรบกาหนด Threshold ของการแบงกลมเอกสารไดเปนอยางด โดยคา Vigilance มคาระหวาง 0 จนถง 1 คา Vigilance ทอยใกล 1 หมายถงความคลายคลงและสอดคลองของการแบงกลมระดบสง นอกจากนคา Vigilance มผลกบจานวนกลมของ Cluster

5.2.3 ตวแทนกลมเอกสาร (Centroid) เนองจาก Bottom-up weight และ Top-down weight ของโครงขายประสาทเทยมนสามารถเกบคาทไดจากขนตอนปรบ Weight ดงนนสมาชกของ Weight ของแตละเอาทพตโหนดสามารถเปนคาสาคญของแตละกลมเอกสารและใชเปนตวแทนกลม (Centroid) ได พรอมทงระบระดบความสมพนธของคาใน Weight แตละชดได

5.2.4 การใชงานไดอยางกวางขวาง วธการดงกลาวสามารถใชประยกตไดกบระบบจดการขอมลเอกสารอนๆ ไดอยางกวางขวางเนองจากขอมลเอกสารในปจจบนมปรมาณมากมหาศาล และระบบจดการขอมลเอกสารมหลากหลายระบบ เชน ระบบคนคนสารสนเทศ (Information Retrieval Systems) ระบบ

Page 64: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

54

คลงขอมลเอกสาร (Document Warehouse Systems) และระบบการจดหมวดหมเอกสาร (Text Categorization Systems) เปนตน เพยงเพมเตมวธการนลงในระบบจดการขอมลเอกสารดงกลาวทตองการ

5.3 ขอเสนอแนะและแนวทางในการทาวจยตอ เนองจากในงานวจยนไดทดลองกบเฉพาะขอมลทเปนขอมลขาว (Text Document) ดวย

วธการ Text ART Neural Network จงนาจะมการนาวธการดงกลาวมาใชกบ Web Document เชน เอกสารทอยในรปแบบ HTML หรอ Ascii Text และยงมความเปนไปไดในการนาอลกอรทมนไปประยกตเพอพฒนาเปนเครองมอชวยในระบบคนคนสารสนเทศ (Information Retrieval) แทนทผใชหรอระบบคนคนสารสนเทศจะตองคนหาเอกสารทงหมดทมอยในระบบและมความสมพนธกบคาสบคน ผใชสามารถดผลจาก Document Cluster เพอหาเอกสารทเกยวของได Systems) วธการนจงนาจะชวยในสวนการลดจานวนปรมาณคนหา (Scanning) ในระบบดงกลาวลงไดเปนอยางด

นอกจากนยงมความเปนไปไดในการนาอลกอรทมนไปประยกตเพอพฒนาเปนเครองมอของระบบคลงขอมลเอกสาร (Document Warehouse) ในสวนของ Document Loading สาหรบเอกสารจากหลายๆ แหลงทมา ซงในระบบคลงขอมลเอกสารอาจมจานวนเอกสารในระบบอยจานวนมากมหาศาล ดงนนการทา Document Clustering เพอระบกลมเอกสารทคลายกนในระบบคลงขอมลเอกสาร จงนาจะชวยในสวนการลดจานวนปรมาณคนหาเอกสารในระบบดงกลาวและชวยในสวน Pre-Processing ของการจดหมวดหมเอกสาร (Text Categorization) สดทายนแนวทางในการพฒนางานวจยตอคอวธการแนวใหมทสามารถจดแบงกลมขอมลเอกสารทมลกษณะ Overlap สงได

Page 65: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

เอกสารอางอง

[1] Carpenter, G. A., and Grosssberg, S. “Associative learning, adaptive pattern recognition and cooperative decision making by neural networks,” Hybrid and Optical Computing, SPIE, 1986.

[2] Carpenter, G. A., and Grosssberg, S. (1987a). “A massively parallel architecture for a self-organizing neural pattern recognition machine,” Computer Vision, Graphics, and Image Processing, 1987.

[3] Carpenter, G. A., and Grosssberg, S.(1987b). “ART 2: Stable self-organization of pattern recognition codes for analog input patterns,” (with G.A. Carpenter). Applied Optics, 1987.

[4] Carpenter, G. A., and Grosssberg, S. “The ART of adaptive pattern recognition by a self-organizing network,” Computer, 1988.

[5] Han Jiawei and Kamber Micheline. Data Mining: Concepts and Technique. Margan Kaufmann Publishers, New York, 2001.

[6] Salton Gerard. Automatic Text Processing: the transformation, analysis, and retrieval of information by computer. Addison Wesley Publishing Company, New York, 1989.

[7] Jacek M. Zurada. Introduction to Artificial Neural Systems. West Publishing Company, New York, 1992.

[8] Fausett Lanrene. Fundamentals of Neural Networks Architecture, Algorithms and Application. Prentice Hall International, New Jersey, 1994.

[9] K.C. Gowda and E.Diday. “Symbolic Clustering Using a New Similarity Measure.” IEEE Trans. On Syst., Man, Cybern., vol. 22, 1992. no. 2, pp. 368-378.

[10] El-SonBaty YA and Ismail MA. “Fuzzy Clustering for Symbolic Data.” IEEE Trans. On Fuzzy Systems, vol. 6, no. 2, May, 1998. pp. 195-204

[11] T.V. Ravi and K.C. Gowda. “Clustering of Symbolic Objects Using Gravitational Approach.” IEEE Trans. On Syst. , Man, Cybern., vol. 29, 1999. no. 6, pp. 888-894.

Page 66: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

56

[12] Hsin-Chang Yang and Chung-Hong Lee. “Automatic Category Generation for Text Documents by Self-Organizing Maps.” IEEE Trans, 2000. pp. 581-586

[13] Michael Steinbach , George Karypis and Vipin Kumar, “A Comparison of Document Clustering Techniques,” Proceedings of Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Boston. MA. USA, 2000.

[14] M. Benkhalifa and A. Bensaid, “Text Categorization using the Semi-Supervised Fuzzy c-Mean Algorithm,” IEEE, pp. 561-565, 1999

[15] King-Ip Lin and Ravikumar Kondadadi, “A Similarity-Based Soft Clustering Algorithm For Documents,” IEEE, 2001

[16] Florian Beil, Martin Ester and Xiaowei Xu, “Frequent Term-Based Text Clustering,” ACM SIGKDD 02, 2002

[17] ทรงพล ชตพงศพฒนกล, “เทกโปรเซสซงโคโฮเนนนวรอลเนตเวรคโดยใชกระบวนการเรยนรแนวใหม”, วทยานพนธวทยาศาสตรมหาบณฑต สาขาเทคโนโลยสารสนเทศ บณฑตวทยาลย, สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง, 2546.

[18] สมคด แสนเสนาะ, “การแบงกลมเอกสารโดยใชเทคนคการประมวลผลขอความดวยโครงขายประสาทเทยมทเรยนรแบบหาผชนะ”, วทยานพนธวทยาศาสตรมหาบณฑต สาขาเทคโนโลยสารสนเทศ บณฑตวทยาลย, สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง, 2547.

[19] Louis Massey , “On the quality of ART1 text clustering,” ACM Neural Networks, Vol. 16, Special issue: Advances in neural networks research -- IJCNN'03 , pp. 771 – 778, 2003.

[20] G.A. Carpenter and S. Grossberg. “Adaptive Resonance Theory (ART),” In: Handbook of Brain Theory and Neural Networks, Ed: Arbib M.A. , MIT Press, 1995.

[21] A.K. Jain, M.N. Murty and P. J Flyynn. “Data Clustering: A review”, ACM Computing Surveys, Vol. 31, No. 3, Sept 1999.

[22] N.K. Bose and P. Liang. Neural Network Fundamentals with Graphs, Algorithms, and Applications, McGRAW-HILL International Editions, Electrical Engineering Series, 1996.

Page 67: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

57

[23] Tom M. Mitchell. Machine Learning. McGRAW-HILL International Editions, Computer Sciences Series, 1996.

[24] James A. Freeman and David M. Skapura. Neural Networks Algorithms, Applications, and Programming Techniques. Addison-Wesley, 1992.

[25] D.Sullivan., Document Warehousing and Text Mining, John Wiley & Sons, Inc. ISBN: 0- 471-39959-0.

[26] G.Salton, A.Wong,C.S. Yang, “A Vector Space Model for Automatic Indexing”, Communications of the ACM, 18(11):613--620, 1971

[27] Lewis D.D., “Reuters-21578 text categorization test collection distribution 1.0.”, http://www.daviddlewis.com/.

[28] A. K. Jain and R. C. Dubes, Algorithms for Clustering Data, Prentice Hall, 1988. [29] “List of Stop Words”, http://netra.wustl.edu/~adpol/courses/cs504/lab6/stop-word.lst [30] Porter, M.F., “An Algorithm For Suffix Stripping,” Program 14 (3), no. 3, pp 130-137,

July,1980.

Page 68: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

58

ภาคผนวก

Page 69: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

59

ภาคผนวก ก.

แสดงตวอยางขาว Reuters-21578

ก.1 ไฟลขาวกอนการตดแทก <REUTERS TOPICS="YES" LEWISSPLIT="TRAIN" CGISPLIT="TRAINING-SET" OLDID="5679" NEWID="136"> <DATE>26-FEB-1987 17:11:01.51</DATE> <TOPICS><D>grain</D></TOPICS> <PLACES><D>usa</D></PLACES> <PEOPLE></PEOPLE> <ORGS></ORGS> <EXCHANGES></EXCHANGES> <COMPANIES></COMPANIES> <UNKNOWN>BC-GAO-LIKELY-TO-SHOW-CE 02-26 0126</UNKNOWN> <TEXT> <TITLE>GAO LIKELY TO SHOW CERTS MORE COSTLY THAN CASH</TITLE> <DATELINE>WASHINGTON, Feb 26</DATELINE> <BODY>A study on grain certificates due out shortly from the Government Accounting Office (GAO) could show that certificates cost the government 10 to 15 pct more than cash outlays, administration and industry sources said. Analysis that the GAO has obtained from the Agriculture Department and the Office of Management and Budget suggests that certificates cost more than cash payments, a GAO official told Reuters. GAO is preparing the certificate study at the specific request of Sen. Jesse Helms (R-N.C.), former chairman of the senate agriculture committee.

Page 70: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

60

The report, which will focus on the cost of certificates compared to cash, is scheduled to be released in mid March. The cost of certificates, said the GAO source, depends on the program's impact on the USDA loan program. If GAO determines that certificates encourage more loan entries or cause more loan forfeitures, then the net cost of the program would go up. However, if it is determined that certificates have caused the government grain stockpile to decrease, the cost effect of certificates would be less. GAO will not likely suggest whether the certificates program should be slowed or expanded, the GAO official said. But a negative report on certificates "will fuel the fire against certificates and weigh heavily on at least an increase in the certificate program," an agricultural consultant said. The OMB is said to be against any expansion of the program, while USDA remains firmly committed to it. Reuter </BODY></TEXT> </REUTERS> ก.2 ไฟลขาวหลงจากไดตดแทกเอาเฉพาะขอมลในแทก TITLE และ แทก KEYWORD

ไฟลขาวหลงจากไดตดแทกเอาเฉพาะขอมลในแทก TITLE และ แทก KEYWORD แลวไดขอมลดงน

สวนของ TITLE มดงน

GAO LIKELY TO SHOW CERTS MORE COSTLY THAN CASH สวนของ BODY A study on grain certificates due out

Page 71: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

61

shortly from the Government Accounting Office (GAO) could show that certificates cost the government 10 to 15 pct more than Cash outlays, administration and industry sources said. Analysis that the GAO has obtained from the Agriculture Department and the Office of Management and Budget suggests that certificates cost more than cash payments, a GAO official told Reuters. GAO is preparing the certificate study at the specific request of Sen. Jesse Helms (R-N.C.), former chairman of the senate agriculture committee. The report, which will focus on the cost of certificates compared to cash, is scheduled to be released in mid March. The cost of certificates, said the GAO source, depends on the program's impact on the USDA loan program. If GAO determines that certificates encourage more loan entries or cause more loan forfeitures, then the net cost of the program would go up. However, if it is determined that certificates have caused the government grain stockpile to decrease, the cost effect of certificates would be less. GAO will not likely suggest whether the certificates program should be slowed or expanded, the GAO official said. But a negative report on certificates "will fuel the fire against certificates and weigh heavily on at least an increase in the certificate program," an agricultural consultant said. The OMB is said to be against any expansion of the program, while USDA remains firmly committed to it. ตารางท ก.1 แสดงตวอยางของคาทเปน Stop Words a about above according across actually adj after afterwards again against all almost alone along already also although always among amongst an and another any anyhow anyone

Page 72: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

62

anything anywhere are aren't around as at b be became because become becomes becoming been before beforehand begin beginning behind being below beside besides between beyond billion both but by c can can't cannot caption co co. could couldn't d did didn't do does doesn't don't down during e each eg eight eighty either else elsewhere end ending enough etc even ever every everyone everything everywhere except f few fifty first five for former formerly forty found four from further h had has hasn't have haven't he he'd he'll he's hence her here here's hereafter hereby herein hereupon hers herself him himself his how however hundred i i'd i'll i'm i've ie if in inc. indeed instead into is isn't it it's its itself l last later latter latterly least less let let's like likely ltd m made make makes many maybe me meantime meanwhile might million miss more moreover most mostly mr mrs much must my myself n namely neither never nevertheless next nine ninety no nobody none nonetheless noone nor not nothing now nowhere o of off often on once one one's only onto or other others otherwise our ours ourselves out over overall own p per perhaps r rather recent recently s same seem seemed seeming seems seven seventy several she she'd she'll she's should shouldn't since six sixty so some somehow someone something sometime sometimes somewhere still stop such

Page 73: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

63

t taking ten than that that'll that's that've the their them themselves then thence there there'd there'll there're there's there've thereafter thereby therefore therein thereupon these they they'd they'll they're they've thirty this those though thousand three through throughout thru thus to together too toward towards trillion twenty two u under unless unlike unlikely until up upon us used using v very via w was wasn't we we'd we'll we're we've well were weren't what what'll what's what've whatever when whence whenever where where's whereafter whereas whereby wherein whereupon wherever whether which while whither who who'd who'll who's whoever whole whom whomever whose why will with within without won't would wouldn't y yes yet you you'd you'll you're you've your yours yourself yourselves ตารางท ก.2 แสดงตวอยางของคาทไดหลงจากตด Stemming ของคา

Title keyword gao, like, show, cert,cost, cash

certificate, gao, cost, loan, agriculture ,government, usda, report, committee

ตารางท ก.3 แสดงตวอยางของคาทตด stemming และคาทเปน stop word

กอนตด stemming หลงตด stemming tons ton omits omit

accepts accept minerals mineral groups group called call

acquires acquire

Page 74: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

64

drafts draft certs cert

earning earn driving drive

meeting meet planning plan

according accord a - is -

am - are - on - in -

the - an - it - to -

then - that - of -

while - ตารางท ก.4 แสดงตวอยางโครงสรางของขอมลขาว Reuters-21578 ทนาเขาโมเดล

Page 75: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

65

Title Keyword data(1,1).text(1,:) = {'bahia'}; data(1,1).text(2,:) = {'cocoa'}; data(1,1).text(3,:) = {'revew'};

data(1,2).text(1,:) = {'dlr'}; data(1,2).text(2,:) = {'york'}; data(1,2).text(3,:) = {'sale'}; data(1,2).text(4,:) = {'cocoa'}; data(1,2).text(5,:) = {'crop'}; data(1,2).text(6,:) = {'mln'}; data(1,2).text(7,:) = {'bag'}; data(1,2).text(8,:) = {'comissaria'}; data(1,2).text(9,:) = {'smith'}; data(1,2).text(10,:) = {'bahia'};

ตารางท ก.5 แสดงตวอยาง Weight ทไดจากการเรยนร (Synthesized Text Document) Bottom-up weight Neuron Weights Output Node 1 {(3com,1.0),(cisco,0.99), (internet,0.98),(java,1.0),

(network,0.99),(protocol,0.98)} Output Node 2 {(airline,1.0),(bank,1.0), (business,0.98),(car,0.99),

(hotel,0.98),(intel,0.0), (network,0.0),(travel,1.0)} Output Node 3 {(algorithm,1.0),(compute,0.99), (database,0.97),(intel,0.98),

(java,1.0),(network,1.0)}

Top-down weight

Page 76: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

66

Neuron Weights Output Node1 {(3com,1.0),(cisco,0.99), (internet,0.98),(java,1.0),

(network,0.99),(protocol,0.98)} Output Node 2 {(airline,1.0),(algorithm,0.0), (bank,0.97),(business,0.98),

(car,0.99),(database,0.0), (hotel,0.98),(intel,0.0), (network,0.0),(travel,0.99)}

Output Node 3 {(algorithm,1.0),(compute,0.99), (database,0.96),(intel,0.98), (java,1.0),(network,1.0)}

ตารางท ก.6 แสดงตวอยาง Weight ทไดจากการเรยนร (Routers-21578) Bottom-up weight

Neuron Weights Neuron 1 {(complete,0.001),(kraft,0.001),(quaker,0.001),(carling,0.02), (elders,0.002)

(buyout,0.003),(disclosure,0.003),(favors,0.003),(period,0.003),(shad,0.003(shortening,0.003),(agree,0.004),(stars,0.004),(store,0.004), (firm,0.005),(ups,0.005),(group,0.006),(bank,0.008),(bid,0.013), (acquire,0.025),(pct,0.029), (stake,0.116),(unit,0.171),(merge,0.221),(buy,0

Neuron 2 {(expansion,0.001),(analyst,0.002),(good,0.002),(guinea,0.002), (papua,0.002),(prospect,0.002),(arab,0.003),(heavy,0.003),(supplies,0.003)(term,0.004), (bombings,0.004),(colombian,0.004),(group,0.004), (pipelines,0.004), (suspend,0.004),(boosts,0.005), (output,0.005),(post,0.08(acquisition,0.01),(opec,0.011), (american,0.013),(crude,0.018), (price,0.02(pct,0.157),(oil,1.0)}

Neuron 3 {(midwest,0.001),(movement,0.001), (slow,0.001),(carloadings,0.002), (fall,0.002),(ahead,0.003),(cbt,0.003),(look,0.003), (spring,0.003), (traders,0.003),(lanka,0.04),(overnight,0.04),(sri,0.04),(tendering,0.04), (crop,0.05),(main,0.05),(projection,0.05),(reduce,0.05),(rice,0.05), (plantings,0.09),(maize,0.016),(set,0.026),(export,0.229),(usda,0.398), (corn,0.477),(grain,0.671),(wheat,0.964)}

Top-down weight

Page 77: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

67

Neuron Weights Neuron1 {(group,0.001),(kraft,0.001), (quaker,0.001),(unit,0.001), (merge,0.002),

(carling,0.002),(elders,0.002),(disclosure,0.003),(favors,0.003),(period,0(shad,0.003),(shortening,0.003),(acquire,0.004),(agree,0.004), (stars,0.0(store,0.004), (firm,0.004),(stake,0.005),(ups,0.005),(pct,0.008), (buy,0.0

Neuron 2 { (expansion,0.001),(opec,0.001), (analyst,0.002),(good, 0.002), (g0.002), (papua, 0.002),(prospect, 0.002),(american,0.003), (arab, 0.003),(0.003), (heavy, 0.003),(supplies, 0.003),(term, 0.003),(bombings, 0.003), (colombian,0.004),(group, 0.004), (pipelines, 0.004),(suspend, 0.004), (acquisition,0.005),(boosts,0.005), (output,0.005),(pct,0.005), (oil,0.916)}

Neuron 3 { (country,0.001),(midwest,0.001), (movement,0.001),(slow,0.001), (carloadings,0.002),(fall,0.002),(ahead,0.003),(cbt,0.003), (look,0.003), (spring,0.003), (traders,0.003),(lanka,0.004),(overnight,0.004), (plantings,0.004), (sri,0.004),(tendering,0.005), (crop,0.005),(main,0.005(projection,0.005),(reduce,0.005),(rice,0.005),(maize,0.005), (export,0.00(usda,0.006),(oil,0.009),(grain,0.116),(wheat,0.238)}

Page 78: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

68

ภาคผนวก ข.

แสดงตวอยางการทางานของ Text ART Neural Network Training Set Initialze Degree of botton-up weights = 0.500 Set Initialze Degree of top-down weights = 1.000 Set Learning Rate parameter = 0.010 Set Learning Loop parameter = 100 Set Vigilance parameter = 0.100 Number of input units = 2 Number of interface units = 2 Number of output units = 3 X(35) Y(1) NET = 2.35000 , Z = 0.15476 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(57) Y(1) NET = 1.87500 , Z = 0.34286 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(83) Y(1) NET = 1.99107 , Z = 0.50000 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(64) Y(1) NET = 2.17857 , Z = 0.70833 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(16) Y(1) NET = 1.00000 ,Z = 0.00000 Loop(1) ---> RESET :: FIND CANDIDATE NEURONS >>>>> X(16) Y(2) Loop(1) !!! ALL UNITS RESET !!! ADD NEW OUTPUT NEURON , Z = 0.00000 <<<<< X(98) Y(1) NET = 1.82500 ,Z = 0.00000 Loop(1) ---> RESET :: FIND CANDIDATE NEURONS X(98) Y(2) NET = 1.30000 , Z = 0.17143 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(97) Y(2) NET = 1.92857 , Z = 0.30000 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(32) Y(1) NET = 1.59615 , Z = 0.50000 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(51) Y(1) NET = 1.77622 , Z = 0.70000 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(73) Y(1) NET = 1.73427 , Z = 0.50000 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(17) Y(1) NET = 1.72115 , Z = 0.45000 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(65) Y(2) NET = 2.17857 , Z = 0.37500 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(23) Y(2) NET = 2.39286 , Z = 0.62500 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(89) Y(1) NET = 1.47115 , Z = 0.62500 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(45) Y(1) NET = 1.69231 , Z = 0.22500 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(13) Y(2) NET = 2.64286 , Z = 0.62500 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(8) Y(1) NET = 1.57692 ,Z = 0.00000 Loop(1) ---> RESET :: FIND CANDIDATE NEURONS X(8) Y(2) NET = 1.18750 ,Z = 0.00000 Loop(1) ---> RESET :: FIND CANDIDATE NEURONS

Page 79: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

69

>>>>> X(8) Y(3) Loop(1) !!! ALL UNITS RESET !!! ADD NEW OUTPUT NEURON , Z = 0.00000 <<<<< X(42) Y(1) NET = 1.69231 ,Z = 0.00000 Loop(1) ---> RESET :: FIND CANDIDATE NEURONS X(42) Y(2) NET = 1.16667 ,Z = 0.00000 Loop(1) ---> RESET :: FIND CANDIDATE NEURONS X(42) Y(3) NET = 1.00000 , Z = 0.33333 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(99) Y(2) NET = 2.64286 , Z = 0.75000 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(49) Y(3) NET = 2.10000 , Z = 0.58333 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(26) Y(2) NET = 2.14286 , Z = 0.45000 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(9) Y(2) NET = 2.14286 , Z = 0.37500 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(30) Y(3) NET = 1.80357 ,Z = 0.00000 Loop(1) ---> RESET :: FIND CANDIDATE NEURONS X(30) Y(1) NET = 1.78297 , Z = 0.45000 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(22) Y(3) NET = 1.67857 , Z = 0.26667 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(21) Y(2) NET = 2.50000 , Z = 0.29167 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(37) Y(2) NET = 2.31250 , Z = 0.40000 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(71) Y(3) NET = 2.07143 , Z = 0.37500 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(100) Y(3) NET = 1.83036 , Z = 0.37500 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(84) Y(3) NET = 2.01786 , Z = 0.26667 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(47) Y(3) NET = 2.20536 , Z = 0.62500 Loop(1) <<< NOT RESET || COMPETITIVE COMPLETE >>> ............ .............. .................... ......................... X(93) Y(2) NET = 2.35000 , Z = 0.70833 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(40) Y(2) NET = 3.45000 , Z = 0.55000 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(24) Y(1) NET = 2.50000 , Z = 0.54167 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(7) Y(3) NET = 3.00000 , Z = 0.47500 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(27) Y(3) NET = 2.75000 , Z = 0.67500 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(69) Y(1) NET = 2.50000 , Z = 0.35000 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(15) Y(1) NET = 2.25000 , Z = 0.22500 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(12) Y(3) NET = 3.00000 , Z = 0.54167 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(14) Y(3) NET = 2.50000 , Z = 0.57500 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(99) Y(2) NET = 2.95000 , Z = 0.60000 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(26) Y(2) NET = 2.65000 , Z = 0.45000 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(75) Y(3) NET = 2.75000 , Z = 0.87500 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>>

Page 80: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

70

X(72) Y(3) NET = 2.25000 , Z = 0.53333 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(50) Y(3) NET = 2.50000 , Z = 0.37500 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(48) Y(1) NET = 3.25000 , Z = 0.40000 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(91) Y(3) NET = 2.50000 , Z = 0.32500 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(41) Y(1) NET = 2.25000 , Z = 0.26667 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(39) Y(3) NET = 2.50000 , Z = 0.35000 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(77) Y(2) NET = 2.35000 , Z = 0.22500 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(58) Y(3) NET = 2.50000 , Z = 0.53333 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(71) Y(1) NET = 2.50000 , Z = 0.36667 Loop(7) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(64) Y(1) NET = 2.50000 , Z = 0.70833 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(16) Y(2) NET = 2.50000 , Z = 0.35000 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(98) Y(3) NET = 2.75000 , Z = 0.40000 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(97) Y(3) NET = 2.50000 , Z = 0.30000 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> (4) Y(1) NET = 3.00000 , Z = 0.36667 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(38) Y(1) NET = 1.75000 , Z = 0.37500 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(34) Y(2) NET = 2.50000 , Z = 0.41667 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(67) Y(2) NET = 2.25000 , Z = 0.22500 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(14) Y(1) NET = 2.50000 , Z = 0.29167 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(96) Y(1) NET = 2.50000 , Z = 0.50000 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(78) Y(3) NET = 3.00000 , Z = 0.30000 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(28) Y(2) NET = 2.50000 , Z = 0.54167 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(93) Y(3) NET = 2.25000 , Z = 0.62500 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(74) Y(1) NET = 2.75000 , Z = 0.33333 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(29) Y(1) NET = 2.25000 , Z = 0.35000 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(43) Y(1) NET = 2.50000 , Z = 0.70000 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(53) Y(1) NET = 2.50000 , Z = 0.35000 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(86) Y(2) NET = 2.25000 , Z = 0.43333 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(15) Y(2) NET = 2.25000 , Z = 0.41667 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(54) Y(3) NET = 3.00000 , Z = 0.62500 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(24) Y(2) NET = 2.50000 , Z = 0.54167 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> X(85) Y(1) NET = 2.75000 , Z = 0.62500 Loop(8) <<< NOT RESET || COMPETITIVE COMPLETE >>> (Learning Loop = 100) Epoch = 8 The vigilance value = 0.1000 The number of class = 3 Entropy : 0.00000

Page 81: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

71

F-Measure : 1.00000 Number of Reset : 0 Data Swaping : 0 confusion = 0 0 30 38 0 0 0 32 0 Clock = [year:2004] [month:4] [day:19] [hour:14] [minute:0] [seconds:51] Epoch 8 ==> ***** No Data Swap Move Across Clusters **** The learning loop (8) is finish The process is completion. Running time is 8.05 minutes. Experimental Result of clustering. --------------------------------------------- The total elements` number of cluster number[1] = 38 The total elements` number of cluster number[2] = 32 The total elements` number of cluster number[3] = 30 The 100 rows of data set can be computed as 3 clusters. The total of new neurons is 2 The vigilance value is 0.100 The training set is data2 Entropy of clustering data is 0.00000 F-Measure of clustering data is 1.00000 Confusion Matrix is in train_model.mat ,variable namely, confusion

Page 82: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

72

ภาคผนวก ค.

ผลงานวจยทไดรบการตพมพ

1. Worapoj Kreesuradej and Norraseth Chantasut, "A Text Processing Adaptive Resonance Theory Neural Network," Intelligent Engineering Systems Through Artificial Neural Networks: Proceedings of the 2002 Artificial Neural Network In Engineering Conference (ANNIE'02), ASME Press, MO, USA, Vol.12, 2002. pp.625-630,

2. Worapoj Kreesuradej, Warune Kruaklai and Norraseth Chantasut, "Clustering Text Data Using Text ART Neural Network," WSEAS Transactions on Systems, Issue 1, Vol. 3, January, 2004. pp. 200-205,

Page 83: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

73

Page 84: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

74

Page 85: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

75

Page 86: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

76

Page 87: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

77

Page 88: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

78

Page 89: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

79

Page 90: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

80

Page 91: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

81

Page 92: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

82

Page 93: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

83

Page 94: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

84

Page 95: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

85

Page 96: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

86

Page 97: Master Thesis at King Mongkut's Institute of Technology Ladkrababg. Title: Text Adaptive Resonance Theory Neural Network

87

ประวตผเขยน นายนรเศรษฐ จนทสตร เกดวนท 5 เมษายน 2519 ท อาเภอเมอง จงหวดขอนแกน

สาเรจการศกษา มธยมศกษาตอนตนและตอนปลาย (สายวทยฯ-คณตฯ) จากโรงเรยน บดนทรเดชา (สงห สงหเสน) ปการศกษา 2536

สาเรจการศกษา วทยาศาสตรบณฑต (วทยาการคอมพวเตอร) จากสถาบนราชภฏมหาสารคาม ปการศกษา 2542

ปพทธศกราช 2542-2545 เขาทางานตาแหนงเจาหนาทคอมพวเตอร ศนยสารสนเทศ กรมประมง กระทรวงเกษตรและสหกรณ

ปพทธศกราช 2546 เขาทางานตาแหนงผชวยนกวจย งานวจยเทคโนโลยคลงขอมล ฝายวจยและพฒนาสาขาเทคโนโลยคอมพวเตอรเพอการคานวณ (RDC) ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต (NECTEC) สานกงานพฒนาวทยาศาสตรและเทคโนโลยแหงชาต (NSTDA) กระทรวงวทยาศาสตรและเทคโนโลย