nlp, information retrieval and text mining · 2 หัวข้อการบรรยาย...
TRANSCRIPT
การประมวลผลภาษาธรรมชาตเทคนคการสบคนสารสนเทศและทำเหมองขอความ
NLP, Information Retrieval and Text Mining
ดร. ชชาต หฤไชยะศกดChoochart Haruechaiyasak, Ph.D.
หนวยปฎบตการวจยวทยาการมนษยภาษาHuman Language Technology (HLT)
ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต (เนคเทค)National Electronics and Computer Technology Center (NECTEC)
2
หวขอการบรรยาย การประมวลผลภาษาธรรมชาต (Natural Language Processing - NLP)
การประมวลผลภาษาไทย (Thai NLP)
การทำเหมองขอความ (Text Mining)
ระบบวเคราะหเหมองขอความสมนไพรไทย (Thai Herb Miner)
การจดหมวดหมเอกสาร (Text Categorization)
การทำเหมองขอความแสดงความคดเหนและการวเคราะหอารมณ
และความรสก (Opinion Mining and Sentiment Analysis)
ระบบสบคนงานอเวนต (Event Search Engine)
3
การประมวลผลภาษาธรรมชาต
Natural Language Processing
4
ภาษาธรรมชาตคออะไร
Source: http://cnn.com
Source: http://dilbert.com
Source: http://www.buzzle.com/
5
ภาษาธรรมชาตคออะไร
Source: http://truthopia.wordpress.com
Source: http://internetshakespeare.uvic.ca
Source: http://www.blackberrydownload.net
6
ภาษาธรรมชาตคออะไร
Source: http://box424.com Source: http://www.adviceinteractivegroup.com
7
ภาษาธรรมชาตคออะไร
Source: http://amazon.co.uk
Source: http://lilsugar.com
Source: http://choicecentral.blogspot.com
8
Natural Language Processing (NLP)● A field of computer science (AI) and linguistics (Computation
Linguistics) concerned with the interactions between computers and human (natural) languages.
● A very attractive method of human-computer interaction (HCI).● The history of NLP starts in the 1950s. ● In 1950, Alan Turing published his famous article "Computing
Machinery and Intelligence" which proposed the Turing test as a criterion of intelligence.
● Modern NLP algorithms are grounded in machine learning, especially statistical machine learning.
Source: http://en.wikipedia.org/wiki/Natural_language_processing
9
NLP Tasks Lexical and Morphological Analysis (การวเคราะหระดบพยางคและคำ) POS Tagging (การระบหนาทของคำในประโยค) Word Sense Disambiguation (การระบความหมายของคำตามการใชงาน) Named Entities Recognition (NER) (การระบคำทเปนนพจนระบนาม) NP & VP Chunking and Shallow Parsing (การสกดนามวลและกรยาวล) Syntactic Analysis and Deep Parsing (การวเคราะหไวยากรณระดบประโยค) Sentiment Analysis (การวเคราะหความคดเหนและอารมณของขอความ) Reference Resolution (การวเคราะหสรรพนามอางอง) Discourse Analysis (การวเคราะหระดบบทความและบทสนทนา)
10
NLP Applications Text summarization (การสรปใจความสำคญ) Machine translation (MT) (การแปลภาษา) Information retrieval (IR) (การคนคนสารสนเทศ) Question answering (QA) (การถามตอบ) Automatic speech recognition (ASR) (การจดจำเสยงพดอตโนมต) Text-to-speech (TTS) (การแปลงขอความใหเปนเสยงพด) Optical character recognition (OCR) (การจดจำตวอกขระ) Text mining (การทำเหมองขอความ) ...
11
การประมวลผลภาษาไทย
Thai Natural Language Processing
12
การตดคำสำหรบขอความภาษาไทย (Thai Word Segmentation)
การตดคำเปนพนฐานทสำคญอยางยงในการวเคราะหและประมวลผลภาษา รวมทงการพฒนาระบบทเกยวของตางๆ เชน
- การกำหนดหนาทของคำ (Part-Of-Speech Tagging)- การแปลภาษาโดยเครอง (Machine Translation) - การจดจำและสงเคราะหเสยงพด (Speech Recognition/Synthesis) - การคนคนสารสนเทศและเสรชเอนจน (Information Retrieval & Search Engine)- การกรองสารสนเทศ (Information Filtering) - การทำเหมองขอความ (Text Mining)- การสรางฐานความรและโครงสรางความรเชงความหมาย (Knowledge Base and Ontology)
13
• ในการประมวลผลภาษาธรรมชาต ภาษาไทยถกจดอยในประเภทของภาษาทไมตดคำ (Unsegmented language)● ไมมการใชตวอกขระใดๆในการบงบอกขอบเขตของคำอยางชดเจน● ตองอาศยเทคนคการตดคำในการบอกขอบเขตของคำ ซงมขอ
จำกดคอ● ขนอยกบภาษานนๆ: พจนานกรมและกฎไวยากรณของภาษา● ยงไมมเทคนคทใหความถกตองได 100% ซงเกดจาก 2 ปญหา
หลกคอ คำไมรจก และ คำกำกวม
คณลกษณะของภาษาไทย
14
ปญหาทอาจจะเกดขนไดในระหวางการตดคำ คอ
(1) ความกำกวม (Ambiguity)
(1.1) Context-dependent: มากวา, ปกวา, ตากลม
(1.2) Context-independent: มากลน, การสอบ
(2) คำไมรจก (Unknown words)
(2.1) Explicit: โลตส, ไมโครซอฟท, ฮอนดา, เชสเตอร
(2.2) Hidden: สมชาย, การบนไทย, แมสาย
(2.3) Mixed: สนาม, นาซา, ดแทค
ปญหาและอปสรรคในการตดคำ
15
ตวอยางการตดคำ
ลน|รบ|ตวหนง|ฟร|ทก|เดอน|และ|ทกครงท|ชม|ภาพยนตร| |ได|สทธ|ลน|
รบ|บอป|คอ|รน| |คปอง|เลน|โบ|วลง| |สวนลด|บรการ|คาราโอเกะ|และ|
บรการ|อพ|เกรด|ทนง|เปน|ชน|เฟรสค|ลา|ส|
unknown | known | ambiguous | English/Digits | special
16
ตวอยางการตดคำ
17
เทคนคทใชในการตดคำ
เทคนคทประยกตใชสามารถแบงออกเปน 3 วธหลก ไดแก
(1) การใชกฎไวยากรณทางภาษา (Rule-based)
(2) การอางองคำจากพจนานกรม (Dictionary-based)
(3) การสรางโมเดลเรยนรจากฐานขอความขนาดใหญ
(Machine Learning or Corpus based)
18
Comparison
19
Demo: http://sansarn.com/lexto/
20
Demo: http://sansarn.com/lexto/
21
Demo: http://www.sansarn.com/tlex/
22
การจดจำนพจนระบนามจากขอความภาษาไทย
Thai Named Entities Recognition
23
การจดจำนพจนระบนามคอการคนหาและสกดคำทเปนนพจนระบนาม (Named Entities) จากขอความ
โดยทวไปนพจนระบนามสามารถแบงออกไดเปน 5 หมวดหมหลก ไดแก
- ชอบคคล เชน “อภสทธ เวชชาชวะ” “ไทเกอร วดส”
- ชอองคกร เชน “ธนาคารกรงไทย” “ศนยขอมลคนหาย”
- ชอสถานท เชน “เชยงใหม” “สยามเซนเตอร”
- วนและเวลา เชน “13:00 น.” “เทยงคน”
- ปรมาณและจำนวน เชน “10 ตว” “1 ใบ” “หนงรอยบาท” “100 ดอลลาร”
24
ตวอยางการจดจำนพจนระบนาม
นท คงสข ผสอขาวกราวกฬาไทยรฐ รายงานจากกรงโตเกยว ประเทศญปน
ถงความเคลอนไหวของขนพลนกเตะทมชาตไทยชดใหญ ทมโปรแกรมจะลง
ฟาดแขงศกฟตบอลโลก 2010 รอบคดเลอก โซนเอเชย รอบ 3 กบทมชาต
ญปน ในเยนวนน (6 ก.พ.) ทสงเวยนไซตามะ เวลดคพ สเตเดยม เมองไซตา
มะ ตามเวลาทองถน 19.20 น. ซงตรงกบเวลาของประเทศไทย 17.20 น.
โดยชอง 7 สทวเพอคณ จะถายทอดสดใหแฟนๆ ชมกนทวประเทศ
25
ตวอยางการจดจำนพจนระบนาม
นท คงสข ผสอขาวกราวกฬาไทยรฐ รายงานจากกรงโตเกยว ประเทศญปน
ถงความเคลอนไหวของขนพลนกเตะทมชาตไทยชดใหญ ทมโปรแกรมจะลง
ฟาดแขงศกฟตบอลโลก 2010 รอบคดเลอก โซนเอเชย รอบ 3 กบทมชาต
ญปน ในเยนวนน (6 ก.พ.) ทสงเวยนไซตามะ เวลดคพ สเตเดยม เมองไซตา
มะ ตามเวลาทองถน 19.20 น. ซงตรงกบเวลาของประเทศไทย 17.20 น.
โดยชอง 7 สทวเพอคณ จะถายทอดสดใหแฟนๆ ชมกนทวประเทศ
26
ประโยชนของการสกดนพจนระบนาม
- ใชวเคราะหขอความและประโยคในระดบทสงขนได
เชน การหานามวล (Noun Phrase) และกรยาวล (Verb Phrase)
- เปนพนฐานทสำคญในการพฒนาระบบสารสนเทศอนๆ เชน
- ระบบเปรยบเทยบราคาสนคาบนอนเตอรเนต (Shop Bots)
- ระบบถามตอบ (Question & Answering System)
27
ตวอยางการประยกตใชงาน● Question & Answering IR: www.ask.com
28
Online Help Desk System
29
การทำเหมองขอความ
Text Mining
30
การทำเหมองขอมล (Data Mining)● Data mining is a process of extracting nontrivial, implicit,
previously unknown, and potentially useful information from data.– Basic idea is to build computer programs that sift through
databases automatically, seeking regularities or patterns.– Strong patterns will likely generalize to make accurate
predictions on future data.
● Data is characterized as recorded facts● Information is the set of patterns, or expectations, that underlie the
data.
31
DIKW framework
Source: Gene Bellinger (2004) Systems Thinking, Knowledge Management - Emerging Perspectives.
32
การทำเหมองขอมล (Data Mining)
Source: U. Fayyad, G. P.-Shapiro, and P. Smyth, “Knowledge Discovery and Data Mining: Towards a Unifying Framework”
“Sifting through vast collections of unstructured or semistructured data beyond the reach of data mining tools, text mining tracks information sources, links isolated concepts in distant documents, maps relationships between activities, and helps answer questions.”
Tapping the Power of Text Mining
Communications of the ACM, Sept. 2006
Text Mining is about ...
37
การสบคนตางกบการคนพบอยางไร
42
การทำเหมองขอมล (Data Mining)
43
การทำเหมองขอความ (Text Mining)
Humans: Ability to distinguish and apply linguistic patterns to text
– Could overcome language difficulties such as slangs, spelling variations, contextual meaning.
Computers: Ability to process text in large volumes at high speed
– Could sift through a large collection of texts to find simple statistics and relationship among terms in an instant of time.
Text mining requires a combination of both
Human's linguistic capability + computer's speed and accuracy
NLP Data Mining
Humans VS. Computers
NLP Lexical/Morphological Analysis
Tagging / Chunking
Named Entities Recognition (NER)
Syntactic Analysis (Shallow parsing)
Word Sense Disambiguation
Semantic Analysis
Reference Resolution
Discourse Analysis
NLP + Data Mining Tasks
Text Mining Tasks
Data Mining
Classification (supervised learning)
Clustering (unsupervised learning)
Association Rule Mining
Sequential Pattern Analysis
Regression Analysis
Dependency Modeling
Change and Deviation Detection
Information extraction: – Analyze unstructured text and identify key phrases and relationships
within text.
Topic detection and tracking:– Filter and present only documents relevant to the user profile.
Summarization:– Text summarization reduces the content by retaining only its main
points and overall meaning.
Categorization:– Automatic classify documents into predefined categories
Clustering:– Group similar documents based on their similarity
Text Mining Tasks
Concept Linkage– Connect related documents by identifying their shared concepts,
helping users find information they perhaps wouldn't have found through traditional search methods
Information Visualization– Represent documents or information in graphical formats for easily
browsing, viewing, or searching.
Question and answering (Q&A)– Search and extract the best answer to a given question
Text Mining Tasks (cont'd)
65
● การคนหาผเชยวชาญในประเทศไทยยงมปญหาเนองจากฐานขอมลของผเชยวชาญมอยกระจดกระจายและอาจจะไมมการระบสาขาทเชยวชาญไว
● ระบบคนหาผเชยวชาญจะนำเทคนคทาง NLP, Text & Data mining และInformation Visualization มาทำชวยแกปญหาน
● หลกการคอนำเอาตวอยางบทความตพมพของผเชยวชาญมาวเคราะหทางเนอหา (Content Analysis) และการอางอง (Citation Analysis) เพอทำการระบความเชยวชาญตามโดเมน (Classification) และเพอจดกลมผเชยวชาญอยางอตโนมต (Clustering)
ระบบคนหาผเชยวชาญ (Expert Finder)
66
เทคนคจนตทศน: เครอขายนกวจย
ความสมพนธ 2 รปแบบ ไดแก (1) เชงสงคม (Social) และ (2) เชงหวขอ (Topical)
The social relationship, co-authoring(A,B), can be calculated based on the co-occurrence between A and B
The topical relationship, topical(A,B), is based onthe similarity measure between keywords(A) and keywords(B)
67http://www.thairesearch.in.th/exf/
68
6 6
70
71
78
ระบบวเคราะหเหมองขอมลสมนไพรไทยThai Herb Miner
URL: http://thairesearch.in.th/DtamHerb/
Query suggestion
Spelling Correction
URL: http://sansarn.com/thminer/
90
การจดหมวดหมเอกสารText Categorization
91
Text categorization (or text classification) is the task of assigning predefined categories to free-text documents.
Text categorization
92
Assign labels to each document or web-page: Labels are most often topics such as Web directory
e.g., “finance” "sports” “news>world>asia>business”
Labels may be genres
e.g., “editorials” “movie-reviews” “news”
Labels may be opinion
e.g., “like” “hate” “neutral”
Labels may be domain-specific binary
e.g., “interesting-to-me” : “not-interesting-to-me”
e.g., “spam” : “not-spam”
e.g., “contains adult language” : “doesn’t”
Text categorization Applications
Implementing News Article Category Browsing
Based on Text Categorization Technique
Choochart Haruechaiyasak1 Wittawat Jitkrittum2 Chatchawal Sangkeettrakarn1 Chaianun Damrongrat1
The 2008 IEEE/WIC/ACM International Conference on Web Intelligence (WI-08) workshop on Intelligent Web Interaction (IWI 2008)
94
Search engine: limitation
95
Search engine: improvement
96
Some problems with search engine: Queries with general terms could result in a long list of articles. Some queries might match articles from various topics.
Categorizing news articles into predefined categories provides
(1) Browsing news articles based on categories
(2) Search result grouping
Using existing text categorization techniques: Text processing Feature selection techniques Classification algorithms
News article categorization
97
News article categorization
Apply word segmentation for tokenizing Thai texts
Feature selection to improve the classification model: [Yang and Pedersen 1997]- Document Frequency (DF)- Information Gain (IG)- Chi-Squared (CHI)
Classification algorithms:- C4.5 (decision tree) [Quinlan 1986]- Naive Bayes [Lewis 1998]- SVM [Joachims 1998]
98
Evaluation on a corpus of 9,600 news articles collected from Thai news web site predefined into 8 categories:
Experiments and discussion
99
Evaluation results:
Note: Results are based on 10-fold cross validation
Using WEKA to perform the experiments
The number of terms from the feature selection is set equal to 2,000.
Experiments and discussion
100
การทำเหมองขอความแสดงความคดเหนและการวเคราะหอารมณและความรสก
Opinion Mining and Sentiment Analysis
101
ขอมลทวไปและขอความแสดงความคดเหน (Facts and opinions)
ขอมลบนเวบสามารถแบงเปน 2 ประเภท ไดแก
(1) ขอมลทวไป (Facts) เชน• ขอมลเกยวกบองคกรและบรษท
• ขอมลเกยวกบสนคาและบรการ
• รายงานขาว
(2) ขอความแสดงความคดเหน (Opinions) เชน• กระทในเวบบอรดตางๆ (Web board)
• บลอก (Blogs)
• ขอความวจารณทวไป (Reviews and comments)
102
การคนหาขอมลโดยใชเสรชเอนจน
● เสรชเอนจนในปจจบนสามารถสบคนขอมลทวไป (Facts) ไดด
เนองจากสามารถระบดวยคำสำคญ (Keywords) ทตรงกบหวขอได
เชน การสบคนหาขอมลทวไปของสนคาและบรการ
● แตเสรชเอนจนไมเหมาะกบการสบคนขอความแสดงความคดเหน
(Opinions) เนองจากความยากในการระบคำสำคญ
เชน การสบคนหาความคดเหนตอสนคาและบรการ
103
ตวอยางการสบคนขอมลทวไป
104
ตวอยางการสบคนขอมลทวไป
105
106
ตวอยางการสบคนขอความแสดงความคดเหน
107
108
ตวอยางการสบคนขอมลทวไป
109
ตวอยางการสบคนขอมลแสดงความคดเหน
110
ขอจำกดของเสรชเอนจนในการสบคนความคดเหน
การสบคนขอมลทวไป (Facts)
One fact = Multiple facts
การสบคนขอความแสดงความคดเหน (Opinions)
One opinion != Multiple opinions
111
Opinion mining and sentiment analysis
http://en.wikipedia.org/wiki/Sentiment_analysis
Sentiment analysis or opinion mining refers to a broad (definitionally challenged) area of natural language processing, computational linguistics and text mining. Generally speaking, it aims to determine the attitude of a speaker or a writer with respect to some topic.
112
Opinion Mining for Market Intelligence
● เปนรปแบบใหมสำหรบชวยในการบรหารจดการลกคาสมพนธ (CRM: Customer Relationship Management)
● โดยประเมนความพงพอใจของลกคา (Customer Satisfaction) ตอสนคาและการใหบรการของบรษทจากบลอก (Blog) กระท แสดงความคดเหน (Web Board)
● ขอความเหลานมกจะถายทอดถงอารมณและความรสกของลกคา อกดวย ในการตลาดมกจะเรยกขอมลประเภทนวาเปนขอมลเชง จตวทยา (Psychological Data)
● สามารถนำไปใชในการปรบปรงสนคาและบรการใหตรงใจลกคา
113
With the Web 2.0 or social networking websites, the amount of user-generated contents has increased exponentially.
User-generated contents often contain opinions and/or sentiments.
An in-depth analysis of these opinionated texts could reveal potentially useful information, e.g.,
Preferences of people towards many different topics including news events, social issues and commercial products.
Background and motivation
114
Opinion mining and sentiment analysis is a task for analyzing and summarizing what people think about a certain topic.
Opinion mining has gained a lot of interest in text mining and NLP communities.
Three granularities of opinion mining: Document level [Turney, 2002; Pang et al., 2002; Dave et al., 2003;
Beineke et al., 2004]
Sentence level [Kim and Hovy, 2004; Wiebe and Riloff, 2005; Wilson et al., 2009; Yu and Hatzivassiloglou, 2003]
Feature level [Hu and Liu, 2004; Popescu and Etzioni, 2005]
Background and motivation (cont'd)
115
We focus on the feature level or feature-based opinion mining. This approach typically consists of two following steps.
(1) Identifying and extracting features of an object, topic or event from each sentence.
(2) Determining whether the opinions regarding the features are positive or negative.
Background and motivation (cont'd)
116
The feature-based opinion mining could provide users with some insightful information related to opinions on a particular topic.
For example, on hotel reviews, users can view positive or negative opinions on hotel-related features such as price, service, breakfast, room, facilities and activities.
Breaking down opinions into feature level is very essential for decision making.
Different customers could have different preferences when selecting hotels to stay for vacation.
Background and motivation (cont'd)
117
Opinion Mining System
118
รปแบบขอความแสดงความคดเหน
119
Opinion Mining: A Case Study on Hotel Reviews
● วเคราะหความคดเหนของลกคาทไดไปพกโรงแรม
Website: www.agoda.com
120
Opinion Mining: A Case Study on Hotel Reviews
● วเคราะหความคดเหนของลกคาทไดไปพกโรงแรม
121
Opinion Mining: A Case Study on Hotel Reviews● ระบบกำกบคลงขอความ (Corpus tagging)
122
Opinion Mining: A Case Study on Hotel Reviews
● ตวอยาง pattern ในหวขอ service
123
Opinion Mining: A Case Study on Hotel Reviews
Domain-dependent
lexicons
124
Opinion Mining: A Case Study on Hotel Reviews
Domain-independent
lexicons
125
Opinion mining system
Demo URL: http://www.sansarn.com/HotelOpinion/
126
Opinion mining system
127
Opinion mining system
128
Opinion Mining: A Case Study on Hotel Reviews
Difficult cases for “service” feature
129
Opinion Mining: A Case Study on Hotel Reviews
Difficult cases for “breakfast” feature
130
Opinion mining system: Mobile Service
131
132
133
ระบบสบคนงานอเวนต
Event Search Engine
arjin | 31221015@N08 | pinkmoose
Sample
นกการเมอง- ลงพนทพบประชาชน
- ลงพนทหาเสยง
- ประชมรบฟงความคดเหนชาวบาน
- ปราศรยหาเสยง
- สมมนาการเมองไทยกบประชาชน
ดารา-นกรอง- แสดงคอนเสรต
- รวมงานเปดตวสนคา
- นดพบแฟนคลบ
- พธการงานสวนและบาน
- ถายละคร
สนคา - บรการ- เปดตวสนคาใหม
- จดโปรโมชนพเศษตอนรบเปดเทอม
- เขารวมแสดงสนคา
- ประชมผถอหน
- ลด 80% สำหรบผถอบตรเครดต...
Using Google to search for events
Using eventpro to search for events
Vertcal search engine
● Focus on a specifc segment of online content.
● Index only Web pages that are relevant to a topic
● Creatng customized search experiences
● Benefts:- Greater precision due to limited scope- Leverage domain knowledge- Support specifc unique user tasks
Intelligent search features
การแนะนำคำคนคนทใกลเคยง (Query Approximaton)
การสบคนแบบพองเสยง (Soundex Search)
Intelligent search features
การสบคนโดยใชคำพองความหมาย (Synonym Search)
อมแพค
impact
เมองทองธาน
เมองทอง
ชาเลนเจอร
อมแพค อารนา
Intelligent search features
การสบคนโดยใชภาษาธรรมชาต (Natural Language Search)
• พรงนทจฬา
• วนนทจฬามงานอะไร
• เสารอาทตยนมงานอะไร
Intelligent search features
การจดอนดบผลลพธการสบคน (Search Result Ranking)โดย Time-based ranking
Intelligent search features
Visualizaton: แสดงแบบ Timeline
Intelligent search features : Visualizaton
Visualizaton: แสดงแบบ Map
www.eventpro.in.th
147
ตวอยางงานประชมวชาการทเกยวของ
JCDL: ACM Conference on Digital Libraries● ICADL: International Conference of Asian Digital Libraries SIGIR: ACM International Conference on Research and
Development in IR VLDB: International Conference on Very Large Databases WWW: International World Wide Web Conference CIKM: ACM International Conference on Information and
Knowledge Management WSDM: ACM International Conference on Web Search and Data
Mining COLING: International Conference on Computational Liguistics ACL: Annual Meeting of the Association for Computational
Linguistics
148
References Choochart Haruechaiyasak, Alisa Kongthon, Pornpimon Palingoon, Chatchawal Sangkeettrakarn, “Constructing
Thai Opinion Mining Resource: A Case Study on Hotel Reviews”, ALR 2010 in COLING 2010. Chanattha Thongsuk, Choochart Haruechaiyasak, Phayung Meesad, “Classifying Business Types from Twitter
Posts Using Active Learning”, IICS 2010. Wongkot Sriurai, Phayung Meesad, Choochart Haruechaiyasak, “Improving Web Page Classification by
Integrating Neighboring Pages via a Topic Model”, IICS 2010. Choochart Haruechaiyasak, et. al., “A Comparative Study on Thai Word Segmentation Approaches”, ECTI-CON
2008. Choochart Haruechaiyasak et al., “Implementing News Article Category Browsing Based on Text Categorization
Technique”, The 2008 IEEE/WIC/ACM International Conference on Web Intelligence (WI-08) workshop on Intelligent Web Interaction (IWI 2008)
Choochart Haruechaiyasak, Sarawoot Kongyoung and Chaianun Damrongrat, “LearnLexTo: A Machine-Learning Based Word Segmentation for Indexing Thai Texts”, CIKM 20008 workshop on Improving Non-English Web Search (iNews), 2008.
Rachada Kongkachandra, Choochart Haruechaiyasak, Sayan Tepdang, “Improving Thai Word Segmentation With Named Entity Recognition”, ISCIT 2010.
Choochart Haruechaiyasak and Sarawoot Kongyoung, “TLex: Thai Lexeme Analyser Based on the Conditional Random Fields", InterBEST 2009 workshop in SNLP 2009.
149
Thank you for your attentionThank you for your attention
ดร. ชชาต หฤไชยะศกด
ทมวจยและพฒนาโครงสรางพนฐานสารสนเทศอจฉรยะหนวยปฎบตการวจยวทยาการมนษยภาษา (HLT Lab)ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต (เนคเทค)112 อทยานวทยาศาสตรประเทศไทย ถ.พหลโยธน อ.คลองหลวง จ.ปทมธาน 12120
Email: [email protected]