ก...
Post on 06-Aug-2020
2 Views
Preview:
TRANSCRIPT
ก ำหนดวธคลสเตอรรง
วธการคลสเตอรรงทอยบนรากฐาน ของวธวดความคลายคลงกน
ระหวาง Object ทจะถกแบงกลม
ตวอยาง
D2 =(0.2,0.7)
threshold
กราฟทไดนนจะสอดคลองกบคาความคลายคลงทก าหนด เราเรยกวา threshold จะท าใหออปเจกต 2 ออปเจกตทมคาความคลายคลงกนมคาเทากนหรอมากกวาถกเชอมโยงเปนโหนด 2 โหนดในกราฟทมการเชอมโยงกน
Graph Theoretic Method
แสดงสมประสทธของความคลายคลงกนของ 6 ออปเจกตทสามารถใชดงออปเจกตทมความคลายคลงกนได
Single Link
เปนวธการคลสเตอรรงทท าใหเกด Hierarchic Cluster ซงใชการ
ค านวณคาความสมพนธของ Objects อลกอรทมนอยบนพนฐานของสมประสทธความไมคลายคลงกนของขอมลน าเขา (dissimilarity coefficient)
ผลลพธทไดเปนล าดบขน ของระดบตวเลขทมสวนรวมกน เรยกวา dendrogram ในลกษณะโครงสรางตนไม
(tree structure) ซงแตละโหนดแทนหนงคลสเตอร
Single Link
รปแสดงถง single-link clusters ทดงจากสมประสทธความไมคลายคลงกนจากการก าหนด thresholding
Minimum Spanning Tree หรอ MST
ตนไมทไดจากสมประสทธความไมคลายคลงกนเหมอนกบ Single-link tree
ความแตกตางทเหนไดชดเจนคอ โหนดของ Single-linked
tree นน จะแทนคลสเตอร แต Minimum Spanning
Tree นนจะแทนออปเจกตแตละตวทถกรวมกลม
Minimum Spanning Tree หรอ MST
คอตนไมทมความยาวในการเชอมโยงแตละออปเจกตทมคานอยทสด ซงความยาวนอาจเปนน าหนกของการเชอมโยงในตนไมนน
เราจะสามารถดง single-link hierarchy จากการประมวลผลของ thresholding กตามแตเราไมสามารถยอนกลบได ซง MST จะมประโยชนมากกวาในการเชอมโยงเพราะเปนอสระในการท างาน
Minimum Spanning Tree หรอ MST
A B
C D
E
800
1421 400
200
410
612
2915310
A B
C D
E
200
410
612
310
ตวอยาง
ชดเอกสารประกอบดวยเอกสาร D1, D2, D3 เอกสารแตละฉบบผานการตดค า (word segmentation) และดงค าหยดออกไป ดงนนเหลอค าส าคญดงน
ตวอยาง
จากนนหาความถของค าทไมซ ากนในเอกสารแตละฉบบ
ตวอยาง
ค านวณน าหนกของแตละเอกสาร
)/log(* kikik nNtfw
log
Tcontain that in documents ofnumber the
collection in the documents ofnumber total
in T termoffrequency document inverse
document in T termoffrequency
document in term
nNidf
Cn
CN
Cidf
Dtf
DkT
kk
kk
kk
ikik
ik
ตวอยาง
เวกเตอรเอกสารทงหมดแทนดวยเมตรกซ โดยแถวของเมตรกซคอเอกสารทงหมด และสดมภคอค าทไมซ ากนทงหมดในชดเอกสาร
เมตรกซเอกสารค า ใชเปน input ในขนตอนการจ ากลมเอกสารและ น าไปหาคาความคลายคลงของเอกสารคหนงๆได
ค านวณหาความคลายคลงกน
วธกำรคลสเตอรรง
จากค าอธบาย(Descriptions) ของ Object โดยตรง
cluster representative
ซงเราเรยกวา cluster profile หรอ classification
vector หรอ centroid ไมมการวดความคลายคลงกน แตเกบโครงสรางทเหมาะสมโดยจ ากด
จ านวนของคลสเตอรและขนาดของแตละคลสเตอร สรปจากหลกเกณฑบางอยางเพอเปนตวแทนของออปเจกตในกลมซง
ตวแทนนจะมความใกลเคยงกบทกๆออปเจกตในคลสเตอรโดยเฉลยตามความรสก
วธการคลสเตอรรงทกระท าไดจากค าอธบาย(Descriptions) ของ Object
ใช matching function บางครงเรยกวา similarity หรอ correlation function
อลกอรทมนจะใชพารามเตอรจากการสงเกต (empirically) อนไดแก • จ านวนของคลสเตอรทตองการ • ขนาดต าสดและขนาดสงสดของแตละคลสเตอร • คาของ threshold บน matching function ซงออปเจกตทมคาต ากวา
threshold ทก าหนดจะไมถกรวมในคลสเตอรน • การควบคมการซอนทบ(Overlap)ระหวางคลสเตอร . • พารามเตอรทเลอกอยางไมมกฎเกณฑจะถกปรบใหอยในระดบทใหผลทดทสด
การท างานของอลกอรทมนจะกระท าซ าๆ เพอใหไดผลลพธทเหมาะสมทสด
Rocchio
วธของรอคชโอจะสรางตวแยกเอกสาร โดยคดน าหนกของเทอม
<w1,..wn> กบกลม ci ดวยสตรการค านวณ
อลกอรทมของ Rocchio’s clustering
ระยะแรก เปนระยะทท าการเลอก ออปเจกตจ านวนหนงเปนศนยกลางของคลสเตอร ส าหรบออปเจกตทเหลอก าหนดใหเปนกลม rag-bag
กฎทก าหนดขนในเทอมของ thresholds บน matching
function คลสเตอรสดทายอาจจะมการซอนทบกน(overlap)
ระยะทสอง เปนการกระท าขนตอนซ าๆเพอทจะหาพารามเตอรน าเขา อาจเปน ขนาดของคลสเตอร
ระยะทสาม เปนเปนการพจารณา ออปเจกทเหลอทไมไดถกก าหนด และม
การขจดออปเจกตทมการซอนทบกนระหวางคลสเตอร ใหนอยลง
Rocchio’s clustering
Rocchio
Single-Pass algorithm
ค าอธบายออปเจกตถกด าเนนการเปนล าดบ ออปเจกตตวแรกจะถกก าหนดใหเปนตวแทนคลสเตอรของคลสเตอรแรก ออปเจกตหลงจากนนจะถกจบคกบตวแทนคลสเตอรทงหมด ถาออปเจกตมการซอนทบกน จะมการก าหนดใหออปเจกตมคาตามเงอนไขบน
matching function เมอออปเจกตใดถกก าหนดเปนตวแทนของคลสเตอร จะมการค านวณใหม ถาออปเจกตใดพลาดจากการทดสอบ(test) จะน ากลบไปเปนตวแทนคลสเตอร
ส าหรบคลสเตอรใหม ซงการกระท าซ าๆน การจดกลมสดทายจะขนกบพารามเตอรขอมลเขาทเกดจาก
การก าหนดจากการสงเกตของความแตกตางของเซตออปเจกต
Single-Pass algorithm
K-means
ขนตอนวธการจดกลมโดยวธแบงกน(Partitioning) ระเบยนขอมลถกแบงกนเปนกลมทไมมสมาชกรวมกนเลย โดยใชการกนระหวางกลมดวยระยะทาง
K-means
ก าหนดใหขอมล n ระเบยน แบงเปน K กลมทไมมสมาชกรวมกน วธการเกาะกลมโดยใชวธแบงกนมขนตอนดงน • แบงกลมขอมลเปน k กลมทไมใชเซตวาง • ค านวณจดกงกลาง(centroid) ของกลม โดยใชคาเฉลยเลขคณต
(mean) • ส าหรบแตละระเบยน น าระเบยนเทยบกบจดกงกลาง เพอก าหนดกลมใหกบ
ระเบยน โดยเลอกระยะจากระเบยนไปจดกงกลางทใกลทสด • วนซ าจนกระทงไมมการเปลยนกลมของระเบยน หรอครบจ านวนรอบสงสดท
ก าหนดไว
ตวอยาง การท างานของขนตอนวธ k-mean
ตวอยาง การท างานของขนตอนวธ k-mean
K-means clustering1 K-means clustering2
K-means clustering3
k-mean
ขอด ประสทธภาพมคาเทากบ O(tkn) เมอ n คอจ านวนขอมล k คอจ านวนกลม t คอจ านวนรอบทตองวนซ า โดยปกตแลวคา k และ t จะนอยกวา n
ผลลพธทไดเปนผลเฉลยเฉพาะท(local optimal) ถาตองการผลเฉลยทใหคาทดทสด(global optimal) จ าเปนตองใชวธอนชวย
ขอเสย 1.ใชไดเฉพาะลกษณะประจ าทเปนจ านวน เพราะตองใชคาเฉลย 2. ตองมการก าหนดคา k กอนเรมขนตอนวธ 3. ถาขอมลผดปกตจะท าใหคาเฉลยมคาทมาก
หรอนอยเกนไป 4. ไมเหมาะกบขอมลทมลกษณะกลมทไมใช
เซตนน(non-convex shapes)
PAM (Partitioning Around Medoids,1987)
เลอกขอมล k ตวใชเปนตวแทนขอมลอยางสม ส าหรบแตละคของขอมล h ทไมใช medoid กบ iทเปน
medoid ค านวณคาการสลบ TCih • ถา TCih<0 ใหแทน iดวย h กลาวคอมการเปลยนตวแทน
ท าซ าจนกระทงไมมการเปลยนกลมของ medoid อก
Fuzzy C-means(FCM)
เปนอลกอรทมทยอมใหขอมลในแตละคลสเตอรมการซอนทบกนหรอซ ากนได
วธการนเปนการจดกลมทมใชอยางแพรหลายในงานดานตางๆเชนการแพทย วทยาศาสตร วศวกรรมศาสตร
โดยอาศยการใหคาการเปนสมาชกของขอมลตอกลมขอมลตางๆ การไดมาซงคาการเปนสมาชกสวนหนงมาจากการวดระยะทางระหวางขอมลและจดศนยกลางของกลมเหลานน
Fuzzy C-means(FCM)
ขนตอนการท างานของฟซซซมน(fuzzy C-Means) ประกอบดวย ก าหนดกลมขอมลทตองการจดกลม เพอก าหนดคาเพอเปนเงอนไขในการให
ขอมลหยดการจดกลม() ก าหนดคาฟซซพารามเตอร (m) ซงตองมากกวาหนง และก าหนดจดศนยกลางเรมตนของขอมล
ค านวณคาการเปนสมาชกของขอมลตอกลมขอมลตางๆ ค านวณจดศนยกลางกลมขอมลใหมและตรวจสอบเงอนไขโดยตรวจสอบคาการ
เปนสมาชกใหมลบคาการเปนสมาชกกอนหนา ถาเงอนไขเปนจรงค านวณคาการเปนสมาชกและ objective function
ถาเงอนไขเปนเทจ ค านวณคาการเปนสมาชกจากจดศนยกลางลาสด(วนรอบ)
Fuzzy C-means(FCM)
วธการวดระยะทาง
Euclidean distance
EDji =
โดย EDji แทนระยะทางแบบยคลเดยนระหวางขอมล
X ท j และจดศนยกลางขอมล Z กลมท i และ T แทน Transpose matrix
Mahalanobis distance
MDji = โดย MDji แทนระยะทางแบบมหาลาโนบส ระหวางขอมล X ตวท j และจดศนยกลาง
ขอมล Z กลมท i A คอ variance-covariance matrix
ค านวณจากสมการดงน
A =
T
ijij ZXZX ))(( T
ijij ZXAZX )()( 1
1
)()(1
n
ZXZXn
j
ij
T
ij
Hierarchical Clustering
Clustering เปนการเกาะกลมโดยระดบชน ซงระเบยนขอมลถกรวมกลมโดยการใชระดบชน (Hierarchical
decomposition) มการใช distance matrix เปนเงอนไขในการเกาะกลม
Hierarchical Clustering
Hierarchical Clustering
AGNES(Agglomerative) น าเสนอโดย Kaufmann และ Rousseeuw(1990) ใชวธการ Single-link และเมตรกซแสดงความตางของขอมล มการรวมจดทมความตางนอยทสดเขาดวยกน มการท าซ าโดยท าการรวมซงไมมการแยกออกจนกระทงสอดคลองเงอนไขการหยด ในกรณทเราท าไปไมหยดจะไดวาทกขอมลจะรวมอยกลมเดยวกน
Hierarchical Clustering
DIANA(Divisive Analysis) น าเสนอโดย Kaufmann และ Rousseeuw(1990) ใชวธ Single-Link และเมตรกซแสดงความตางของขอมล เรมจากจดขอมลทกตวใหอยในกลมเดยวกน ท าซ า โดยแบงกลมใหญออกเปนกลมยอย หยดถาเงอนไขสอดคลองการหยด ถาไมมการตรวจสอบการหยด ขอมลแตละตวจะถกจดในกลมทตางกนหมด
ขนตอนพนฐานของ Hierarchical algorithm
ก าหนดภายใน 1 เซตประกอบดวย N คลสเตอร และเมตรกซของความแตกตางมขนาด N*N ขนตอนท 1 เรมตนโดยการก าหนดแตละ item ให cluster ดงนนถาเราม N ไอเทม ตองม cluster จ านวน N คลสเตอรเหมอนกน เพอทจะบรรจ item ไดพอด อนญาตให ความแตกตางระหวางคลสเตอรเหมอนกบความแตกตางระหวางคลสเตอรทบรรจ item ขนตอนท 2 เมอพบ คลสเตอร 2 คลสเตอรทมความใกลเคยงกน ใหท าการรวมทงสองคลสเตอรเขา
ดวยกน ดงนนเราจะไดคลสเตอรเพยงคลสเตอรเดยว ขนตอนท 3 ค านวณความแตกตางระหวางคลสเตอรใหมและคลสเตอรเกาของแตละคลสเตอร ขนตอนท 4 ท าซ าขนตอนท 2 และ 3 จนกวาคลสเตอรทงหมด จะกลายเปนเพยงคลสเตอรเดยว
integrated circuit using
hierarchical algorithm
Single-Linkage Clustering
น าเมตรกทมความใกลเคยงกนมาแยกแถวและคอลมภออกจะเหนเปนคลสเตอรเดมกอนทจะน ามารวมกนเปนคลสเตอรใหม
เมตรกซ N*N ทมลกษณะทใกลเคยงกนคอ D =[d(i,j)] ซงภายในคลสเตอรนจะก าหนดล าดบของตวเลขเปน
0,1,2,…,(n-1) และ L(k) เปน level ของ k
clustering m จะแสดงถงตวเลขทตอเนองกนและความใกลเคยงกนระหวาง cluster (r) และ (s)
Single-Linkage Clustering
ขนตอนท 1 เรมตนดวยการแยกคลสเตอรทม level L(0) =0 และเลขทอยในล าดบท m=0
ขนตอนท 2 หาคล าดบของคลสเตอรทมความแตกตางกนนอยทสด โดยทคล าดบจะขนอยกบ d[(r )(s)] = min d[(i )(j)] โดยทจะตองเปนคาทนอยทสดของคล าดบทงหมดของทกๆคลสเตอรทอยในนน
ขนตอนท 3 เพมเลขล าดบจาก m = m+1 และท าการรวมคลสเตอร (r ) และ (s) ใหเปนคลสเตอรเดยวกน เปนคลสเตอร m ใหม ก าหนด level ของคลสเตอรเปน L(m) = d[(r )(s)]
ขนตอนท 4 แกไข proximity เมตรกซ D โดยตดแถวและคอลมภทตรงกนของคลสเตอร (r ) และ (s) ออกและท าการเพมแถวและคอลมภทตรงกนนไปยงคลสเตอรใหม ความใกลเคยงกนระหวางคลสเตอรใหม denoted(r,s) และคลสเตอร (k) เกาสามารถนยามไดใหมดงน d[(k )(r,s)] = min d[(k )(r), d[(k )(s)]
ขนตอนท 5 ถามเพยงคลสเตอรเดยว ใหจบการค านวณแตถาไม กใหท าซ าตงแตขนตอนท 2-5
ตวอยาง Single-Linkage Clustering
การใช Hierarchical clustering ในการหาระยะทางระหวางเมองตางๆ โดยระยะทางมหนวยเปนกโลเมตร ภายในประเทศอตาล
Input distance matrix โดยทกๆคลสเตอรมคา L=0
BA FI MI NA RM TO
BA 0 662 877 255 412 996
FI 662 0 295 468 268 400
MI 877 295 0 754 564 138
NA 255 468 754 0 219 869
RM 412 268 564 219 0 669
TO 996 400 138 869 669 0
หาเมอง 2 เมองทมระยะใกลทสด
BA FI MI NA RM TO
BA 0 662 877 255 412 996
FI 662 0 295 468 268 400
MI 877 295 0 754 564 138
NA 255 468 754 0 219 869
RM 412 268 564 219 0 669
TO 996 400 138 869 669 0
เมองสองเมองทมระยะทางใกลกนทสดคอเมอง MI และ TO ซงมระยะทางหางกน 138 กโลเมตร ท าการรวมเมองทงสองเขาดวยกนเปนคลสเตอรเดยวกนคอ MI/TO เพราะฉะนน Level ของคลสเตอรใหมนมคาเทากบ L(MI/TO) = 138 และคา m= 1
ค านวณหาระยะทางของเมองอนๆโดยรอบกฎอยวา ถาบรเวณโดยรอบออปเจกซนนมคาเทากนหรอนอยกวาแตตองนอยทสดของระยะทางของสมาชกอนๆในคลสเตอรดงนน จงเลอกระยะทางจากเมอง MI/TO ถง RM มระยะทาง 564 กโลเมตร ซงเปนระยะทางจากเมอง MI ถง RM
BA FI MI/TO NA RM
BA 0 662 877 255 412
FI 662 0 295 468 268
MI/TO 877 295 0 754 564
NA 255 468 754 0 219
RM 412 268 564 219 0
ซง min d(i,j) = d(NA,RM) = 219 จะน า NA และ RM มารวมเขาดวยกนเปนคลสเตอรใหม เรยกวา NA/RM โดยมคา L(NA/RM) = 219 และ m =2
BA FI MI/TO NA/RM
BA 0 662 877 255
FI 662 0 295 268
MI/TO 877 295 0 564
NA/RM 255 268 564 0
ซง min d(i,j) = d(BA,NA/RM) = 255จะน า BA และ NA/RM มารวมกนจะไดเปนคลสเตอรใหม เรยกวา BA/NA/RM โดยมคาL(BA/NA/RM)=255และm= 3
BA/NA/RM FI MI/TO
BA/NA/RM 0 268 564
FI 268 0 295
MI/TO 564 295 0
ซง min d(i,j) = d(BA/NA/RM.FI) = 268 จะน า BA/NA/RM และ FI มารวมกนจะไดเปนคลสเตอรใหม เรยกวา BA/NA/RM/FI
โดยมคา L(BA/NA/RM/FI) = 268 และ m = 4
BA/NA/RM/FI MI/TO
BA/NA/RM/FI 0 295
MI/TO 295 0
สดทายเราจะท าการรวม 2 คลสเตอรสดทายได level = 295
สามารถเขยนเปน hierarchical tree ไดดงน
Genetic Algorithm
ถกคดคนขนโดย John Holland ในปค.ศ. 1975 เปนการน าขบวนการววฒนาการของสงมชวตมาประยกตใชในงานปญญาประดษฐ เพอใชส าหรบหาค าตอบทดทสด(Optimization) ของปญหาตางๆจากจ านวนค าตอบทเปนไปไดทงหมดของการแกปญหานน
Genetic Algorithm
รปแบบโครโมโซมทใชในการน าเสนอทางเลอกทสามารถจะเปนไดของแตละปญหา
วธสรางประชากรตนก าเหนดของทางเลอกทสามารถจะเปนไปได ฟงกชนส าหรบประเมนคาความเหมาะสมเพอใหคะแนนแตละทางเลอก จเนตกโอเปอเรเตอรซงใชในการปรบเปลยนองคประกอบของขอมลตลอด
กระบวนการ ไดแก การคดเลอก การครอสโอเวอร และการมวเตชน คาพารามเตอรตางๆทตองใชส าหรบจเนตกอลกอรทม เชน ขนาดของ
ประชากร ,ความนาจะเปนของการใชจเนตกโอเปอเรอเตอร และจ านวนรนเปนตน
Biological Chromosomes were the
incentive for Genetic Algorithms
ตวอยาง การคนคนสารสนเทศโดยใชจเนตกอลกอรทม
สมมตมเอกสาร 5 ฉบบประกอบดวยค าส าคญดงน
DOC1 ={Database, Query, Data Retrieval ,
Computer,Network, DBMS}
DOC2={Artificial Intelligence, Internet, Indexing, Natural
Language Processing}
DOC3={Database , Expert System, Information Retrieval
System, Multimedia}
DOC4={Fuzzy Logic, Neural Network, Computer Networks}
DOC5-{Object-Oriented, DBMS , Query ,Indexing}
น าค าส าคญทงหมดมาจดเรยงล าดบจากนอยไปมากรวม 16 ค าดงน
Artificial Intelligence
Computer Network
Data Retrival
Database
DBMS
Expert System ,
Fuzzy Logic
Indexing
Information Retrieval System
Internet
Multimedia
Natural Language Processing
Neural Network
Object Oriented
Query Relational Database
DOC1 ={Database, Query, Data Retrieval ,
Computer,Network, DBMS}
DOC2={Artificial Intelligence, Internet, Indexing,
Natural Language Processing}
DOC3={Database , Expert System, Information
Retrieval System, Multimedia}
DOC4={Fuzzy Logic, Neural Network, Computer
Networks}
DOC5={Object-Oriented, DBMS , Query ,Indexing}
น าเสนอรปแบบโครโมโซมดงน
DOC1=0110100000000011
DOC2=1000000101010000
DOC3=0001010010100000
DOC4=0100001000001000
DOC5=0000100100000110
Genetic Algorithm
โครโมโซมชดแรกทไดมานจะเรยกวาประชากรตนก าเนด ซงจะน าไปผานกระบวนการจแนตกตอไป ความยาวของโครโมโซมเหลานจะขนอยกบจ านวนค าส าคญของชดเอกสารทงหมดทตรงตามขอเรยกรอง(query) จากตวอยางนมความยาวเทากบ 16 บต
จเนตกอลกอรทม จะท าเปนวฏจกรหมนเวยนอยจนกระทงถงจดหนงทตรงตามเงอนไขตามทก าหนด หรอสนสดเมอพบค าตอบทดทสดแลว หรอถง threshold ตามทไดก าหนดไวลวงหนา
Traveling Salesman Problem - Genetic Algorithm Finds a near-optimal solution
การจ าแนกหมวดหมเอกสารภาษาไทยอตโนมตโดยใชอลกอรทม FPTC
ภาควชาวทยาการคอมพวเตอรและสารสนเทศ บณฑตวทยาลย สถาบนเทคโนโลยพระจอมเกลาพระนครเหนอ
วตถประสงค
เพอพฒนาเครองมอในการจ าแนกหมวดหมเอกสารขอความภาษาไทยดวยอลกอรทม Feature Projection Text Categorization (FPTC)
ซงเปนอลกอรทมทปรบมาจาก k-Nearest Neighbor ลกษณะเดนของ FPTC คอ การแทนคณลกษณะในแบบภาพฉายของแตละคณลกษณะ
การจ าแนกหมวดหมจะใชวธการเปรยบเทยบความคลายของค าทปรากฏในเอกสารทใชทดสอบกบค าทปรากฏในเอกสารทใชในกระบวนการเรยนร เพอหาเอกสารทคลายกบเอกสารทดสอบมากทสด และก าหนดหมวดหมของเอกสารนนใหกบเอกสารทดสอบ
ใชเอกสารขาวภาษาไทยจากหนงสอพมพออนไลนเปนกรณศกษา จากผลการทดสอบพบวา การจ าแนกหมวดหมดวยอลกอรทม FPTC สามารถจ าแนกหมวดหม
เอกสารภาษาไทยไดอยางมประสทธผลด ส าหรบขอมลทมการกระจายตวของหมวดหมเทากน
อลกอรทม Feature Projection Text
Categorization (FPTC)
กระบวนการเรยนรเอกสารทงหมดพรอมกนเพยงครงเดยว เอกสารทงหมดจะถกเกบในลกษณะของภาพฉาย
(Projections) บนแตละ คณลกษณะของเอกสาร เอกสารทไมมคณลกษณะใดจะไมถกเกบบน
คณลกษณะนน ระยะหาง ระหวางเอกสารสองเอกสารกจะถกพจารณาบนคณลกษณะเดยว
ระยะหางระหวางเอกสารค านวณดงน
การแทนเอกสารในรปแบบเวกเตอร
การแทนคณลกษณะในรปแบบภาพฉายของคณลกษณะ
ขนตอนของการจ าแนกหมวดหม
ปญหาอปสรรคในการท าวจย
การตดค าภาษาไทยไมถกตองมผลอยางมากตอความถกตองในการจ าแนกเอกสาร
การเขยนขาวภาษาไทยมการใชศพทแสลงหรอส านวนเปนจ านวนมาก ค าทใชในหมวดหมหนงอาจมความหมายทแตกตางไปส าหรบอกหมวดหมหนง ซงมผลท าใหจ าแนกเอกสารไดไมถกตอง
เชน ขาวในหมวดหมอาชญากรรมพบค าวา บก ยง ทะล จากประโยคตวอยางทวา “ผรายบกยงเหยออยางอกอาจ กระสนทะลทายทอยหนงนด แลวยงตามแทงซ านบสบแผล”
ขาวในหมวดกฬา กพบค าเดยวกนในความหมายของค าแสลงในประโยคทวา “ผแดงบกทะลทะลวงกองหนาสารกาดง ยงกระหน า 3 ตอ 0” เปนตน
top related