ct477 information retrieval - ramkhamhaeng...
TRANSCRIPT
![Page 1: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/1.jpg)
ครงท 2
ภาพรวมระบบคนคนสารสนเทศ(ตอ)
![Page 2: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/2.jpg)
การน าเทคโนโลยสมยใหมมาประยกตใช
![Page 3: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/3.jpg)
ระบบคนคนสารสนเทศ (Information Retrieval System หรอ IR)
ระบบทจดการประมวลผลสารสนเทศประเภทเอกสาร(Document) ในรปแบบตางๆ เชน ขอมล, หนงสอ , วารสาร , บทความ เปนตน โดยเกยวของในเรองการสรางดรรชน ,การเกบบนทก ,การดงเอกสาร โดยใชกลยทธและเทคนคตางๆ เพอแสดงรปแบบของผลลพธใหกบผใชซงใชเวลาและคาใชจายในเกณฑยอมรบได
![Page 4: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/4.jpg)
รป : แสดงภาพรวมของระบบคนคนสารสนเทศ
![Page 5: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/5.jpg)
ระบบคนคนสารสนเทศสามารถแบงได 3 ประเภทคอ
ระบบคนคนทใหค าถาม – ค าตอบ เปนการบรการคนค าตอบส าหรบค าถามทตองการค าตอบ ทเปนขอเทจจรง
ระบบคนคนทใหขอมลเปนตวเลขหรอสญลกษณ เปนระบบจดเกบขอมลทางฟสกส เคม ส ามะโนประชากร เปนตน
ระบบคนคนขอความจากวารสาร เปนระบบทจดเกบตวเนอหาเอกสารและสามารถเรยกขอความสวนใดสวนหนงของเอกสารได เชน ฐานขอมลทางกฎหมาย เปนตน
![Page 6: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/6.jpg)
OSQA is the free, open source Q&A system it is a full-featured Q&A community.
Users can ask and answer questions,
comment and vote for the questions of others
and their answers
Both questions and answers can be revised and improved.
![Page 7: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/7.jpg)
โปรแกรมตารางธาตเคม
![Page 8: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/8.jpg)
ระบบสบคนขอมลออนไลน (OPAC - Online Public Access Cataloging)
![Page 9: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/9.jpg)
เครองมอชวยคนหาขอมลบนอนเทอรเนตม 5 ประเภทใหญๆ คอ (Bradley, 2002)
Free text Search Engines
Directory Search Engines
Meta Search Engines
Natural-language Search Engines
Resource or Site-specific Search
Engines
![Page 10: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/10.jpg)
Free text Search Engines http://home.kku.ac.th/hslib/412141/internet/freetext.htm
![Page 11: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/11.jpg)
Directory Search Engines
![Page 12: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/12.jpg)
Meta Search Engines
Dogpile (http://www.dogpile.com)
Metacrawler (http://www.metacrawler.com)
ProFusion (http://www.profusion.com)
Search (http://www.search.com)
SurfWax (http://www.surfwax.com)
Ixquick (http://www.ixquick.com)
![Page 13: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/13.jpg)
Natural-language Search Engines
ค าถาม
ค าตอบ
![Page 14: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/14.jpg)
User-centric Math Information Retrieval System
http://www.ieee-tcdl.org/Bulletin/v4n2/zhao/zhao.html
![Page 15: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/15.jpg)
รป แสดงความแตกตางระหวาง Database และ IR
แนนอน ถกตอง
คลมเครอ
หมาย
![Page 16: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/16.jpg)
รป: แสดงสวนประกอบของระบบคนคนสารสนเทศ
สวนน าเขาขอมล(Input)
โปรเซสเซอร (Processor) สวนของผลลพธ(OUTPUT)
![Page 17: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/17.jpg)
สวนน าเขาขอมล(Input)
เปนสวนของการปอนขอค าถาม(query)จากผใชซงเปนภาษาธรรมชาต หรออาจเปนการน าเขาMetadata ซงเปนสารสนเทศเกยวกบเอกสารหรออาจไมเปนสวนหนงของเอกสารกไดแตเปนขอมลเกยวกบขอมล (data about data)หรอค าถาม
Descriptive metadata -ผแตง(Author)
-ชอเรอง(Title)
-แหลงทมา (book, magazine)
-วนท (Date)
-ISBN -ส านกพมพ(Publisher)
-ความยาว(Length)
Semantic metadata concerns the content -บทคดยอ(Abstract)
-ค าส าคญ(Keywords)
-รหสของหวเรอง(Subject Codes )
เทอมของหวเรอง (Subject terms)
สารสนเทศของเวป(Web Metadata)
-META tag in HTML
![Page 18: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/18.jpg)
โปรเซสเซอร (Processor)
เปนสวนของการประมวลผล ไดแก การจดโครงสรางของสารสนเทศในรปแบบทเหมาะสม
การสรางตวแทนเอกสาร การแบงแยกกลมของเอกสาร
การจดเกบสารสนเทศ การดงขอมลตามทผใชตองการ
การท างานนนจะน าขอค าถามไปเปรยบเทยบกบตวแทนเอกสารทมอย เพอดงเอกสารทใกลเคยงน าออกมาใหแกผสอบถาม
![Page 19: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/19.jpg)
สวนของผลลพธ(OUTPUT)
ผลลพธทไดจากระบบเปนขอความสนๆ เชน ชอ หนงสอ, หมายเลขเอกสาร, ชอผแตง, ส านกพมพ เปนตน
ผใชสามารถปรบปรงขอค าถามใหมเพอใหขอค าถามนนสบคนสารสนเทศไดตรงกบความตองการมากทสด เปนระบบตอบกลบ(feedback) ดงนนผลลพธทไดจงขนอยกบ ขอค าถาม (Query)
![Page 20: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/20.jpg)
ขนตอนในการสรางระบบ IR
การสรางระบบคนคนสารสนเทศ แบงออกเปน 4 ขนตอนคอ การวเคราะหขอความ (Text Analysis) การจดแบงกลมขอมล (Classification) การเกบบนทกขอมลลงในแฟมขอมล การคนคนสารสนเทศ
![Page 21: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/21.jpg)
Unstructured (text) vs. structured
(database) data in 1996
21
![Page 22: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/22.jpg)
Unstructured (text) vs. structured
(database) data in 2009
22
![Page 23: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/23.jpg)
Information Retrieval
![Page 24: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/24.jpg)
Text Analysis graph
![Page 25: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/25.jpg)
Text Analysis star graph
![Page 26: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/26.jpg)
The classic search model
Corpus
TASK
Info Need
Query
Verbal
form
Results
SEARCH
ENGINE
Query
Refinement
Get rid of mice in a
politically correct way
Info about removing mice
without killing them
How do I trap mice alive?
mouse trap
Misconception?
Mistranslation?
Misformulation?
![Page 27: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/27.jpg)
Text analysis enhances a wide variety of applications
![Page 28: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/28.jpg)
OpenI Business Intelligence (BI)
ซอฟตแวร (Software) ทน าขอมลทมอยเพอจดท ารายงานในรปแบบตางๆ โดยท าหนาทในการดงขอมลจาก Database โดยตรงแลวน าเสนอในรปแบบของ Report ชนดตางๆทเหมาะสมกบมมมองในการวเคราะห และตรงตามความตองการของผใชงานในรปแบบหลายมต (Multidimensional Model) ซงจะท าใหสามารถดขอมลแบบเจาะลก (Drill-down)ได
![Page 29: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/29.jpg)
Enterprise Content Management (ECM)
ซอฟตแวรใชรวบรวมเนอหาทมปรมาณจ านวนมหาศาล และถกจดเกบอยหลายรปแบบ มาผานกระบวนการจดการเนอหาจดหมวดหม,จดเรยง,การประสานขอมลชนดตางๆ เพอใหขอมลมความสมพนธ ท าใหงายตอการน ามาใชงาน เปนการจดการเนอหาระดบองคกรโดยจดเกบขอมลแบบไมมโครงสราง(UnStructure Data)
จากไมโครซอฟตออฟฟศ(MS office,exels,Power Point)
ไฟลเวป เชน .html,XML
ไฟลทเปนเอกสารอเลกทรอนกส ไดแก .PDF
ไฟลภาพถาย เชน .JPG, .GIF, .RAW,
ไฟลวดโอ หรอไฟลเสยง ไดแก .avi, .dat, .VOB
ไฟลขอมล ไมวาจะเปนไฟลขอความ, .DBF, .MDB, .GDB, .DB)
ไฟลบบ(Zip files)
![Page 30: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/30.jpg)
Data mining
กระบวนการคนหาสารสนเทศทางธรกจทมมลคาตอองคกร ในฐานขอมลขนาดใหญ คลงขอมล หรอตลาดขอมล
สามารถท านายแนวโนมและพฤตกรรมตางๆโดยอตโนมต
![Page 31: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/31.jpg)
Data mining
![Page 32: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/32.jpg)
Data Visualization
เปนการน าเสนอขอมลโดยใชเทคโนโลยตางๆ เชน รปภาพ ตาราง วดโอ กราฟ ภาพเคลอนไหว สอประสม
สามารถมองภาพในหลายมตในเวลาเดยวกน สนคา พนกงานขาย สวนแบงตลาด
![Page 33: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/33.jpg)
Analytics Edition Architecture
![Page 34: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/34.jpg)
Data Cleansing
Data cleansing คอขนตอนในการรบประกนวาขอมลนนๆมความชดเจนและถกตอง ซงในขนตอนการท านนขอมลทบนทกไวจะถกตรวจสอบความถกตองหรอลบขอมลบางสวนทไมจ าเปนออกไป
การท า Data cleansing สามารถท าไดทงภายในขอมลชดเดยวหรอระหวางขอมลหลายชดซงสามารถน ามารวมกนได หรอเปนขอมลทตองมการใชงานรวมกน
![Page 35: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/35.jpg)
Database cleaning
![Page 36: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/36.jpg)
Linguistic Analysis
ขจดค าก ากวมทใชในภาษา Tagging คอ index หรอ keyword ของเนอหา
dependency analysis วเคราะหค าทขนตอกน
name entity extraction แยกเอนตตชอ intention analysis วเคราะหเจตจ านงค ความมงมน
![Page 37: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/37.jpg)
Category dictionary
![Page 38: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/38.jpg)
Synonym dictionary
![Page 39: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/39.jpg)
![Page 40: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/40.jpg)
Mining engine
![Page 41: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/41.jpg)
Overview of a Document Classification Application
![Page 42: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/42.jpg)
Tree of classification of the order Coleoptera (to family
level) on the site on the Minnesota State University (USA)
![Page 43: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/43.jpg)
![Page 44: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/44.jpg)
Text Classification.
![Page 45: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/45.jpg)
รป : แสดงโครงสรางของระบบคนคนสารสนเทศ
คราวๆ
เอกสารทเกยวของทเปนไปได
ขอมลทเปนประโยชน ในการคนหาค าศพท
ดชน ประเดนเนอหา
![Page 46: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/46.jpg)
Inverted file
![Page 47: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/47.jpg)
รป: The Standard Retrieval Interaction Model
![Page 48: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/48.jpg)
การประเมนผลระบบคนคนสารสนเทศ (Evaluation of IR System)
พฒนาประสทธภาพ
(Efficiency)
วดจาก - เนอทในการจดเกบในหนวยความจ า
- CPU Time
ประสทธผล
(Effectiveness)
วดจาก - คาใชจาย - ตนทนในการสรางระบบ
- Recall
- Precision
![Page 49: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/49.jpg)
ประสทธผลของระบบ
Precision = จ านวนของเอกสารทเกยวของทถกดงออกมา / จ านวนทงหมดของเอกสารทถกดงออกมา
Recall = จ านวนของเอกสารทเกยวของทถกดงออกมา / จ านวนของเอกสารทงหมดทเกยวของ
![Page 50: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/50.jpg)
ประสทธผลของระบบ HIT : เอกสารทเกยวของทถกดงออกมา WASTED : เอกสารทไมเกยวของทถกถงออกมา MISSED :เอกสารทเกยวของทไมถกดงออกมา PASSED : เอกสารทไมเกยวของทไมถกดงออกมา
MISSED HIT WASTED PASSED
Relevant(เกยวของ) Non-relevant(ไมเกยวของ)
Not Retrieved Retrieved
(ดงออกมา) Not Retrieved
Recall = HIT / Relevant เปนการวดความสามารถของระบบในการดงเอกสารทเกยวของออกมา
Precision = HIT / Retrieved เปนการวดความสามารถของระบบในการขจดเอกสารทไมเกยวของออกไป
![Page 51: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/51.jpg)
การหาประสทธภาพของระบบคนคนสารสนเทศ
![Page 52: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/52.jpg)
Recall & Precision =?
Effectiveness?
3000
3000
6000 8000
![Page 53: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/53.jpg)
Recall = A/(A+D)
Proportion of documents relevant to a search question
that are retrieved by a given search formulation.
Precision = A/(A+B)
Proportion of documents retrieved by a given search
formulation that is relevant to the search question.
http://choo.fis.utoronto.ca/FIS/Courses/LIS1325/RecallPrecision3.html
![Page 54: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/54.jpg)
How to improve PRECISION NARROW the search:
Condense FACETS with fewer synonyms or more specific terms ยอแงมมใหเปนค าเฉพาะ
Add a new FACET
Search in fewer SUBJECT FIELDS (Title,
Abstract, Descriptors)
Use more restrictive WORD OPERATORS
![Page 55: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/55.jpg)
How to improve RECALL
BROADEN the search:
Expand FACETS with more search terms
Drop an existing FACET
Search in more SUBJECT FIELDS (Title,
Abstract, Descriptors)
Use less restrictive WORD OPERATORS
![Page 56: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/56.jpg)
ววฒนาการของระบบคนคนสารสนเทศ
![Page 57: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/57.jpg)
ววฒนาการของระบบคนคนสารสนเทศ
คศ. 1960-70 เรมตนในการส ารวจระบบคนคน
สารสนเทศส าหรบขอความทมขนาดเลกทเปนบทคดยอทางดานวทยาศาสตร กฎหมาย หรอ เปนเอกสารทางดานธรกจ มการพฒนา บลนพนฐาน และ Vector Space Model ส าหรบการคนคนสารสนเทศ
คศ. 1980 ระบบจะมการสบคนจากฐานขอมล
เอกสารขนาดใหญทมการปฏบตงานในหลายๆบรษท เชน Lexis-
Nexis/MEDLINE
![Page 58: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/58.jpg)
พฒนาการของการจดเกบและคนคนสารสนเทศ ทศวรรษ 1960
ระยะแรกเรม เปนการพฒนาระบบ และเครองมอจดเกบสอบนทกความรและคนหาทรพยากรสารสนเทศในลกษณะสงพมพ เชนระบบจดหมวดหม การจดท าดรรชนและสาระสงเขปดวยระบบมอ
![Page 59: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/59.jpg)
พฒนาการของการจดเกบและคนคนสารสนเทศ ทศวรรษ 1960
เทคโนโลยระยะแรก มการน าไมโครกราฟก (ถายภาพยอสวนลงฟลม) มาใชจดเกบและ คนคนสารสนเทศ โดยมการใชระบบคอมพวเตอรท าดรรชนและบตรรายการ
![Page 60: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/60.jpg)
ระยะท 2 พฒนาการของการจดเกบและคนคนสารสนเทศตงแต คศ.1960 พฒนาการดานการวจยและพฒนาระบบจดเกบและคนคนสารสนเทศท สาคญ
โครงการตาง ๆ อาท การวจยกลมแครนฟลด เมดลารส สมารท การ วจยของซาระเซวค และกลมเทรค เกดกลมความรวมมอระหวางหนวยงาน
บรการสารสนเทศ รวมถงบรการคนคนสารสนเทศเชงพาณชย การจดเกบ และคนคนสารสนเทศบน อนเทอรเนต
![Page 61: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/61.jpg)
![Page 62: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/62.jpg)
ววฒนาการของระบบคนคนสารสนเทศ
คศ. 1990
มการสบคน FTP และ World
Wide Web บนอนเทอรเนต เชน Archie ,WAIS ,Lycos ,
Yahoo ,Altavista
คศ. 2000 จนถงปจจบน
มการเชอมโยงโดยวเคราะหจาก Web
Search เชน Google
นอกจากนมการสบคนสอผสม (multimedia) ไมวาเปนภาพ เสยง เพลง วดโอ การสรปเอกสาร เปนตน
![Page 63: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/63.jpg)
FTP(Flie Transfer Protocol)
เปนการถายโอนแฟมขอมลระหวางเครองคอมพวเตอร 2 เครอง ซงอยบนเครอขายอนเทอรเนต ในระบบเครอขายอนเตอรเนต มเครองคอมพวเตอรทใหบรการการถายโอนแฟมขอมลเปนสาธารณะ มอยเปนจ านวนมาก เรยกเครองคอมพวเตอรทใหบรการถายโอนแฟมขอมลนวา FTP Server
![Page 64: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/64.jpg)
Search engine
![Page 65: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/65.jpg)
Altavista
![Page 66: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/66.jpg)
แสดง Web Search System
Query
String IR
System
Ranked
Documents
1. Page1
2. Page2
3. Page3
.
.
Document
corpus
Web Spider
![Page 67: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/67.jpg)
Spider
บนทกขอมลหนาเพจตางๆ จากทวโลกเอามาจดเกบใหเปนระเบยบและมการจดอนดบตามความเหมาะสมของ เนอหานนๆ ( SEO)
![Page 68: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/68.jpg)
สงทคนสวนมากคนหาใน web โดยการศกษาจาก Spink et al., Oct 98
Genealogy/Public Figure: 12%
Computer related: 12%
Business: 12%
Entertainment: 8%
Medical: 8%
Politics & Government 7%
News 7%
Hobbies 6%
General info/surfing 6%
Science 6%
Travel 5%
Arts/education/shopping/images 14%
![Page 69: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/69.jpg)
![Page 70: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/70.jpg)
ลามก
![Page 71: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/71.jpg)
![Page 72: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/72.jpg)
![Page 73: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/73.jpg)
Simple model of IR
![Page 74: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/74.jpg)
IR Models
Non-Overlapping Lists
Proximal Nodes
Structured Models
Retrieval:
Adhoc
Filtering
Browsing
U
s
e
r
T
a
s
k
Classic Models
boolean
vector
probabilistic
Set Theoretic
Fuzzy
Extended Boolean
Probabilistic
Inference Network
Belief Network
Algebraic
Generalized Vector
Lat. Semantic Index
Neural Networks
Browsing
Flat
Structure Guided
Hypertext
![Page 75: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/75.jpg)
IR Model สามารถจ าแนกเปน 4 ชนด
Set Theoretic Models
ใชบลนโมเดล ซงอยบนพนฐานของ แนวความคดเชงตรรกะหรอพชคณตบลน
Algebraic Models
เอกสารแตละอนจะถกน าแสดงโดย Vector หรอชดของค าทมการจดเรยงล าดบ
Probabilistic Model
แบบความนาจะเปนโดยฟงกชนตดสนทถกใชเปนแบบนาจะเปน
Hybrid Model
Boolean+Vector
![Page 76: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/76.jpg)
Set Theoretic Models
ใชบลนโมเดล ซงอยบนพนฐานของแนวความคดเชงตรรกะหรอพชคณต
บลน ( Boolean Algebra ) กบค าทถกรวมกนโดยตวเชอมทางตรรกะหรอพชคณต และ( AND )หรอ ( OR )ไม ( NOT )
ตวแบบการคน พจารณาจากการจบคหรอเปรยบเทยบ ระหวางขอค าถาม และดรรชนแทนสารสนเทศทสะสมไว ใหสามารถคนคนสารสนเทศทเขาเรองหรอตรงกบความตองการ
![Page 77: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/77.jpg)
ตวแบบการคน
Boolean model เปนการจบคแบบตรงกนระหวางศพทดรรชนและค าคน
Retrieval Status Value ( RSV) เปนมาตรการเกยวกบการควรเอกสารทมความSimilality RSV จะมคาเทากบ 1 เมอควรทแสดงมคาเปน True มการคนพบเอกสาร
ทเกยวของตามทควร
RVS มคาเปน 0 เมอควรทแสดงเปนคาอน
![Page 78: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/78.jpg)
Set Theoretic Models
ขอดของ Boolean Model
เขาใจงาย เวลา Query ก าหนดความตองการไดวาจะเอาค าไหนซงเปนลกษณะงาย ๆ ทมรปแบบไมซบซอน
เปนการหาขอมลในลกษณะ ใช / ไมใช เจอ / ไมเจอ
ขอเสยของ Boolean Model
ไมมการจดล าดบของเอกสาร ( Ranking ) และไมมการเปรยบเทยบ (Relevance )
ใช Query ทมความซบซอนไมได ควบคมจ านวนเอกสารยาก มความล าบากในการยอมรบเนองจาก
ตรงหรอส าคญเปนความตองการของ User
![Page 79: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/79.jpg)
Venn diagram
![Page 80: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/80.jpg)
SQL
![Page 81: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/81.jpg)
Algebraic Models
แทนเอกสารและขอค าถามในรปเวกเตอร (Vector) โดยก าหนดคาน าหนกของค า ดวยความถของค าทปรากฎในเอกสาร และค าทปรากฎในฐานขอมล
วธการประเมนขนอยกบ Vector 0-1 ซงแตละองคประกอบเปน 0 ถาค านน ๆ ไมปรากฏ หรอเปน 1 ถาค านน ๆ ปรากฎในเอกสารตามทควร และการประเมนอกทางหนงอยบนพนฐานของ Vector น าหนกซง
องคประกอบของมนเปนน าหนกหรอคาทถกก าหนดใหแตละค าในเอกสาร
![Page 82: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/82.jpg)
Algebraic Models
![Page 83: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/83.jpg)
รปแบบการท างานของ Vector Model
ใหความส าคญความถของค าทปรากฏอยในเอกสารและความถมผลตอการใหคาน าหนกของค า ไดแก
- Term Frequency คอการใชความถของค า เชนเจอ 1 ครง เรยกวา Term ทงนขนอยกบจ านวนค าของเอกสาร โดย Term จะแทนค าศพทของแตละค า
- Term Weight ( น าหนกของค า ) ความถของค า ๆ หนงทพบในทก ๆ เอกสาร
สามารถจดอนดบของเอกสารโดยใชเกณฑความส าคญของค าและการ Match กนของค า
![Page 84: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/84.jpg)
![Page 85: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/85.jpg)
Vector space Model
http://www.llrx.com/features/searchenterprise.htm
![Page 86: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/86.jpg)
Vector Space Model
ขอด
ใชคณตศาสตรเรยบงายในการคด มการพจารณาจากความถของค า
และสามารถจดRanking ของเอกสารได สามารถใชกบเอกสารท
มขอมลมาก ๆ ไดด
ขอเสย
- ไมสนใจความหมายของค า , วล , โครงสรางของค า , ค าทมความหมาย
เหมอนกน ( Synonymy ) - สบคนใสเงอนไขแบบ Boolean
Model ไมได
![Page 87: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/87.jpg)
Comparison Between the Vector Model (A) and the Raster Data Model (B)
![Page 88: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/88.jpg)
Probabilistic Model
Probabilistic Model เปนการจดล าดบเอกสารตามความนาจะเปนดานความเขาเรองของแตละเอกสารกบขอค าถามตามคาทก าหนด โดยเรยงล าดบจากมากไปหานอย
ความนาจะเปนทเอกสารไดจากการคนคนตองสนองตอค าขอ และความนาจะเปนตองรวมกนเปน 1 เหมอนการค านวณของฟงกชนสมาชกตามคอมพลเมนตของเซต
ขอด มวธการค านวณความนาจะเปนทไดรบการยอมรบโดยค านวณความนาจะเปนจากขอมลความถของค า
![Page 89: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/89.jpg)
Best Match Searching using the
Probabilistic Model The probabilistic model query-document
matching score ms(j) for document j can be
determined using:
where w(i, j) is a term weighting scheme.
http://www.credmond.net/projects/filetrack-multimedia-information-retrieval/
![Page 90: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/90.jpg)
Visualization and Classification of Documents
A New Probabilistic Model to Automated Text
Classification
http://www.ieee-tcdl.org/Bulletin/v2n2/dinunzio/dinunzio.html
![Page 91: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/91.jpg)
Hybrid Model
Boolean Model มขอเสยคอการไมรวมน าหนกของค า Vector
Space Model มขอเสยของการทไมสามารถท าการเชอมตอทางตรรกะไดโดยงาย จงไดมความพยายามทจะท าการเอาขอดของทงสองมารวมกน จงไดจงไดม Extended Boolean Model
![Page 92: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/92.jpg)
![Page 93: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/93.jpg)
ตาราง: แสดงการเปรยบเทยบโมเดลระบบคนคนสารสนเทศในรปแบบตางๆ
Conceptual Model
File Structure Query Operation
Term Operation Document Operation
Boolean Flat File Feed Back Stem
Parse
Extended Boolean
Inverted File Parse
Weight Display
Probabilistic Signature Boolean Thesaurus Cluster
Vector space Graphs Truncation Sort
Hashing Filed Mark
![Page 94: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/94.jpg)
Flat-file database
ฐานขอมลรายแฟมหมายถง โปรแกรมฐานขอมลทใชเกบและเรยกหาขอมล ออกมาใชไดทละแฟม เปนส าคญ ตรงขามกบฐานขอมลสมพนธ (relational
database) ซงจะท าใหเรยกหามาใชได มากกวาครงละหนงแฟม
![Page 95: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/95.jpg)
Stem
![Page 96: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/96.jpg)
Parse tree
![Page 97: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/97.jpg)
Parse
![Page 98: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/98.jpg)
Signature file
![Page 99: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/99.jpg)
เทคโนโลยทสนบสนน => ปญญาประดษฐ
ระบบผเชยวชาญ
โปรแกรมตวแทนอจฉรยะ
การประมวลผลภาษาธรรมชาต
การใชภาษาธรรมชาตส าหรบขอค าถาม ไดแก Ask การคนคนสารสนเทศหลายภาษา หรอ การคนคนสารสนเทศขามภาษา
![Page 100: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/100.jpg)
ระบบผเชยวชาญ
![Page 101: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/101.jpg)
โปรแกรมตวแทนอจฉรยะ
ซอฟตแวรทมการปญญาประดษฐเพอชวยเหลอผใช มนษยโดยสามารถเรยนรไดดวยตวเองจากประสบการณและขอมลทเกยวของ
ในอดต และเพอพฒนาอลกอรทมทางComputational
Intelligence เพอชวยสนบสนนการตดสนใจของมนษย หรอแมกระทงท างานแทนทมนษย การพฒนาโปรแกรมแปลงอกษรเบรลล การวเคราะหการใชเทคโนโลยคอมพวเตอรส าหรบนกเรยนพการทางการ
มองเหน กรณเรยนรวมระดบมธยมศกษา กรงเทพมหานคร
![Page 102: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/102.jpg)
โปรแกรมแปลงอกษรเบรลล
![Page 103: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/103.jpg)
การประมวลผลภาษาธรรมชาต
การรบอนพตจากการพมพผานคยบอรด หรอเสยงพดผานไมโครโฟน หรอจากการอานเขาระบบผานแฟมขอมลเวรดโปรเซสซง แลวจดการตดทอนคดเอาเฉพาะทมความหมายสมบรณเขาเกบในคอมพวเตอร
![Page 104: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/104.jpg)
NLP องคประกอบทส าคญดงน
การวเคราะหในเชงโครงสราง (Syntactic Analysis) จะเปนการตรวจสอบโครงสรางทางไวยากรณเกยวกบการวางต าแหนงของค านาม กรยา ค าบพบท ฯลฯ ทรวมเปนประโยค
การวเคราะหในเชงความหมาย (Semantic Analysis) จะเปนการแยกแยะความถกตองทางความหมายของประโยค ประโยคทถกวางแบบตามโครงสรางไวยากรณจะมความหมายอยางใดอยางหนงแนนอน แตบางครงความหมายทไดเปนความหมายทก ากวม หรออาจไรความหมายเปนไปไมได
![Page 105: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/105.jpg)
Content scanning
การใชคอมพวเตอรมาชวยแสดงหรอตความเนอหาของขอความ เครองอานและแปลขอความของการเดนเรอทะเล เครองอานและแปลเทเลกซการโอนเงนระหวางประเทศ
ลกษณะของขอความทใชเปนแบบสน ๆ ค าทใชมกจะเปนค ายอและไมมรปไวยากรณทดนก
การท างานของระบบจะท าในระดบความหมาย (semantic level) การวเคราะหค าหรอขอความโดยอาศยพจนานกรมทเกบค าศพทไวในหนวยความจ าคอมพวเตอร แลวท างานรวมกบกฎตามหลกของภาษาเพอตความบอกชนดและความสมพนธของขอมล
![Page 106: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/106.jpg)
Capture documents by scanning or uploading documents
![Page 107: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/107.jpg)
Talkwriter
เครองทรบเสยงพดของมนษย แลวมการถายเปลยนสญญาณเสยงใหอยในรปสญญาณทเครองสามารถอานได หรอในรปของขอความแบบเวรดโปรเซสซง หรอในรปของค าสงเพอจะสงตอไปใชงานฐานขอมล
![Page 108: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/108.jpg)
Database interface
การใชภาษาธรรมชาต มาสงงานเรยกใช เปนลกษณะของการถามหาขอมลดวยภาษาทใชในชวตประจ าวนจาก
ภาษาธรรมชาตทใช กจะมการแปลตความ และสรางเปนค าสงเพอเรยกใชฐานขอมล
![Page 109: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/109.jpg)
Machine translation
เปนการใชคอมพวเตอรมาเพอการแปลภาษาระหวางภาษาของมนษย การแปลภาษาระหวางภาษาไทยกบ
ภาษาองกฤษ
การรวมขายงานของภาษาธรรมชาต ทงในแงของการอนเตอรเฟสดวยเสยง ดวย database interface
และ text editing เขาดวยกน ชวยอ านวยความสะดวกและเรงการ
ตดตอแลกเปลยนขอมลใหเปนไปอยางรวดเรว
![Page 110: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/110.jpg)
Machine translation
มการเกบค าศพทพรอมวธการใชค านนภายในหนวยความจ าของคอมพวเตอรไว มขนาดใหญมากจรง ๆ ดงนนจงตองมการแปลเฉพาะสาขาในระยะน แตถาเทคโนโลยของคอมพวเตอรขยายไปอก การแปลมากสาขากอาจเปนไปไดในอนาคต
![Page 111: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/111.jpg)
การวจยและการพฒนา
แบงออกไดเปน 2 ประเภท คอ เชงเทคนค การจบคไดมประสทธภาพขน การท าดรรชนหรอสาระสงเขปอตโนมต
เชงผใชและการใช เนนการใชทตรงตามความตองการ
![Page 112: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/112.jpg)
ผใชและการใชสารสนเทศ (1)
ผใช คอ ผมความตองการสารสนเทศ แสวงหา คนหา หรอ ใชสารสนเทศ/ ตวแทนสารสนเทศ
ความตองการสารสนเทศของผใช – ภาวะทบคคลตระหนกถงชองวางทางความร หรอการขาดสารสนเทศ ซงผลกดนใหเกดการแสวงหาสารสนเทศ ความตองการสารสนเทศ – มลกษณะเปนพลวต จ าแนกไดตามเงอนไขของเวลา ตามขอบเขตและลกษณะความตองการ
![Page 113: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/113.jpg)
ตวอยาง หองสมดดจทล
องคประกอบส าคญ คอ ทรพยากรในรปดจทล กระบวนการจดเกบ บรการสารสนเทศ ผใช เทคโนโลย
![Page 114: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/114.jpg)
![Page 115: CT477 Information Retrieval - Ramkhamhaeng Universityinstructor.ru.ac.th/urai/cos4351/cos4351_2.pdf · 2014. 7. 9. · ระบบค้นคืนสารสนเทศ (Information](https://reader036.vdocuments.net/reader036/viewer/2022081408/60711e490bd0854cc205ed30/html5/thumbnails/115.jpg)
หองสมดดจทลทแตกตางจากเวบไซตทวไป จดการตามมาตรฐานหองสมดดจทลทเปนสากล
จดหมวดหมและการท ารายการทเปนมาตรฐาน
คนท าไดอยางมมาตรฐาน (หวเรอง ชอเรอง ชอผแตง ค าส าคญ)
น าเสนอผลการคนอยางมมาตรฐาน (ภาพในลกษณะตาง ๆ ฯลฯ)
ขอมลมคณภาพ: ความถกตอง ความนาเชอถอ ฯลฯ ขอมลและแหลงยงยน
มการเพมเตมเนอหาอยางตอเนอง