ct477 information retrieval - ramkhamhaeng...
TRANSCRIPT
ครงท 2
ภาพรวมระบบคนคนสารสนเทศ(ตอ)
การน าเทคโนโลยสมยใหมมาประยกตใช
ระบบคนคนสารสนเทศ (Information Retrieval System หรอ IR)
ระบบทจดการประมวลผลสารสนเทศประเภทเอกสาร(Document) ในรปแบบตางๆ เชน ขอมล, หนงสอ , วารสาร , บทความ เปนตน โดยเกยวของในเรองการสรางดรรชน ,การเกบบนทก ,การดงเอกสาร โดยใชกลยทธและเทคนคตางๆ เพอแสดงรปแบบของผลลพธใหกบผใชซงใชเวลาและคาใชจายในเกณฑยอมรบได
รป : แสดงภาพรวมของระบบคนคนสารสนเทศ
ระบบคนคนสารสนเทศสามารถแบงได 3 ประเภทคอ
ระบบคนคนทใหค าถาม – ค าตอบ เปนการบรการคนค าตอบส าหรบค าถามทตองการค าตอบ ทเปนขอเทจจรง
ระบบคนคนทใหขอมลเปนตวเลขหรอสญลกษณ เปนระบบจดเกบขอมลทางฟสกส เคม ส ามะโนประชากร เปนตน
ระบบคนคนขอความจากวารสาร เปนระบบทจดเกบตวเนอหาเอกสารและสามารถเรยกขอความสวนใดสวนหนงของเอกสารได เชน ฐานขอมลทางกฎหมาย เปนตน
OSQA is the free, open source Q&A system it is a full-featured Q&A community.
Users can ask and answer questions,
comment and vote for the questions of others
and their answers
Both questions and answers can be revised and improved.
โปรแกรมตารางธาตเคม
ระบบสบคนขอมลออนไลน (OPAC - Online Public Access Cataloging)
เครองมอชวยคนหาขอมลบนอนเทอรเนตม 5 ประเภทใหญๆ คอ (Bradley, 2002)
Free text Search Engines
Directory Search Engines
Meta Search Engines
Natural-language Search Engines
Resource or Site-specific Search
Engines
Free text Search Engines http://home.kku.ac.th/hslib/412141/internet/freetext.htm
Directory Search Engines
Meta Search Engines
Dogpile (http://www.dogpile.com)
Metacrawler (http://www.metacrawler.com)
ProFusion (http://www.profusion.com)
Search (http://www.search.com)
SurfWax (http://www.surfwax.com)
Ixquick (http://www.ixquick.com)
Natural-language Search Engines
ค าถาม
ค าตอบ
User-centric Math Information Retrieval System
http://www.ieee-tcdl.org/Bulletin/v4n2/zhao/zhao.html
รป แสดงความแตกตางระหวาง Database และ IR
แนนอน ถกตอง
คลมเครอ
หมาย
รป: แสดงสวนประกอบของระบบคนคนสารสนเทศ
สวนน าเขาขอมล(Input)
โปรเซสเซอร (Processor) สวนของผลลพธ(OUTPUT)
สวนน าเขาขอมล(Input)
เปนสวนของการปอนขอค าถาม(query)จากผใชซงเปนภาษาธรรมชาต หรออาจเปนการน าเขาMetadata ซงเปนสารสนเทศเกยวกบเอกสารหรออาจไมเปนสวนหนงของเอกสารกไดแตเปนขอมลเกยวกบขอมล (data about data)หรอค าถาม
Descriptive metadata -ผแตง(Author)
-ชอเรอง(Title)
-แหลงทมา (book, magazine)
-วนท (Date)
-ISBN -ส านกพมพ(Publisher)
-ความยาว(Length)
Semantic metadata concerns the content -บทคดยอ(Abstract)
-ค าส าคญ(Keywords)
-รหสของหวเรอง(Subject Codes )
เทอมของหวเรอง (Subject terms)
สารสนเทศของเวป(Web Metadata)
-META tag in HTML
โปรเซสเซอร (Processor)
เปนสวนของการประมวลผล ไดแก การจดโครงสรางของสารสนเทศในรปแบบทเหมาะสม
การสรางตวแทนเอกสาร การแบงแยกกลมของเอกสาร
การจดเกบสารสนเทศ การดงขอมลตามทผใชตองการ
การท างานนนจะน าขอค าถามไปเปรยบเทยบกบตวแทนเอกสารทมอย เพอดงเอกสารทใกลเคยงน าออกมาใหแกผสอบถาม
สวนของผลลพธ(OUTPUT)
ผลลพธทไดจากระบบเปนขอความสนๆ เชน ชอ หนงสอ, หมายเลขเอกสาร, ชอผแตง, ส านกพมพ เปนตน
ผใชสามารถปรบปรงขอค าถามใหมเพอใหขอค าถามนนสบคนสารสนเทศไดตรงกบความตองการมากทสด เปนระบบตอบกลบ(feedback) ดงนนผลลพธทไดจงขนอยกบ ขอค าถาม (Query)
ขนตอนในการสรางระบบ IR
การสรางระบบคนคนสารสนเทศ แบงออกเปน 4 ขนตอนคอ การวเคราะหขอความ (Text Analysis) การจดแบงกลมขอมล (Classification) การเกบบนทกขอมลลงในแฟมขอมล การคนคนสารสนเทศ
Unstructured (text) vs. structured
(database) data in 1996
21
Unstructured (text) vs. structured
(database) data in 2009
22
Information Retrieval
Text Analysis graph
Text Analysis star graph
The classic search model
Corpus
TASK
Info Need
Query
Verbal
form
Results
SEARCH
ENGINE
Query
Refinement
Get rid of mice in a
politically correct way
Info about removing mice
without killing them
How do I trap mice alive?
mouse trap
Misconception?
Mistranslation?
Misformulation?
Text analysis enhances a wide variety of applications
OpenI Business Intelligence (BI)
ซอฟตแวร (Software) ทน าขอมลทมอยเพอจดท ารายงานในรปแบบตางๆ โดยท าหนาทในการดงขอมลจาก Database โดยตรงแลวน าเสนอในรปแบบของ Report ชนดตางๆทเหมาะสมกบมมมองในการวเคราะห และตรงตามความตองการของผใชงานในรปแบบหลายมต (Multidimensional Model) ซงจะท าใหสามารถดขอมลแบบเจาะลก (Drill-down)ได
Enterprise Content Management (ECM)
ซอฟตแวรใชรวบรวมเนอหาทมปรมาณจ านวนมหาศาล และถกจดเกบอยหลายรปแบบ มาผานกระบวนการจดการเนอหาจดหมวดหม,จดเรยง,การประสานขอมลชนดตางๆ เพอใหขอมลมความสมพนธ ท าใหงายตอการน ามาใชงาน เปนการจดการเนอหาระดบองคกรโดยจดเกบขอมลแบบไมมโครงสราง(UnStructure Data)
จากไมโครซอฟตออฟฟศ(MS office,exels,Power Point)
ไฟลเวป เชน .html,XML
ไฟลทเปนเอกสารอเลกทรอนกส ไดแก .PDF
ไฟลภาพถาย เชน .JPG, .GIF, .RAW,
ไฟลวดโอ หรอไฟลเสยง ไดแก .avi, .dat, .VOB
ไฟลขอมล ไมวาจะเปนไฟลขอความ, .DBF, .MDB, .GDB, .DB)
ไฟลบบ(Zip files)
Data mining
กระบวนการคนหาสารสนเทศทางธรกจทมมลคาตอองคกร ในฐานขอมลขนาดใหญ คลงขอมล หรอตลาดขอมล
สามารถท านายแนวโนมและพฤตกรรมตางๆโดยอตโนมต
Data mining
Data Visualization
เปนการน าเสนอขอมลโดยใชเทคโนโลยตางๆ เชน รปภาพ ตาราง วดโอ กราฟ ภาพเคลอนไหว สอประสม
สามารถมองภาพในหลายมตในเวลาเดยวกน สนคา พนกงานขาย สวนแบงตลาด
Analytics Edition Architecture
Data Cleansing
Data cleansing คอขนตอนในการรบประกนวาขอมลนนๆมความชดเจนและถกตอง ซงในขนตอนการท านนขอมลทบนทกไวจะถกตรวจสอบความถกตองหรอลบขอมลบางสวนทไมจ าเปนออกไป
การท า Data cleansing สามารถท าไดทงภายในขอมลชดเดยวหรอระหวางขอมลหลายชดซงสามารถน ามารวมกนได หรอเปนขอมลทตองมการใชงานรวมกน
Database cleaning
Linguistic Analysis
ขจดค าก ากวมทใชในภาษา Tagging คอ index หรอ keyword ของเนอหา
dependency analysis วเคราะหค าทขนตอกน
name entity extraction แยกเอนตตชอ intention analysis วเคราะหเจตจ านงค ความมงมน
Category dictionary
Synonym dictionary
Mining engine
Overview of a Document Classification Application
Tree of classification of the order Coleoptera (to family
level) on the site on the Minnesota State University (USA)
Text Classification.
รป : แสดงโครงสรางของระบบคนคนสารสนเทศ
คราวๆ
เอกสารทเกยวของทเปนไปได
ขอมลทเปนประโยชน ในการคนหาค าศพท
ดชน ประเดนเนอหา
Inverted file
รป: The Standard Retrieval Interaction Model
การประเมนผลระบบคนคนสารสนเทศ (Evaluation of IR System)
พฒนาประสทธภาพ
(Efficiency)
วดจาก - เนอทในการจดเกบในหนวยความจ า
- CPU Time
ประสทธผล
(Effectiveness)
วดจาก - คาใชจาย - ตนทนในการสรางระบบ
- Recall
- Precision
ประสทธผลของระบบ
Precision = จ านวนของเอกสารทเกยวของทถกดงออกมา / จ านวนทงหมดของเอกสารทถกดงออกมา
Recall = จ านวนของเอกสารทเกยวของทถกดงออกมา / จ านวนของเอกสารทงหมดทเกยวของ
ประสทธผลของระบบ HIT : เอกสารทเกยวของทถกดงออกมา WASTED : เอกสารทไมเกยวของทถกถงออกมา MISSED :เอกสารทเกยวของทไมถกดงออกมา PASSED : เอกสารทไมเกยวของทไมถกดงออกมา
MISSED HIT WASTED PASSED
Relevant(เกยวของ) Non-relevant(ไมเกยวของ)
Not Retrieved Retrieved
(ดงออกมา) Not Retrieved
Recall = HIT / Relevant เปนการวดความสามารถของระบบในการดงเอกสารทเกยวของออกมา
Precision = HIT / Retrieved เปนการวดความสามารถของระบบในการขจดเอกสารทไมเกยวของออกไป
การหาประสทธภาพของระบบคนคนสารสนเทศ
Recall & Precision =?
Effectiveness?
3000
3000
6000 8000
Recall = A/(A+D)
Proportion of documents relevant to a search question
that are retrieved by a given search formulation.
Precision = A/(A+B)
Proportion of documents retrieved by a given search
formulation that is relevant to the search question.
http://choo.fis.utoronto.ca/FIS/Courses/LIS1325/RecallPrecision3.html
How to improve PRECISION NARROW the search:
Condense FACETS with fewer synonyms or more specific terms ยอแงมมใหเปนค าเฉพาะ
Add a new FACET
Search in fewer SUBJECT FIELDS (Title,
Abstract, Descriptors)
Use more restrictive WORD OPERATORS
How to improve RECALL
BROADEN the search:
Expand FACETS with more search terms
Drop an existing FACET
Search in more SUBJECT FIELDS (Title,
Abstract, Descriptors)
Use less restrictive WORD OPERATORS
ววฒนาการของระบบคนคนสารสนเทศ
ววฒนาการของระบบคนคนสารสนเทศ
คศ. 1960-70 เรมตนในการส ารวจระบบคนคน
สารสนเทศส าหรบขอความทมขนาดเลกทเปนบทคดยอทางดานวทยาศาสตร กฎหมาย หรอ เปนเอกสารทางดานธรกจ มการพฒนา บลนพนฐาน และ Vector Space Model ส าหรบการคนคนสารสนเทศ
คศ. 1980 ระบบจะมการสบคนจากฐานขอมล
เอกสารขนาดใหญทมการปฏบตงานในหลายๆบรษท เชน Lexis-
Nexis/MEDLINE
พฒนาการของการจดเกบและคนคนสารสนเทศ ทศวรรษ 1960
ระยะแรกเรม เปนการพฒนาระบบ และเครองมอจดเกบสอบนทกความรและคนหาทรพยากรสารสนเทศในลกษณะสงพมพ เชนระบบจดหมวดหม การจดท าดรรชนและสาระสงเขปดวยระบบมอ
พฒนาการของการจดเกบและคนคนสารสนเทศ ทศวรรษ 1960
เทคโนโลยระยะแรก มการน าไมโครกราฟก (ถายภาพยอสวนลงฟลม) มาใชจดเกบและ คนคนสารสนเทศ โดยมการใชระบบคอมพวเตอรท าดรรชนและบตรรายการ
ระยะท 2 พฒนาการของการจดเกบและคนคนสารสนเทศตงแต คศ.1960 พฒนาการดานการวจยและพฒนาระบบจดเกบและคนคนสารสนเทศท สาคญ
โครงการตาง ๆ อาท การวจยกลมแครนฟลด เมดลารส สมารท การ วจยของซาระเซวค และกลมเทรค เกดกลมความรวมมอระหวางหนวยงาน
บรการสารสนเทศ รวมถงบรการคนคนสารสนเทศเชงพาณชย การจดเกบ และคนคนสารสนเทศบน อนเทอรเนต
ววฒนาการของระบบคนคนสารสนเทศ
คศ. 1990
มการสบคน FTP และ World
Wide Web บนอนเทอรเนต เชน Archie ,WAIS ,Lycos ,
Yahoo ,Altavista
คศ. 2000 จนถงปจจบน
มการเชอมโยงโดยวเคราะหจาก Web
Search เชน Google
นอกจากนมการสบคนสอผสม (multimedia) ไมวาเปนภาพ เสยง เพลง วดโอ การสรปเอกสาร เปนตน
FTP(Flie Transfer Protocol)
เปนการถายโอนแฟมขอมลระหวางเครองคอมพวเตอร 2 เครอง ซงอยบนเครอขายอนเทอรเนต ในระบบเครอขายอนเตอรเนต มเครองคอมพวเตอรทใหบรการการถายโอนแฟมขอมลเปนสาธารณะ มอยเปนจ านวนมาก เรยกเครองคอมพวเตอรทใหบรการถายโอนแฟมขอมลนวา FTP Server
Search engine
Altavista
แสดง Web Search System
Query
String IR
System
Ranked
Documents
1. Page1
2. Page2
3. Page3
.
.
Document
corpus
Web Spider
Spider
บนทกขอมลหนาเพจตางๆ จากทวโลกเอามาจดเกบใหเปนระเบยบและมการจดอนดบตามความเหมาะสมของ เนอหานนๆ ( SEO)
สงทคนสวนมากคนหาใน web โดยการศกษาจาก Spink et al., Oct 98
Genealogy/Public Figure: 12%
Computer related: 12%
Business: 12%
Entertainment: 8%
Medical: 8%
Politics & Government 7%
News 7%
Hobbies 6%
General info/surfing 6%
Science 6%
Travel 5%
Arts/education/shopping/images 14%
ลามก
Simple model of IR
IR Models
Non-Overlapping Lists
Proximal Nodes
Structured Models
Retrieval:
Adhoc
Filtering
Browsing
U
s
e
r
T
a
s
k
Classic Models
boolean
vector
probabilistic
Set Theoretic
Fuzzy
Extended Boolean
Probabilistic
Inference Network
Belief Network
Algebraic
Generalized Vector
Lat. Semantic Index
Neural Networks
Browsing
Flat
Structure Guided
Hypertext
IR Model สามารถจ าแนกเปน 4 ชนด
Set Theoretic Models
ใชบลนโมเดล ซงอยบนพนฐานของ แนวความคดเชงตรรกะหรอพชคณตบลน
Algebraic Models
เอกสารแตละอนจะถกน าแสดงโดย Vector หรอชดของค าทมการจดเรยงล าดบ
Probabilistic Model
แบบความนาจะเปนโดยฟงกชนตดสนทถกใชเปนแบบนาจะเปน
Hybrid Model
Boolean+Vector
Set Theoretic Models
ใชบลนโมเดล ซงอยบนพนฐานของแนวความคดเชงตรรกะหรอพชคณต
บลน ( Boolean Algebra ) กบค าทถกรวมกนโดยตวเชอมทางตรรกะหรอพชคณต และ( AND )หรอ ( OR )ไม ( NOT )
ตวแบบการคน พจารณาจากการจบคหรอเปรยบเทยบ ระหวางขอค าถาม และดรรชนแทนสารสนเทศทสะสมไว ใหสามารถคนคนสารสนเทศทเขาเรองหรอตรงกบความตองการ
ตวแบบการคน
Boolean model เปนการจบคแบบตรงกนระหวางศพทดรรชนและค าคน
Retrieval Status Value ( RSV) เปนมาตรการเกยวกบการควรเอกสารทมความSimilality RSV จะมคาเทากบ 1 เมอควรทแสดงมคาเปน True มการคนพบเอกสาร
ทเกยวของตามทควร
RVS มคาเปน 0 เมอควรทแสดงเปนคาอน
Set Theoretic Models
ขอดของ Boolean Model
เขาใจงาย เวลา Query ก าหนดความตองการไดวาจะเอาค าไหนซงเปนลกษณะงาย ๆ ทมรปแบบไมซบซอน
เปนการหาขอมลในลกษณะ ใช / ไมใช เจอ / ไมเจอ
ขอเสยของ Boolean Model
ไมมการจดล าดบของเอกสาร ( Ranking ) และไมมการเปรยบเทยบ (Relevance )
ใช Query ทมความซบซอนไมได ควบคมจ านวนเอกสารยาก มความล าบากในการยอมรบเนองจาก
ตรงหรอส าคญเปนความตองการของ User
Venn diagram
SQL
Algebraic Models
แทนเอกสารและขอค าถามในรปเวกเตอร (Vector) โดยก าหนดคาน าหนกของค า ดวยความถของค าทปรากฎในเอกสาร และค าทปรากฎในฐานขอมล
วธการประเมนขนอยกบ Vector 0-1 ซงแตละองคประกอบเปน 0 ถาค านน ๆ ไมปรากฏ หรอเปน 1 ถาค านน ๆ ปรากฎในเอกสารตามทควร และการประเมนอกทางหนงอยบนพนฐานของ Vector น าหนกซง
องคประกอบของมนเปนน าหนกหรอคาทถกก าหนดใหแตละค าในเอกสาร
Algebraic Models
รปแบบการท างานของ Vector Model
ใหความส าคญความถของค าทปรากฏอยในเอกสารและความถมผลตอการใหคาน าหนกของค า ไดแก
- Term Frequency คอการใชความถของค า เชนเจอ 1 ครง เรยกวา Term ทงนขนอยกบจ านวนค าของเอกสาร โดย Term จะแทนค าศพทของแตละค า
- Term Weight ( น าหนกของค า ) ความถของค า ๆ หนงทพบในทก ๆ เอกสาร
สามารถจดอนดบของเอกสารโดยใชเกณฑความส าคญของค าและการ Match กนของค า
Vector space Model
http://www.llrx.com/features/searchenterprise.htm
Vector Space Model
ขอด
ใชคณตศาสตรเรยบงายในการคด มการพจารณาจากความถของค า
และสามารถจดRanking ของเอกสารได สามารถใชกบเอกสารท
มขอมลมาก ๆ ไดด
ขอเสย
- ไมสนใจความหมายของค า , วล , โครงสรางของค า , ค าทมความหมาย
เหมอนกน ( Synonymy ) - สบคนใสเงอนไขแบบ Boolean
Model ไมได
Comparison Between the Vector Model (A) and the Raster Data Model (B)
Probabilistic Model
Probabilistic Model เปนการจดล าดบเอกสารตามความนาจะเปนดานความเขาเรองของแตละเอกสารกบขอค าถามตามคาทก าหนด โดยเรยงล าดบจากมากไปหานอย
ความนาจะเปนทเอกสารไดจากการคนคนตองสนองตอค าขอ และความนาจะเปนตองรวมกนเปน 1 เหมอนการค านวณของฟงกชนสมาชกตามคอมพลเมนตของเซต
ขอด มวธการค านวณความนาจะเปนทไดรบการยอมรบโดยค านวณความนาจะเปนจากขอมลความถของค า
Best Match Searching using the
Probabilistic Model The probabilistic model query-document
matching score ms(j) for document j can be
determined using:
where w(i, j) is a term weighting scheme.
http://www.credmond.net/projects/filetrack-multimedia-information-retrieval/
Visualization and Classification of Documents
A New Probabilistic Model to Automated Text
Classification
http://www.ieee-tcdl.org/Bulletin/v2n2/dinunzio/dinunzio.html
Hybrid Model
Boolean Model มขอเสยคอการไมรวมน าหนกของค า Vector
Space Model มขอเสยของการทไมสามารถท าการเชอมตอทางตรรกะไดโดยงาย จงไดมความพยายามทจะท าการเอาขอดของทงสองมารวมกน จงไดจงไดม Extended Boolean Model
ตาราง: แสดงการเปรยบเทยบโมเดลระบบคนคนสารสนเทศในรปแบบตางๆ
Conceptual Model
File Structure Query Operation
Term Operation Document Operation
Boolean Flat File Feed Back Stem
Parse
Extended Boolean
Inverted File Parse
Weight Display
Probabilistic Signature Boolean Thesaurus Cluster
Vector space Graphs Truncation Sort
Hashing Filed Mark
Flat-file database
ฐานขอมลรายแฟมหมายถง โปรแกรมฐานขอมลทใชเกบและเรยกหาขอมล ออกมาใชไดทละแฟม เปนส าคญ ตรงขามกบฐานขอมลสมพนธ (relational
database) ซงจะท าใหเรยกหามาใชได มากกวาครงละหนงแฟม
Stem
Parse tree
Parse
Signature file
เทคโนโลยทสนบสนน => ปญญาประดษฐ
ระบบผเชยวชาญ
โปรแกรมตวแทนอจฉรยะ
การประมวลผลภาษาธรรมชาต
การใชภาษาธรรมชาตส าหรบขอค าถาม ไดแก Ask การคนคนสารสนเทศหลายภาษา หรอ การคนคนสารสนเทศขามภาษา
ระบบผเชยวชาญ
โปรแกรมตวแทนอจฉรยะ
ซอฟตแวรทมการปญญาประดษฐเพอชวยเหลอผใช มนษยโดยสามารถเรยนรไดดวยตวเองจากประสบการณและขอมลทเกยวของ
ในอดต และเพอพฒนาอลกอรทมทางComputational
Intelligence เพอชวยสนบสนนการตดสนใจของมนษย หรอแมกระทงท างานแทนทมนษย การพฒนาโปรแกรมแปลงอกษรเบรลล การวเคราะหการใชเทคโนโลยคอมพวเตอรส าหรบนกเรยนพการทางการ
มองเหน กรณเรยนรวมระดบมธยมศกษา กรงเทพมหานคร
โปรแกรมแปลงอกษรเบรลล
การประมวลผลภาษาธรรมชาต
การรบอนพตจากการพมพผานคยบอรด หรอเสยงพดผานไมโครโฟน หรอจากการอานเขาระบบผานแฟมขอมลเวรดโปรเซสซง แลวจดการตดทอนคดเอาเฉพาะทมความหมายสมบรณเขาเกบในคอมพวเตอร
NLP องคประกอบทส าคญดงน
การวเคราะหในเชงโครงสราง (Syntactic Analysis) จะเปนการตรวจสอบโครงสรางทางไวยากรณเกยวกบการวางต าแหนงของค านาม กรยา ค าบพบท ฯลฯ ทรวมเปนประโยค
การวเคราะหในเชงความหมาย (Semantic Analysis) จะเปนการแยกแยะความถกตองทางความหมายของประโยค ประโยคทถกวางแบบตามโครงสรางไวยากรณจะมความหมายอยางใดอยางหนงแนนอน แตบางครงความหมายทไดเปนความหมายทก ากวม หรออาจไรความหมายเปนไปไมได
Content scanning
การใชคอมพวเตอรมาชวยแสดงหรอตความเนอหาของขอความ เครองอานและแปลขอความของการเดนเรอทะเล เครองอานและแปลเทเลกซการโอนเงนระหวางประเทศ
ลกษณะของขอความทใชเปนแบบสน ๆ ค าทใชมกจะเปนค ายอและไมมรปไวยากรณทดนก
การท างานของระบบจะท าในระดบความหมาย (semantic level) การวเคราะหค าหรอขอความโดยอาศยพจนานกรมทเกบค าศพทไวในหนวยความจ าคอมพวเตอร แลวท างานรวมกบกฎตามหลกของภาษาเพอตความบอกชนดและความสมพนธของขอมล
Capture documents by scanning or uploading documents
Talkwriter
เครองทรบเสยงพดของมนษย แลวมการถายเปลยนสญญาณเสยงใหอยในรปสญญาณทเครองสามารถอานได หรอในรปของขอความแบบเวรดโปรเซสซง หรอในรปของค าสงเพอจะสงตอไปใชงานฐานขอมล
Database interface
การใชภาษาธรรมชาต มาสงงานเรยกใช เปนลกษณะของการถามหาขอมลดวยภาษาทใชในชวตประจ าวนจาก
ภาษาธรรมชาตทใช กจะมการแปลตความ และสรางเปนค าสงเพอเรยกใชฐานขอมล
Machine translation
เปนการใชคอมพวเตอรมาเพอการแปลภาษาระหวางภาษาของมนษย การแปลภาษาระหวางภาษาไทยกบ
ภาษาองกฤษ
การรวมขายงานของภาษาธรรมชาต ทงในแงของการอนเตอรเฟสดวยเสยง ดวย database interface
และ text editing เขาดวยกน ชวยอ านวยความสะดวกและเรงการ
ตดตอแลกเปลยนขอมลใหเปนไปอยางรวดเรว
Machine translation
มการเกบค าศพทพรอมวธการใชค านนภายในหนวยความจ าของคอมพวเตอรไว มขนาดใหญมากจรง ๆ ดงนนจงตองมการแปลเฉพาะสาขาในระยะน แตถาเทคโนโลยของคอมพวเตอรขยายไปอก การแปลมากสาขากอาจเปนไปไดในอนาคต
การวจยและการพฒนา
แบงออกไดเปน 2 ประเภท คอ เชงเทคนค การจบคไดมประสทธภาพขน การท าดรรชนหรอสาระสงเขปอตโนมต
เชงผใชและการใช เนนการใชทตรงตามความตองการ
ผใชและการใชสารสนเทศ (1)
ผใช คอ ผมความตองการสารสนเทศ แสวงหา คนหา หรอ ใชสารสนเทศ/ ตวแทนสารสนเทศ
ความตองการสารสนเทศของผใช – ภาวะทบคคลตระหนกถงชองวางทางความร หรอการขาดสารสนเทศ ซงผลกดนใหเกดการแสวงหาสารสนเทศ ความตองการสารสนเทศ – มลกษณะเปนพลวต จ าแนกไดตามเงอนไขของเวลา ตามขอบเขตและลกษณะความตองการ
ตวอยาง หองสมดดจทล
องคประกอบส าคญ คอ ทรพยากรในรปดจทล กระบวนการจดเกบ บรการสารสนเทศ ผใช เทคโนโลย
หองสมดดจทลทแตกตางจากเวบไซตทวไป จดการตามมาตรฐานหองสมดดจทลทเปนสากล
จดหมวดหมและการท ารายการทเปนมาตรฐาน
คนท าไดอยางมมาตรฐาน (หวเรอง ชอเรอง ชอผแตง ค าส าคญ)
น าเสนอผลการคนอยางมมาตรฐาน (ภาพในลกษณะตาง ๆ ฯลฯ)
ขอมลมคณภาพ: ความถกตอง ความนาเชอถอ ฯลฯ ขอมลและแหลงยงยน
มการเพมเตมเนอหาอยางตอเนอง