ct477 information retrieval - ramkhamhaeng...

Post on 25-Oct-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ครงท 2

ภาพรวมระบบคนคนสารสนเทศ(ตอ)

การน าเทคโนโลยสมยใหมมาประยกตใช

ระบบคนคนสารสนเทศ (Information Retrieval System หรอ IR)

ระบบทจดการประมวลผลสารสนเทศประเภทเอกสาร(Document) ในรปแบบตางๆ เชน ขอมล, หนงสอ , วารสาร , บทความ เปนตน โดยเกยวของในเรองการสรางดรรชน ,การเกบบนทก ,การดงเอกสาร โดยใชกลยทธและเทคนคตางๆ เพอแสดงรปแบบของผลลพธใหกบผใชซงใชเวลาและคาใชจายในเกณฑยอมรบได

รป : แสดงภาพรวมของระบบคนคนสารสนเทศ

ระบบคนคนสารสนเทศสามารถแบงได 3 ประเภทคอ

ระบบคนคนทใหค าถาม – ค าตอบ เปนการบรการคนค าตอบส าหรบค าถามทตองการค าตอบ ทเปนขอเทจจรง

ระบบคนคนทใหขอมลเปนตวเลขหรอสญลกษณ เปนระบบจดเกบขอมลทางฟสกส เคม ส ามะโนประชากร เปนตน

ระบบคนคนขอความจากวารสาร เปนระบบทจดเกบตวเนอหาเอกสารและสามารถเรยกขอความสวนใดสวนหนงของเอกสารได เชน ฐานขอมลทางกฎหมาย เปนตน

OSQA is the free, open source Q&A system it is a full-featured Q&A community.

Users can ask and answer questions,

comment and vote for the questions of others

and their answers

Both questions and answers can be revised and improved.

โปรแกรมตารางธาตเคม

ระบบสบคนขอมลออนไลน (OPAC - Online Public Access Cataloging)

เครองมอชวยคนหาขอมลบนอนเทอรเนตม 5 ประเภทใหญๆ คอ (Bradley, 2002)

Free text Search Engines

Directory Search Engines

Meta Search Engines

Natural-language Search Engines

Resource or Site-specific Search

Engines

Free text Search Engines http://home.kku.ac.th/hslib/412141/internet/freetext.htm

Directory Search Engines

Meta Search Engines

Dogpile (http://www.dogpile.com)

Metacrawler (http://www.metacrawler.com)

ProFusion (http://www.profusion.com)

Search (http://www.search.com)

SurfWax (http://www.surfwax.com)

Ixquick (http://www.ixquick.com)

Natural-language Search Engines

ค าถาม

ค าตอบ

User-centric Math Information Retrieval System

http://www.ieee-tcdl.org/Bulletin/v4n2/zhao/zhao.html

รป แสดงความแตกตางระหวาง Database และ IR

แนนอน ถกตอง

คลมเครอ

หมาย

รป: แสดงสวนประกอบของระบบคนคนสารสนเทศ

สวนน าเขาขอมล(Input)

โปรเซสเซอร (Processor) สวนของผลลพธ(OUTPUT)

สวนน าเขาขอมล(Input)

เปนสวนของการปอนขอค าถาม(query)จากผใชซงเปนภาษาธรรมชาต หรออาจเปนการน าเขาMetadata ซงเปนสารสนเทศเกยวกบเอกสารหรออาจไมเปนสวนหนงของเอกสารกไดแตเปนขอมลเกยวกบขอมล (data about data)หรอค าถาม

Descriptive metadata -ผแตง(Author)

-ชอเรอง(Title)

-แหลงทมา (book, magazine)

-วนท (Date)

-ISBN -ส านกพมพ(Publisher)

-ความยาว(Length)

Semantic metadata concerns the content -บทคดยอ(Abstract)

-ค าส าคญ(Keywords)

-รหสของหวเรอง(Subject Codes )

เทอมของหวเรอง (Subject terms)

สารสนเทศของเวป(Web Metadata)

-META tag in HTML

โปรเซสเซอร (Processor)

เปนสวนของการประมวลผล ไดแก การจดโครงสรางของสารสนเทศในรปแบบทเหมาะสม

การสรางตวแทนเอกสาร การแบงแยกกลมของเอกสาร

การจดเกบสารสนเทศ การดงขอมลตามทผใชตองการ

การท างานนนจะน าขอค าถามไปเปรยบเทยบกบตวแทนเอกสารทมอย เพอดงเอกสารทใกลเคยงน าออกมาใหแกผสอบถาม

สวนของผลลพธ(OUTPUT)

ผลลพธทไดจากระบบเปนขอความสนๆ เชน ชอ หนงสอ, หมายเลขเอกสาร, ชอผแตง, ส านกพมพ เปนตน

ผใชสามารถปรบปรงขอค าถามใหมเพอใหขอค าถามนนสบคนสารสนเทศไดตรงกบความตองการมากทสด เปนระบบตอบกลบ(feedback) ดงนนผลลพธทไดจงขนอยกบ ขอค าถาม (Query)

ขนตอนในการสรางระบบ IR

การสรางระบบคนคนสารสนเทศ แบงออกเปน 4 ขนตอนคอ การวเคราะหขอความ (Text Analysis) การจดแบงกลมขอมล (Classification) การเกบบนทกขอมลลงในแฟมขอมล การคนคนสารสนเทศ

Unstructured (text) vs. structured

(database) data in 1996

21

Unstructured (text) vs. structured

(database) data in 2009

22

Information Retrieval

Text Analysis graph

Text Analysis star graph

The classic search model

Corpus

TASK

Info Need

Query

Verbal

form

Results

SEARCH

ENGINE

Query

Refinement

Get rid of mice in a

politically correct way

Info about removing mice

without killing them

How do I trap mice alive?

mouse trap

Misconception?

Mistranslation?

Misformulation?

Text analysis enhances a wide variety of applications

OpenI Business Intelligence (BI)

ซอฟตแวร (Software) ทน าขอมลทมอยเพอจดท ารายงานในรปแบบตางๆ โดยท าหนาทในการดงขอมลจาก Database โดยตรงแลวน าเสนอในรปแบบของ Report ชนดตางๆทเหมาะสมกบมมมองในการวเคราะห และตรงตามความตองการของผใชงานในรปแบบหลายมต (Multidimensional Model) ซงจะท าใหสามารถดขอมลแบบเจาะลก (Drill-down)ได

Enterprise Content Management (ECM)

ซอฟตแวรใชรวบรวมเนอหาทมปรมาณจ านวนมหาศาล และถกจดเกบอยหลายรปแบบ มาผานกระบวนการจดการเนอหาจดหมวดหม,จดเรยง,การประสานขอมลชนดตางๆ เพอใหขอมลมความสมพนธ ท าใหงายตอการน ามาใชงาน เปนการจดการเนอหาระดบองคกรโดยจดเกบขอมลแบบไมมโครงสราง(UnStructure Data)

จากไมโครซอฟตออฟฟศ(MS office,exels,Power Point)

ไฟลเวป เชน .html,XML

ไฟลทเปนเอกสารอเลกทรอนกส ไดแก .PDF

ไฟลภาพถาย เชน .JPG, .GIF, .RAW,

ไฟลวดโอ หรอไฟลเสยง ไดแก .avi, .dat, .VOB

ไฟลขอมล ไมวาจะเปนไฟลขอความ, .DBF, .MDB, .GDB, .DB)

ไฟลบบ(Zip files)

Data mining

กระบวนการคนหาสารสนเทศทางธรกจทมมลคาตอองคกร ในฐานขอมลขนาดใหญ คลงขอมล หรอตลาดขอมล

สามารถท านายแนวโนมและพฤตกรรมตางๆโดยอตโนมต

Data mining

Data Visualization

เปนการน าเสนอขอมลโดยใชเทคโนโลยตางๆ เชน รปภาพ ตาราง วดโอ กราฟ ภาพเคลอนไหว สอประสม

สามารถมองภาพในหลายมตในเวลาเดยวกน สนคา พนกงานขาย สวนแบงตลาด

Analytics Edition Architecture

Data Cleansing

Data cleansing คอขนตอนในการรบประกนวาขอมลนนๆมความชดเจนและถกตอง ซงในขนตอนการท านนขอมลทบนทกไวจะถกตรวจสอบความถกตองหรอลบขอมลบางสวนทไมจ าเปนออกไป

การท า Data cleansing สามารถท าไดทงภายในขอมลชดเดยวหรอระหวางขอมลหลายชดซงสามารถน ามารวมกนได หรอเปนขอมลทตองมการใชงานรวมกน

Database cleaning

Linguistic Analysis

ขจดค าก ากวมทใชในภาษา Tagging คอ index หรอ keyword ของเนอหา

dependency analysis วเคราะหค าทขนตอกน

name entity extraction แยกเอนตตชอ intention analysis วเคราะหเจตจ านงค ความมงมน

Category dictionary

Synonym dictionary

Mining engine

Overview of a Document Classification Application

Tree of classification of the order Coleoptera (to family

level) on the site on the Minnesota State University (USA)

Text Classification.

รป : แสดงโครงสรางของระบบคนคนสารสนเทศ

คราวๆ

เอกสารทเกยวของทเปนไปได

ขอมลทเปนประโยชน ในการคนหาค าศพท

ดชน ประเดนเนอหา

Inverted file

รป: The Standard Retrieval Interaction Model

การประเมนผลระบบคนคนสารสนเทศ (Evaluation of IR System)

พฒนาประสทธภาพ

(Efficiency)

วดจาก - เนอทในการจดเกบในหนวยความจ า

- CPU Time

ประสทธผล

(Effectiveness)

วดจาก - คาใชจาย - ตนทนในการสรางระบบ

- Recall

- Precision

ประสทธผลของระบบ

Precision = จ านวนของเอกสารทเกยวของทถกดงออกมา / จ านวนทงหมดของเอกสารทถกดงออกมา

Recall = จ านวนของเอกสารทเกยวของทถกดงออกมา / จ านวนของเอกสารทงหมดทเกยวของ

ประสทธผลของระบบ HIT : เอกสารทเกยวของทถกดงออกมา WASTED : เอกสารทไมเกยวของทถกถงออกมา MISSED :เอกสารทเกยวของทไมถกดงออกมา PASSED : เอกสารทไมเกยวของทไมถกดงออกมา

MISSED HIT WASTED PASSED

Relevant(เกยวของ) Non-relevant(ไมเกยวของ)

Not Retrieved Retrieved

(ดงออกมา) Not Retrieved

Recall = HIT / Relevant เปนการวดความสามารถของระบบในการดงเอกสารทเกยวของออกมา

Precision = HIT / Retrieved เปนการวดความสามารถของระบบในการขจดเอกสารทไมเกยวของออกไป

การหาประสทธภาพของระบบคนคนสารสนเทศ

Recall & Precision =?

Effectiveness?

3000

3000

6000 8000

Recall = A/(A+D)

Proportion of documents relevant to a search question

that are retrieved by a given search formulation.

Precision = A/(A+B)

Proportion of documents retrieved by a given search

formulation that is relevant to the search question.

http://choo.fis.utoronto.ca/FIS/Courses/LIS1325/RecallPrecision3.html

How to improve PRECISION NARROW the search:

Condense FACETS with fewer synonyms or more specific terms ยอแงมมใหเปนค าเฉพาะ

Add a new FACET

Search in fewer SUBJECT FIELDS (Title,

Abstract, Descriptors)

Use more restrictive WORD OPERATORS

How to improve RECALL

BROADEN the search:

Expand FACETS with more search terms

Drop an existing FACET

Search in more SUBJECT FIELDS (Title,

Abstract, Descriptors)

Use less restrictive WORD OPERATORS

ววฒนาการของระบบคนคนสารสนเทศ

ววฒนาการของระบบคนคนสารสนเทศ

คศ. 1960-70 เรมตนในการส ารวจระบบคนคน

สารสนเทศส าหรบขอความทมขนาดเลกทเปนบทคดยอทางดานวทยาศาสตร กฎหมาย หรอ เปนเอกสารทางดานธรกจ มการพฒนา บลนพนฐาน และ Vector Space Model ส าหรบการคนคนสารสนเทศ

คศ. 1980 ระบบจะมการสบคนจากฐานขอมล

เอกสารขนาดใหญทมการปฏบตงานในหลายๆบรษท เชน Lexis-

Nexis/MEDLINE

พฒนาการของการจดเกบและคนคนสารสนเทศ ทศวรรษ 1960

ระยะแรกเรม เปนการพฒนาระบบ และเครองมอจดเกบสอบนทกความรและคนหาทรพยากรสารสนเทศในลกษณะสงพมพ เชนระบบจดหมวดหม การจดท าดรรชนและสาระสงเขปดวยระบบมอ

พฒนาการของการจดเกบและคนคนสารสนเทศ ทศวรรษ 1960

เทคโนโลยระยะแรก มการน าไมโครกราฟก (ถายภาพยอสวนลงฟลม) มาใชจดเกบและ คนคนสารสนเทศ โดยมการใชระบบคอมพวเตอรท าดรรชนและบตรรายการ

ระยะท 2 พฒนาการของการจดเกบและคนคนสารสนเทศตงแต คศ.1960 พฒนาการดานการวจยและพฒนาระบบจดเกบและคนคนสารสนเทศท สาคญ

โครงการตาง ๆ อาท การวจยกลมแครนฟลด เมดลารส สมารท การ วจยของซาระเซวค และกลมเทรค เกดกลมความรวมมอระหวางหนวยงาน

บรการสารสนเทศ รวมถงบรการคนคนสารสนเทศเชงพาณชย การจดเกบ และคนคนสารสนเทศบน อนเทอรเนต

ววฒนาการของระบบคนคนสารสนเทศ

คศ. 1990

มการสบคน FTP และ World

Wide Web บนอนเทอรเนต เชน Archie ,WAIS ,Lycos ,

Yahoo ,Altavista

คศ. 2000 จนถงปจจบน

มการเชอมโยงโดยวเคราะหจาก Web

Search เชน Google

นอกจากนมการสบคนสอผสม (multimedia) ไมวาเปนภาพ เสยง เพลง วดโอ การสรปเอกสาร เปนตน

FTP(Flie Transfer Protocol)

เปนการถายโอนแฟมขอมลระหวางเครองคอมพวเตอร 2 เครอง ซงอยบนเครอขายอนเทอรเนต ในระบบเครอขายอนเตอรเนต มเครองคอมพวเตอรทใหบรการการถายโอนแฟมขอมลเปนสาธารณะ มอยเปนจ านวนมาก เรยกเครองคอมพวเตอรทใหบรการถายโอนแฟมขอมลนวา FTP Server

Search engine

Altavista

แสดง Web Search System

Query

String IR

System

Ranked

Documents

1. Page1

2. Page2

3. Page3

.

.

Document

corpus

Web Spider

Spider

บนทกขอมลหนาเพจตางๆ จากทวโลกเอามาจดเกบใหเปนระเบยบและมการจดอนดบตามความเหมาะสมของ เนอหานนๆ ( SEO)

สงทคนสวนมากคนหาใน web โดยการศกษาจาก Spink et al., Oct 98

Genealogy/Public Figure: 12%

Computer related: 12%

Business: 12%

Entertainment: 8%

Medical: 8%

Politics & Government 7%

News 7%

Hobbies 6%

General info/surfing 6%

Science 6%

Travel 5%

Arts/education/shopping/images 14%

ลามก

Simple model of IR

IR Models

Non-Overlapping Lists

Proximal Nodes

Structured Models

Retrieval:

Adhoc

Filtering

Browsing

U

s

e

r

T

a

s

k

Classic Models

boolean

vector

probabilistic

Set Theoretic

Fuzzy

Extended Boolean

Probabilistic

Inference Network

Belief Network

Algebraic

Generalized Vector

Lat. Semantic Index

Neural Networks

Browsing

Flat

Structure Guided

Hypertext

IR Model สามารถจ าแนกเปน 4 ชนด

Set Theoretic Models

ใชบลนโมเดล ซงอยบนพนฐานของ แนวความคดเชงตรรกะหรอพชคณตบลน

Algebraic Models

เอกสารแตละอนจะถกน าแสดงโดย Vector หรอชดของค าทมการจดเรยงล าดบ

Probabilistic Model

แบบความนาจะเปนโดยฟงกชนตดสนทถกใชเปนแบบนาจะเปน

Hybrid Model

Boolean+Vector

Set Theoretic Models

ใชบลนโมเดล ซงอยบนพนฐานของแนวความคดเชงตรรกะหรอพชคณต

บลน ( Boolean Algebra ) กบค าทถกรวมกนโดยตวเชอมทางตรรกะหรอพชคณต และ( AND )หรอ ( OR )ไม ( NOT )

ตวแบบการคน พจารณาจากการจบคหรอเปรยบเทยบ ระหวางขอค าถาม และดรรชนแทนสารสนเทศทสะสมไว ใหสามารถคนคนสารสนเทศทเขาเรองหรอตรงกบความตองการ

ตวแบบการคน

Boolean model เปนการจบคแบบตรงกนระหวางศพทดรรชนและค าคน

Retrieval Status Value ( RSV) เปนมาตรการเกยวกบการควรเอกสารทมความSimilality RSV จะมคาเทากบ 1 เมอควรทแสดงมคาเปน True มการคนพบเอกสาร

ทเกยวของตามทควร

RVS มคาเปน 0 เมอควรทแสดงเปนคาอน

Set Theoretic Models

ขอดของ Boolean Model

เขาใจงาย เวลา Query ก าหนดความตองการไดวาจะเอาค าไหนซงเปนลกษณะงาย ๆ ทมรปแบบไมซบซอน

เปนการหาขอมลในลกษณะ ใช / ไมใช เจอ / ไมเจอ

ขอเสยของ Boolean Model

ไมมการจดล าดบของเอกสาร ( Ranking ) และไมมการเปรยบเทยบ (Relevance )

ใช Query ทมความซบซอนไมได ควบคมจ านวนเอกสารยาก มความล าบากในการยอมรบเนองจาก

ตรงหรอส าคญเปนความตองการของ User

Venn diagram

SQL

Algebraic Models

แทนเอกสารและขอค าถามในรปเวกเตอร (Vector) โดยก าหนดคาน าหนกของค า ดวยความถของค าทปรากฎในเอกสาร และค าทปรากฎในฐานขอมล

วธการประเมนขนอยกบ Vector 0-1 ซงแตละองคประกอบเปน 0 ถาค านน ๆ ไมปรากฏ หรอเปน 1 ถาค านน ๆ ปรากฎในเอกสารตามทควร และการประเมนอกทางหนงอยบนพนฐานของ Vector น าหนกซง

องคประกอบของมนเปนน าหนกหรอคาทถกก าหนดใหแตละค าในเอกสาร

Algebraic Models

รปแบบการท างานของ Vector Model

ใหความส าคญความถของค าทปรากฏอยในเอกสารและความถมผลตอการใหคาน าหนกของค า ไดแก

- Term Frequency คอการใชความถของค า เชนเจอ 1 ครง เรยกวา Term ทงนขนอยกบจ านวนค าของเอกสาร โดย Term จะแทนค าศพทของแตละค า

- Term Weight ( น าหนกของค า ) ความถของค า ๆ หนงทพบในทก ๆ เอกสาร

สามารถจดอนดบของเอกสารโดยใชเกณฑความส าคญของค าและการ Match กนของค า

Vector space Model

http://www.llrx.com/features/searchenterprise.htm

Vector Space Model

ขอด

ใชคณตศาสตรเรยบงายในการคด มการพจารณาจากความถของค า

และสามารถจดRanking ของเอกสารได สามารถใชกบเอกสารท

มขอมลมาก ๆ ไดด

ขอเสย

- ไมสนใจความหมายของค า , วล , โครงสรางของค า , ค าทมความหมาย

เหมอนกน ( Synonymy ) - สบคนใสเงอนไขแบบ Boolean

Model ไมได

Comparison Between the Vector Model (A) and the Raster Data Model (B)

Probabilistic Model

Probabilistic Model เปนการจดล าดบเอกสารตามความนาจะเปนดานความเขาเรองของแตละเอกสารกบขอค าถามตามคาทก าหนด โดยเรยงล าดบจากมากไปหานอย

ความนาจะเปนทเอกสารไดจากการคนคนตองสนองตอค าขอ และความนาจะเปนตองรวมกนเปน 1 เหมอนการค านวณของฟงกชนสมาชกตามคอมพลเมนตของเซต

ขอด มวธการค านวณความนาจะเปนทไดรบการยอมรบโดยค านวณความนาจะเปนจากขอมลความถของค า

Best Match Searching using the

Probabilistic Model The probabilistic model query-document

matching score ms(j) for document j can be

determined using:

where w(i, j) is a term weighting scheme.

http://www.credmond.net/projects/filetrack-multimedia-information-retrieval/

Visualization and Classification of Documents

A New Probabilistic Model to Automated Text

Classification

http://www.ieee-tcdl.org/Bulletin/v2n2/dinunzio/dinunzio.html

Hybrid Model

Boolean Model มขอเสยคอการไมรวมน าหนกของค า Vector

Space Model มขอเสยของการทไมสามารถท าการเชอมตอทางตรรกะไดโดยงาย จงไดมความพยายามทจะท าการเอาขอดของทงสองมารวมกน จงไดจงไดม Extended Boolean Model

ตาราง: แสดงการเปรยบเทยบโมเดลระบบคนคนสารสนเทศในรปแบบตางๆ

Conceptual Model

File Structure Query Operation

Term Operation Document Operation

Boolean Flat File Feed Back Stem

Parse

Extended Boolean

Inverted File Parse

Weight Display

Probabilistic Signature Boolean Thesaurus Cluster

Vector space Graphs Truncation Sort

Hashing Filed Mark

Flat-file database

ฐานขอมลรายแฟมหมายถง โปรแกรมฐานขอมลทใชเกบและเรยกหาขอมล ออกมาใชไดทละแฟม เปนส าคญ ตรงขามกบฐานขอมลสมพนธ (relational

database) ซงจะท าใหเรยกหามาใชได มากกวาครงละหนงแฟม

Stem

Parse tree

Parse

Signature file

เทคโนโลยทสนบสนน => ปญญาประดษฐ

ระบบผเชยวชาญ

โปรแกรมตวแทนอจฉรยะ

การประมวลผลภาษาธรรมชาต

การใชภาษาธรรมชาตส าหรบขอค าถาม ไดแก Ask การคนคนสารสนเทศหลายภาษา หรอ การคนคนสารสนเทศขามภาษา

ระบบผเชยวชาญ

โปรแกรมตวแทนอจฉรยะ

ซอฟตแวรทมการปญญาประดษฐเพอชวยเหลอผใช มนษยโดยสามารถเรยนรไดดวยตวเองจากประสบการณและขอมลทเกยวของ

ในอดต และเพอพฒนาอลกอรทมทางComputational

Intelligence เพอชวยสนบสนนการตดสนใจของมนษย หรอแมกระทงท างานแทนทมนษย การพฒนาโปรแกรมแปลงอกษรเบรลล การวเคราะหการใชเทคโนโลยคอมพวเตอรส าหรบนกเรยนพการทางการ

มองเหน กรณเรยนรวมระดบมธยมศกษา กรงเทพมหานคร

โปรแกรมแปลงอกษรเบรลล

การประมวลผลภาษาธรรมชาต

การรบอนพตจากการพมพผานคยบอรด หรอเสยงพดผานไมโครโฟน หรอจากการอานเขาระบบผานแฟมขอมลเวรดโปรเซสซง แลวจดการตดทอนคดเอาเฉพาะทมความหมายสมบรณเขาเกบในคอมพวเตอร

NLP องคประกอบทส าคญดงน

การวเคราะหในเชงโครงสราง (Syntactic Analysis) จะเปนการตรวจสอบโครงสรางทางไวยากรณเกยวกบการวางต าแหนงของค านาม กรยา ค าบพบท ฯลฯ ทรวมเปนประโยค

การวเคราะหในเชงความหมาย (Semantic Analysis) จะเปนการแยกแยะความถกตองทางความหมายของประโยค ประโยคทถกวางแบบตามโครงสรางไวยากรณจะมความหมายอยางใดอยางหนงแนนอน แตบางครงความหมายทไดเปนความหมายทก ากวม หรออาจไรความหมายเปนไปไมได

Content scanning

การใชคอมพวเตอรมาชวยแสดงหรอตความเนอหาของขอความ เครองอานและแปลขอความของการเดนเรอทะเล เครองอานและแปลเทเลกซการโอนเงนระหวางประเทศ

ลกษณะของขอความทใชเปนแบบสน ๆ ค าทใชมกจะเปนค ายอและไมมรปไวยากรณทดนก

การท างานของระบบจะท าในระดบความหมาย (semantic level) การวเคราะหค าหรอขอความโดยอาศยพจนานกรมทเกบค าศพทไวในหนวยความจ าคอมพวเตอร แลวท างานรวมกบกฎตามหลกของภาษาเพอตความบอกชนดและความสมพนธของขอมล

Capture documents by scanning or uploading documents

Talkwriter

เครองทรบเสยงพดของมนษย แลวมการถายเปลยนสญญาณเสยงใหอยในรปสญญาณทเครองสามารถอานได หรอในรปของขอความแบบเวรดโปรเซสซง หรอในรปของค าสงเพอจะสงตอไปใชงานฐานขอมล

Database interface

การใชภาษาธรรมชาต มาสงงานเรยกใช เปนลกษณะของการถามหาขอมลดวยภาษาทใชในชวตประจ าวนจาก

ภาษาธรรมชาตทใช กจะมการแปลตความ และสรางเปนค าสงเพอเรยกใชฐานขอมล

Machine translation

เปนการใชคอมพวเตอรมาเพอการแปลภาษาระหวางภาษาของมนษย การแปลภาษาระหวางภาษาไทยกบ

ภาษาองกฤษ

การรวมขายงานของภาษาธรรมชาต ทงในแงของการอนเตอรเฟสดวยเสยง ดวย database interface

และ text editing เขาดวยกน ชวยอ านวยความสะดวกและเรงการ

ตดตอแลกเปลยนขอมลใหเปนไปอยางรวดเรว

Machine translation

มการเกบค าศพทพรอมวธการใชค านนภายในหนวยความจ าของคอมพวเตอรไว มขนาดใหญมากจรง ๆ ดงนนจงตองมการแปลเฉพาะสาขาในระยะน แตถาเทคโนโลยของคอมพวเตอรขยายไปอก การแปลมากสาขากอาจเปนไปไดในอนาคต

การวจยและการพฒนา

แบงออกไดเปน 2 ประเภท คอ เชงเทคนค การจบคไดมประสทธภาพขน การท าดรรชนหรอสาระสงเขปอตโนมต

เชงผใชและการใช เนนการใชทตรงตามความตองการ

ผใชและการใชสารสนเทศ (1)

ผใช คอ ผมความตองการสารสนเทศ แสวงหา คนหา หรอ ใชสารสนเทศ/ ตวแทนสารสนเทศ

ความตองการสารสนเทศของผใช – ภาวะทบคคลตระหนกถงชองวางทางความร หรอการขาดสารสนเทศ ซงผลกดนใหเกดการแสวงหาสารสนเทศ ความตองการสารสนเทศ – มลกษณะเปนพลวต จ าแนกไดตามเงอนไขของเวลา ตามขอบเขตและลกษณะความตองการ

ตวอยาง หองสมดดจทล

องคประกอบส าคญ คอ ทรพยากรในรปดจทล กระบวนการจดเกบ บรการสารสนเทศ ผใช เทคโนโลย

หองสมดดจทลทแตกตางจากเวบไซตทวไป จดการตามมาตรฐานหองสมดดจทลทเปนสากล

จดหมวดหมและการท ารายการทเปนมาตรฐาน

คนท าไดอยางมมาตรฐาน (หวเรอง ชอเรอง ชอผแตง ค าส าคญ)

น าเสนอผลการคนอยางมมาตรฐาน (ภาพในลกษณะตาง ๆ ฯลฯ)

ขอมลมคณภาพ: ความถกตอง ความนาเชอถอ ฯลฯ ขอมลและแหลงยงยน

มการเพมเตมเนอหาอยางตอเนอง

top related