ra čunanje povednih moči

29
Računanje povednih moči Probabilistične metode, metoda vektorskega prostora, obratna pogostost dokumentov.

Upload: duena

Post on 11-Jan-2016

53 views

Category:

Documents


4 download

DESCRIPTION

Ra čunanje povednih moči. Probabilistične metode, metoda vektorskega prostora, obratna pogostost dokumentov. Povedne moči - uvod. Osnovni namen postopkov avtomatskega indeksiranja je zgoščevanje zapisa ob nespremenjeni vsebini: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Ra čunanje povednih moči

Računanje povednih moči

Probabilistične metode,

metoda vektorskega prostora,

obratna pogostost dokumentov.

Page 2: Ra čunanje povednih moči

Povedne moči - uvod

Osnovni namen postopkov avtomatskega indeksiranja je zgoščevanje zapisa ob nespremenjeni vsebini: z blokiranjem zavržemo besede brez vsebine (20% -

40% zgostitev, s krnjenjem nevtraliziramo vplive sintakse

(pomembna dodatna zgostitev, ker se ohranijo samo unikatni krni).

Zanemarimo dejstvo, da z blokiranjem in krnjenjem izgubimo del vsebine, skrite v medsebojnem odnosu besed.

Page 3: Ra čunanje povednih moči

Povedne moči - uvod

Iz Luhnove krivulje sledi, da imajo različne besede različno vlogo pri opisovanju vsebine.

Delež posamezne besede v zalogi vsebine dokumenta imenujemo njeno povedno moč.

Page 4: Ra čunanje povednih moči

Povedne moči - uvod

Dokumenti v zbirki opisujejo različne vsebine. Beseda, ki je pomembna za vsebinski opis

dokumenta, s svojim pojavljanjem dokument na nek način in do neke mere loči od ostalih dokumentov.

Page 5: Ra čunanje povednih moči

Beseda, ki bi se v zbirki pojavljala naključno, dokumentom ne bi prispevala vsebine.

Iz odmika od naključnega pojavljanja neke besede lahko sklepamo na njeno pomensko funkcijo.

Povedne moči - uvod

Page 6: Ra čunanje povednih moči

Statistične metode računanja povednih moči besed ocenjujejo vlogo besed v dokumentih z dveh zornih kotov: reprezentacija: sposobnost besed, da predstavljajo

vsebino dokumenta, diskriminacija: sposobnost besed, da dokument ločijo

od ostalih v zbirki.

Povedne moči - uvod

Page 7: Ra čunanje povednih moči

Probabilistične metode računanja povednih moči ocenjujejo verjetnost, da bo neka beseda vsebovana v relevantnem dokumentu.

Največjo povedno moč v dokumentu, ki govori o vsebini a, bo imela beseda, ki se z največjo verjetnostjo pojavlja v dokumentih o a, in z najmanjšo verjetnostjo v dokumentih, ki niso o a.

Probabilistične metode

Page 8: Ra čunanje povednih moči

Že dolgo vemo, da je beseda, ki se v nekem dokumentu pogosto pojavlja, verjetno pomembna za vsebino dokumenta. Frekvenca besede je torej povezana z njeno povedno močjo.

Primernost neke besede za opisovanje vsebine pa je odvisna tudi od števila dokumentov, v katerih se pojavlja.

Za opisovanje vsebine je primerna beseda, ki se zelo pogosto pojavlja v majhnem številu dokumentov.

IDFSparck Jones, 1972:

Page 9: Ra čunanje povednih moči

N število dokumentov v zbirki,

nb število dokumentov z besedo b.

IDF

b

bb n

nNIDF

log

Odvisnost med pojavljanjem besede b v dokumentih in njeno povedno močjo opisuje obratna pogostost vdokumentih (inverse document frequency, IDF).

Page 10: Ra čunanje povednih moči

Normalizacija dolžine dokumentov

Besede v dolgih dokumentih bodo v povprečju imele večje frekvence, kot v kratkih.

S tem bi bile povedne moči teh besed neupravičeno visoke in dolgi dokumenti bi imeli več možnosti da bodo poiskani, kot kratki.

Da bodo frekvence besed dobro predstavljale vsebino dokumentov, moramo dolžino dokumentov normalizirati.

Normalizacija: frekvenc besed popravimo, da bodo take, kot da bi izvirale iz eako dolgih dokumentov.

Page 11: Ra čunanje povednih moči

Povedna moč besede b v dokumentu d je odvisna od njene frekvence v dokumentu in IDF v zbirki:

Probabilistične metodeCroft, Harper, 1983:

d

bdbd

bdbbd

freq

freqKKf

fIDFPM

max_)1(

freqbd = frekvenca besede b v dokumentu d,max_freqd = frekvenca najpogostejše besede v dokumentu d (normalizacija glede dolžine dokumentov),K = konstanta, namenjena prilagajanju dolžini dokumentov.

Page 12: Ra čunanje povednih moči

Sorodnost iskalne zahteve q in dokumenta d je enaka vsoti povednih moči skupnih besed:

Probabilistične metode

Croft, Harper, 1983:

n

iidi fIDFCdqsorodnost

1

)(),(

n = število besed, skupnih iskalni zahtevi q in dokumentu d, C = konstanta, namenjena prilagajanju načinu indeksiranja.

bfbd

b = 1

Page 13: Ra čunanje povednih moči

Zanima nas vsebina a. Z ozirom na vsebino a, imajo v zbirki besede,

prisotne v dokumentih, relevantnih za vsebino a, večjo povedno moč od besed, ki jih ni v relevantnih dokumentih

Iz porazdelitve neke besede med relevantnimi in nerelevantnimi dokumenti lahko sklepamo na njeno povedno moč.

Kako? Glej naslednje prosojnice.

Probabilistične metode

Robertson, Sparck-Jones, 1976:

Page 14: Ra čunanje povednih moči

Probabilistične metodedok. je relevanten dok. ni relevanten skupaj

bes. je v dok. r n - r n

bes. ni v dok. R - r N – n – R + r N - n

skupaj R N - R N

Kontingenčna tabela porazdelitve besede b med relev. in nerelev. dokumenti za iskalno zahtevo q.

N število dokumentov v zbirki,R število relevantnih dokumentov v zbirki,n število dokumentov z besedo b,r število relevantnih dokumentov z besedo b.

Page 15: Ra čunanje povednih moči

Probabilistične metodedok. je relevanten dok. ni relevanten skupaj

bes. je v dok. r n - r n

bes. ni v dok. R - r N – n – R + r N - n

skupaj R N - R N

a c

b d

dcba

x logmetoda računanja izkontingenčne tabele

dokumentunerelvbesedeverjetnost

dokumenturelvbesedeverjetnostmočpovedna

_.___

_.___log_

Page 16: Ra čunanje povednih moči

Probabilistične metodedok. je relevanten dok. ni relevanten skupaj

bes. je v dok. r n - r n

bes. ni v dok. R - r N – n – R + r N - n

skupaj R N - R N

rRnNrnrR

r

PMbD log

Page 17: Ra čunanje povednih moči

Enačba s prejšnje prosojnice se je odlično izkazala v situacijah, ko poznamo relevantnost dokumentov na dano iskalno zahtevo.

Take situacije so zelo redke: testne zbirke, iskanje s povratno zanko (eno naslednjih predavanj).

Pri običajnem iskanju relevantnosti seveda ne poznamo vnaprej.

Probabilistične metode

Page 18: Ra čunanje povednih moči

Predstavljajmo si množico različnih besed v zbirki dokumentov tridimenzionalno, v prostoru.

Vsaka beseda je točka s pozicijo v tem prostoru. Dokumente si predstavljajmo kot vektorje,

sestavljene iz besed v tem prostoru. Izhodišča vektorjev naj bodo v središču prostora

in vektorji naj bodo usmerjeni navzven. Smer vektora je odvisna od pozicij besed, ki ga

sestavljajo.

Model vektorskega prostora

Salton, 1975

Page 19: Ra čunanje povednih moči

Prisotnost besed v dveh vektorjih je izražena z kotom med vektorjema.

Več ko imata vektorja različnih besed, večji je kot med njima.

Model vektorskega prostora

Poenostavljen prostor besed b1, b2, b3 in dokumentov D1, D2, D3.

Tri različne besede oblikujejo tri-dimenzionalni prostor.

Page 20: Ra čunanje povednih moči

Kot med vektorjema dveh identičnih dokumentov bi bil 0 stopinj.

Prostor n različnih besed je n-dimenzionalen in vsebuje toliko vektorjev, kolikor je dokumentov v zbirki.

Model vektorskega prostora

Page 21: Ra čunanje povednih moči

Zvezdice predstavljajo konice vektorjev (dokumentov). C (centralni dokument ali centroid) je navidezni dokument,

ki predstavlja povprečje vseh stvarnih dokumentov.

Model vektorskega prostora Prostor besed je

omejen s številom besed in ima zato svoj končen volumen in površino.

Površino razgrnemo v dve dimenziji.izsek površine prostora

Page 22: Ra čunanje povednih moči

Različnost dveh dokumentov se na zgornji sliki površine izraža kot razdalja med konicama njunih vektorjev.

Stopnjo posebnosti dokumenta lahko prikažemo kot razdaljo konice njegovega vektorja od centroida.

Model vektorskega prostora Kot med vektorjema

ponazarja njuno različnost (različnost besed v dokumentih).

izsek površine prostora

Page 23: Ra čunanje povednih moči

V modelu vektorskega prostora ocenjujemo diskriminacijsko sposobnost besed.

Diskriminacijska sposobnost besed - lastnost besed, da s svojo vsebino razločujejo (diskriminirajo) dokumente.

Beseda z veliko diskriminacijsko sposobnostjo konice vektorjev razprši.

Večja ko je razpršenost, večja je diskriminacijska sposobnost besede.

Model vektorskega prostora

Page 24: Ra čunanje povednih moči

Diskriminacijsko sposobnost besed lahko ocenjujemo tako, da merimo razpršenost, ki jo povzročajo.

Model vektorskega prostora

Page 25: Ra čunanje povednih moči

Mero razpršenosti dokumentov Q predstavlja vsota sorodnosti S središčnega dokumenta C z vsakim posameznim dokumentom D.

i predstavlja posamezno od n besed.

Model vektorskega prostora

n

iiDCSQ

1

),(

Page 26: Ra čunanje povednih moči

Sorodnost dokumenta in centroida je obratno sorazmerna s kotom med njunima vektorjema.

Lahko jo izračunamo z enačbo za kozinus kota.

Model vektorskega prostora

Page 27: Ra čunanje povednih moči

Diskriminacijska vrednost DV besede b je mera sprememb, ki jo povzroči uvajanje te besede v prostor.

Če izračunamo mero razpršenosti prostora brez in z prisotnostjo besede b, je razlika razpršenosti v obeh primerih ravno diskriminacijska vrednost besede b.

Model vektorskega prostora

QQDV bb

Page 28: Ra čunanje povednih moči

Diskriminacijska vrednost besede velja za vsak dokument v zbirki.

Upošteva samo povprečno pogostost pojavljanja te besede v zbirki dokumentov.

Model vektorskega prostora

Page 29: Ra čunanje povednih moči

Zanima nas količina informacije v besedi (njena povedna moč) v konkretnem dokumentu.

Povedno moč PV besede b v dokumentu D dobimo tako, da diskriminacijsko vrednost DV te besede pomnožimo z njeno frekvenco f v dokumentu D.

Model vektorskega prostora

bDbbD fDVPV