ra čunanje povednih moči

Računanje povednih moči

Probabilistične metode,

metoda vektorskega prostora,

obratna pogostost dokumentov.

Povedne moči - uvod

Osnovni namen postopkov avtomatskega indeksiranja je zgoščevanje zapisa ob nespremenjeni vsebini: z blokiranjem zavržemo besede brez vsebine (20% -

40% zgostitev, s krnjenjem nevtraliziramo vplive sintakse

(pomembna dodatna zgostitev, ker se ohranijo samo unikatni krni).

Zanemarimo dejstvo, da z blokiranjem in krnjenjem izgubimo del vsebine, skrite v medsebojnem odnosu besed.


Iz Luhnove krivulje sledi, da imajo različne besede različno vlogo pri opisovanju vsebine.

Delež posamezne besede v zalogi vsebine dokumenta imenujemo njeno povedno moč.


Dokumenti v zbirki opisujejo različne vsebine. Beseda, ki je pomembna za vsebinski opis

dokumenta, s svojim pojavljanjem dokument na nek način in do neke mere loči od ostalih dokumentov.

Beseda, ki bi se v zbirki pojavljala naključno, dokumentom ne bi prispevala vsebine.

Iz odmika od naključnega pojavljanja neke besede lahko sklepamo na njeno pomensko funkcijo.


Statistične metode računanja povednih moči besed ocenjujejo vlogo besed v dokumentih z dveh zornih kotov: reprezentacija: sposobnost besed, da predstavljajo

vsebino dokumenta, diskriminacija: sposobnost besed, da dokument ločijo

od ostalih v zbirki.


Probabilistične metode računanja povednih moči ocenjujejo verjetnost, da bo neka beseda vsebovana v relevantnem dokumentu.

Največjo povedno moč v dokumentu, ki govori o vsebini a, bo imela beseda, ki se z največjo verjetnostjo pojavlja v dokumentih o a, in z najmanjšo verjetnostjo v dokumentih, ki niso o a.

Probabilistične metode

Že dolgo vemo, da je beseda, ki se v nekem dokumentu pogosto pojavlja, verjetno pomembna za vsebino dokumenta. Frekvenca besede je torej povezana z njeno povedno močjo.

Primernost neke besede za opisovanje vsebine pa je odvisna tudi od števila dokumentov, v katerih se pojavlja.

Za opisovanje vsebine je primerna beseda, ki se zelo pogosto pojavlja v majhnem številu dokumentov.

IDFSparck Jones, 1972:

N število dokumentov v zbirki,

nb število dokumentov z besedo b.

IDF

b

bb n

nNIDF

log

Odvisnost med pojavljanjem besede b v dokumentih in njeno povedno močjo opisuje obratna pogostost vdokumentih (inverse document frequency, IDF).

Normalizacija dolžine dokumentov

Besede v dolgih dokumentih bodo v povprečju imele večje frekvence, kot v kratkih.

S tem bi bile povedne moči teh besed neupravičeno visoke in dolgi dokumenti bi imeli več možnosti da bodo poiskani, kot kratki.

Da bodo frekvence besed dobro predstavljale vsebino dokumentov, moramo dolžino dokumentov normalizirati.

Normalizacija: frekvenc besed popravimo, da bodo take, kot da bi izvirale iz eako dolgih dokumentov.

Povedna moč besede b v dokumentu d je odvisna od njene frekvence v dokumentu in IDF v zbirki:

Probabilistične metodeCroft, Harper, 1983:

d

bdbd

bdbbd

freq

freqKKf

fIDFPM

max_)1(

freqbd = frekvenca besede b v dokumentu d,max_freqd = frekvenca najpogostejše besede v dokumentu d (normalizacija glede dolžine dokumentov),K = konstanta, namenjena prilagajanju dolžini dokumentov.

Sorodnost iskalne zahteve q in dokumenta d je enaka vsoti povednih moči skupnih besed:


Croft, Harper, 1983:

n

iidi fIDFCdqsorodnost

1

)(),(

n = število besed, skupnih iskalni zahtevi q in dokumentu d, C = konstanta, namenjena prilagajanju načinu indeksiranja.

bfbd

b = 1

Zanima nas vsebina a. Z ozirom na vsebino a, imajo v zbirki besede,

prisotne v dokumentih, relevantnih za vsebino a, večjo povedno moč od besed, ki jih ni v relevantnih dokumentih

Iz porazdelitve neke besede med relevantnimi in nerelevantnimi dokumenti lahko sklepamo na njeno povedno moč.

Kako? Glej naslednje prosojnice.


Robertson, Sparck-Jones, 1976:

Probabilistične metodedok. je relevanten dok. ni relevanten skupaj

bes. je v dok. r n - r n

bes. ni v dok. R - r N – n – R + r N - n

skupaj R N - R N

Kontingenčna tabela porazdelitve besede b med relev. in nerelev. dokumenti za iskalno zahtevo q.

N število dokumentov v zbirki,R število relevantnih dokumentov v zbirki,n število dokumentov z besedo b,r število relevantnih dokumentov z besedo b.




skupaj R N - R N

a c

b d

dcba

x logmetoda računanja izkontingenčne tabele

dokumentunerelvbesedeverjetnost

dokumenturelvbesedeverjetnostmočpovedna

_.___

_.___log_




skupaj R N - R N

rRnNrnrR

r

PMbD log

Enačba s prejšnje prosojnice se je odlično izkazala v situacijah, ko poznamo relevantnost dokumentov na dano iskalno zahtevo.

Take situacije so zelo redke: testne zbirke, iskanje s povratno zanko (eno naslednjih predavanj).

Pri običajnem iskanju relevantnosti seveda ne poznamo vnaprej.


Predstavljajmo si množico različnih besed v zbirki dokumentov tridimenzionalno, v prostoru.

Vsaka beseda je točka s pozicijo v tem prostoru. Dokumente si predstavljajmo kot vektorje,

sestavljene iz besed v tem prostoru. Izhodišča vektorjev naj bodo v središču prostora

in vektorji naj bodo usmerjeni navzven. Smer vektora je odvisna od pozicij besed, ki ga

sestavljajo.

Model vektorskega prostora

Salton, 1975

Prisotnost besed v dveh vektorjih je izražena z kotom med vektorjema.

Več ko imata vektorja različnih besed, večji je kot med njima.


Poenostavljen prostor besed b1, b2, b3 in dokumentov D1, D2, D3.

Tri različne besede oblikujejo tri-dimenzionalni prostor.

Kot med vektorjema dveh identičnih dokumentov bi bil 0 stopinj.

Prostor n različnih besed je n-dimenzionalen in vsebuje toliko vektorjev, kolikor je dokumentov v zbirki.


Zvezdice predstavljajo konice vektorjev (dokumentov). C (centralni dokument ali centroid) je navidezni dokument,

ki predstavlja povprečje vseh stvarnih dokumentov.

Model vektorskega prostora Prostor besed je

omejen s številom besed in ima zato svoj končen volumen in površino.

Površino razgrnemo v dve dimenziji.izsek površine prostora

Različnost dveh dokumentov se na zgornji sliki površine izraža kot razdalja med konicama njunih vektorjev.

Stopnjo posebnosti dokumenta lahko prikažemo kot razdaljo konice njegovega vektorja od centroida.

Model vektorskega prostora Kot med vektorjema

ponazarja njuno različnost (različnost besed v dokumentih).

izsek površine prostora

V modelu vektorskega prostora ocenjujemo diskriminacijsko sposobnost besed.

Diskriminacijska sposobnost besed - lastnost besed, da s svojo vsebino razločujejo (diskriminirajo) dokumente.

Beseda z veliko diskriminacijsko sposobnostjo konice vektorjev razprši.

Večja ko je razpršenost, večja je diskriminacijska sposobnost besede.


Diskriminacijsko sposobnost besed lahko ocenjujemo tako, da merimo razpršenost, ki jo povzročajo.


Mero razpršenosti dokumentov Q predstavlja vsota sorodnosti S središčnega dokumenta C z vsakim posameznim dokumentom D.

i predstavlja posamezno od n besed.


n

iiDCSQ

1

),(

Sorodnost dokumenta in centroida je obratno sorazmerna s kotom med njunima vektorjema.

Lahko jo izračunamo z enačbo za kozinus kota.


Diskriminacijska vrednost DV besede b je mera sprememb, ki jo povzroči uvajanje te besede v prostor.

Če izračunamo mero razpršenosti prostora brez in z prisotnostjo besede b, je razlika razpršenosti v obeh primerih ravno diskriminacijska vrednost besede b.


QQDV bb

Diskriminacijska vrednost besede velja za vsak dokument v zbirki.

Upošteva samo povprečno pogostost pojavljanja te besede v zbirki dokumentov.


Zanima nas količina informacije v besedi (njena povedna moč) v konkretnem dokumentu.

Povedno moč PV besede b v dokumentu D dobimo tako, da diskriminacijsko vrednost DV te besede pomnožimo z njeno frekvenco f v dokumentu D.


bDbbD fDVPV

ra čunanje povednih moči

Documents