ra čunanje povednih moči
DESCRIPTION
Ra čunanje povednih moči. Probabilistične metode, metoda vektorskega prostora, obratna pogostost dokumentov. Povedne moči - uvod. Osnovni namen postopkov avtomatskega indeksiranja je zgoščevanje zapisa ob nespremenjeni vsebini: - PowerPoint PPT PresentationTRANSCRIPT
Računanje povednih moči
Probabilistične metode,
metoda vektorskega prostora,
obratna pogostost dokumentov.
Povedne moči - uvod
Osnovni namen postopkov avtomatskega indeksiranja je zgoščevanje zapisa ob nespremenjeni vsebini: z blokiranjem zavržemo besede brez vsebine (20% -
40% zgostitev, s krnjenjem nevtraliziramo vplive sintakse
(pomembna dodatna zgostitev, ker se ohranijo samo unikatni krni).
Zanemarimo dejstvo, da z blokiranjem in krnjenjem izgubimo del vsebine, skrite v medsebojnem odnosu besed.
Povedne moči - uvod
Iz Luhnove krivulje sledi, da imajo različne besede različno vlogo pri opisovanju vsebine.
Delež posamezne besede v zalogi vsebine dokumenta imenujemo njeno povedno moč.
Povedne moči - uvod
Dokumenti v zbirki opisujejo različne vsebine. Beseda, ki je pomembna za vsebinski opis
dokumenta, s svojim pojavljanjem dokument na nek način in do neke mere loči od ostalih dokumentov.
Beseda, ki bi se v zbirki pojavljala naključno, dokumentom ne bi prispevala vsebine.
Iz odmika od naključnega pojavljanja neke besede lahko sklepamo na njeno pomensko funkcijo.
Povedne moči - uvod
Statistične metode računanja povednih moči besed ocenjujejo vlogo besed v dokumentih z dveh zornih kotov: reprezentacija: sposobnost besed, da predstavljajo
vsebino dokumenta, diskriminacija: sposobnost besed, da dokument ločijo
od ostalih v zbirki.
Povedne moči - uvod
Probabilistične metode računanja povednih moči ocenjujejo verjetnost, da bo neka beseda vsebovana v relevantnem dokumentu.
Največjo povedno moč v dokumentu, ki govori o vsebini a, bo imela beseda, ki se z največjo verjetnostjo pojavlja v dokumentih o a, in z najmanjšo verjetnostjo v dokumentih, ki niso o a.
Probabilistične metode
Že dolgo vemo, da je beseda, ki se v nekem dokumentu pogosto pojavlja, verjetno pomembna za vsebino dokumenta. Frekvenca besede je torej povezana z njeno povedno močjo.
Primernost neke besede za opisovanje vsebine pa je odvisna tudi od števila dokumentov, v katerih se pojavlja.
Za opisovanje vsebine je primerna beseda, ki se zelo pogosto pojavlja v majhnem številu dokumentov.
IDFSparck Jones, 1972:
N število dokumentov v zbirki,
nb število dokumentov z besedo b.
IDF
b
bb n
nNIDF
log
Odvisnost med pojavljanjem besede b v dokumentih in njeno povedno močjo opisuje obratna pogostost vdokumentih (inverse document frequency, IDF).
Normalizacija dolžine dokumentov
Besede v dolgih dokumentih bodo v povprečju imele večje frekvence, kot v kratkih.
S tem bi bile povedne moči teh besed neupravičeno visoke in dolgi dokumenti bi imeli več možnosti da bodo poiskani, kot kratki.
Da bodo frekvence besed dobro predstavljale vsebino dokumentov, moramo dolžino dokumentov normalizirati.
Normalizacija: frekvenc besed popravimo, da bodo take, kot da bi izvirale iz eako dolgih dokumentov.
Povedna moč besede b v dokumentu d je odvisna od njene frekvence v dokumentu in IDF v zbirki:
Probabilistične metodeCroft, Harper, 1983:
d
bdbd
bdbbd
freq
freqKKf
fIDFPM
max_)1(
freqbd = frekvenca besede b v dokumentu d,max_freqd = frekvenca najpogostejše besede v dokumentu d (normalizacija glede dolžine dokumentov),K = konstanta, namenjena prilagajanju dolžini dokumentov.
Sorodnost iskalne zahteve q in dokumenta d je enaka vsoti povednih moči skupnih besed:
Probabilistične metode
Croft, Harper, 1983:
n
iidi fIDFCdqsorodnost
1
)(),(
n = število besed, skupnih iskalni zahtevi q in dokumentu d, C = konstanta, namenjena prilagajanju načinu indeksiranja.
bfbd
b = 1
Zanima nas vsebina a. Z ozirom na vsebino a, imajo v zbirki besede,
prisotne v dokumentih, relevantnih za vsebino a, večjo povedno moč od besed, ki jih ni v relevantnih dokumentih
Iz porazdelitve neke besede med relevantnimi in nerelevantnimi dokumenti lahko sklepamo na njeno povedno moč.
Kako? Glej naslednje prosojnice.
Probabilistične metode
Robertson, Sparck-Jones, 1976:
Probabilistične metodedok. je relevanten dok. ni relevanten skupaj
bes. je v dok. r n - r n
bes. ni v dok. R - r N – n – R + r N - n
skupaj R N - R N
Kontingenčna tabela porazdelitve besede b med relev. in nerelev. dokumenti za iskalno zahtevo q.
N število dokumentov v zbirki,R število relevantnih dokumentov v zbirki,n število dokumentov z besedo b,r število relevantnih dokumentov z besedo b.
Probabilistične metodedok. je relevanten dok. ni relevanten skupaj
bes. je v dok. r n - r n
bes. ni v dok. R - r N – n – R + r N - n
skupaj R N - R N
a c
b d
dcba
x logmetoda računanja izkontingenčne tabele
dokumentunerelvbesedeverjetnost
dokumenturelvbesedeverjetnostmočpovedna
_.___
_.___log_
Probabilistične metodedok. je relevanten dok. ni relevanten skupaj
bes. je v dok. r n - r n
bes. ni v dok. R - r N – n – R + r N - n
skupaj R N - R N
rRnNrnrR
r
PMbD log
Enačba s prejšnje prosojnice se je odlično izkazala v situacijah, ko poznamo relevantnost dokumentov na dano iskalno zahtevo.
Take situacije so zelo redke: testne zbirke, iskanje s povratno zanko (eno naslednjih predavanj).
Pri običajnem iskanju relevantnosti seveda ne poznamo vnaprej.
Probabilistične metode
Predstavljajmo si množico različnih besed v zbirki dokumentov tridimenzionalno, v prostoru.
Vsaka beseda je točka s pozicijo v tem prostoru. Dokumente si predstavljajmo kot vektorje,
sestavljene iz besed v tem prostoru. Izhodišča vektorjev naj bodo v središču prostora
in vektorji naj bodo usmerjeni navzven. Smer vektora je odvisna od pozicij besed, ki ga
sestavljajo.
Model vektorskega prostora
Salton, 1975
Prisotnost besed v dveh vektorjih je izražena z kotom med vektorjema.
Več ko imata vektorja različnih besed, večji je kot med njima.
Model vektorskega prostora
Poenostavljen prostor besed b1, b2, b3 in dokumentov D1, D2, D3.
Tri različne besede oblikujejo tri-dimenzionalni prostor.
Kot med vektorjema dveh identičnih dokumentov bi bil 0 stopinj.
Prostor n različnih besed je n-dimenzionalen in vsebuje toliko vektorjev, kolikor je dokumentov v zbirki.
Model vektorskega prostora
Zvezdice predstavljajo konice vektorjev (dokumentov). C (centralni dokument ali centroid) je navidezni dokument,
ki predstavlja povprečje vseh stvarnih dokumentov.
Model vektorskega prostora Prostor besed je
omejen s številom besed in ima zato svoj končen volumen in površino.
Površino razgrnemo v dve dimenziji.izsek površine prostora
Različnost dveh dokumentov se na zgornji sliki površine izraža kot razdalja med konicama njunih vektorjev.
Stopnjo posebnosti dokumenta lahko prikažemo kot razdaljo konice njegovega vektorja od centroida.
Model vektorskega prostora Kot med vektorjema
ponazarja njuno različnost (različnost besed v dokumentih).
izsek površine prostora
V modelu vektorskega prostora ocenjujemo diskriminacijsko sposobnost besed.
Diskriminacijska sposobnost besed - lastnost besed, da s svojo vsebino razločujejo (diskriminirajo) dokumente.
Beseda z veliko diskriminacijsko sposobnostjo konice vektorjev razprši.
Večja ko je razpršenost, večja je diskriminacijska sposobnost besede.
Model vektorskega prostora
Diskriminacijsko sposobnost besed lahko ocenjujemo tako, da merimo razpršenost, ki jo povzročajo.
Model vektorskega prostora
Mero razpršenosti dokumentov Q predstavlja vsota sorodnosti S središčnega dokumenta C z vsakim posameznim dokumentom D.
i predstavlja posamezno od n besed.
Model vektorskega prostora
n
iiDCSQ
1
),(
Sorodnost dokumenta in centroida je obratno sorazmerna s kotom med njunima vektorjema.
Lahko jo izračunamo z enačbo za kozinus kota.
Model vektorskega prostora
Diskriminacijska vrednost DV besede b je mera sprememb, ki jo povzroči uvajanje te besede v prostor.
Če izračunamo mero razpršenosti prostora brez in z prisotnostjo besede b, je razlika razpršenosti v obeh primerih ravno diskriminacijska vrednost besede b.
Model vektorskega prostora
QQDV bb
Diskriminacijska vrednost besede velja za vsak dokument v zbirki.
Upošteva samo povprečno pogostost pojavljanja te besede v zbirki dokumentov.
Model vektorskega prostora
Zanima nas količina informacije v besedi (njena povedna moč) v konkretnem dokumentu.
Povedno moč PV besede b v dokumentu D dobimo tako, da diskriminacijsko vrednost DV te besede pomnožimo z njeno frekvenco f v dokumentu D.
Model vektorskega prostora
bDbbD fDVPV