week #3b model sistem temu kembali informasi
Post on 03-Apr-2018
226 Views
Preview:
TRANSCRIPT
-
7/28/2019 Week #3B Model Sistem Temu Kembali Informasi
1/12
Model Sistem Temu Kembali
Informasi
Oleh: Zainal A. Hasibuan
Mata Kuliah: Pemrosesan Teks danSistem Temu Kembali Informasi, 2009
-
7/28/2019 Week #3B Model Sistem Temu Kembali Informasi
2/12
2
Model Sistem Temu Kembali
Informasi Tujuan: Menemukan dokumen yang relevan dengan
kebutuhan informasi pengguna dari suatu koleksi
dokumen
Koleksi
Dokumen
Pengguna
Pertanyaan
Dokumen
Terambil
STKIRetrieval
Umpan balik
relevansi
-
7/28/2019 Week #3B Model Sistem Temu Kembali Informasi
3/12
3
Contoh
Google
Web
-
7/28/2019 Week #3B Model Sistem Temu Kembali Informasi
4/12
4
Sistem Temu Kembali Informasi
Dokumen Pertanyaan
indexing indexing(Queryanalysis)
Kata Kunci Kata Kunci
(keywords) Query (keywords)
evaluation
-
7/28/2019 Week #3B Model Sistem Temu Kembali Informasi
5/12
5
Permasalahan Dalam Sistem
Temu Kembali Informasi
Indeks dokumen dan query
Seberapa baik indeks tersebut dapat mewakili isidokumen atau maksud pertanyaan?
Evaluasi dokumen terambil Seberapa tepat dokumen yang terambil sesuai
dengan pertanyaan?
Evaluasi STKI
Kinerja sistem?
Dokumen relevan (presisi)?
Semua yang relevan terambil (recall?
-
7/28/2019 Week #3B Model Sistem Temu Kembali Informasi
6/12
6
Vector space model
Vector space = all the keywords encountered
Document
D = < a1, a2, a3, , an>a
i= weight of t
iin D
Query
Q = < b1, b2, b3, , bn>b
i= weight of t
iin Q
R(D,Q) = Sim(D,Q)
-
7/28/2019 Week #3B Model Sistem Temu Kembali Informasi
7/12
7
Matrix representation
t1 t2 t3 tn
D1 a11 a12 a13 a1n
D2 a21 a22 a23 a2n
D3 a31 a32 a33 a3n
Dm am1 am2 am3 amn
Q b1 b2 b3 bn
Term vector
space
Document space
-
7/28/2019 Week #3B Model Sistem Temu Kembali Informasi
8/12
8
Some formulas for Sim
Dot product
Cosine
Dice
Jaccard
i i i
iiii
i
ii
i i
ii
i
ii
i i
ii
i
ii
ii
baba
ba
QDSim
ba
ba
QDSim
ba
ba
QDSim
baQDSim
)*(
)*(
),(
)*(2
),(
*
)*(
),(
)*(),(
22
22
22
t1
t2
D
Q
-
7/28/2019 Week #3B Model Sistem Temu Kembali Informasi
9/12
9
Probabilistic model
Given D, estimate P(R|D) and P(NR|D)
P(R|D)=P(D|R)*P(R)/P(D) (P(D), P(R) constant)
P(D|R)
D = {t1=x1, t2=x2, }
i
ii
i
ii
i
ii
i
ii
ii
t
x
i
x
i
t
x
i
x
i
t
x
i
x
i
t
x
i
x
i
Dxt
ii
qqNRtPNRtPNRDP
ppRtPRtP
RxtPRDP
)1()1(
)1()1(
)(
)1()|0()|1()|(
)1()|0()|1(
)|()|(
absentpresentxi
01
-
7/28/2019 Week #3B Model Sistem Temu Kembali Informasi
10/12
10
Prob. model (contd)
)1(
)1(log
1
1log
)1(
)1(log
)1(
)1(
log)|(
)|(log)( )1(
)1(
ii
ii
t
i
ti
i
ii
ii
t
i
t
x
i
x
i
t
x
i
x
i
pq
qpx
q
p
pq
qpx
qq
pp
NRDP
RDPDOdd
i
ii
i
ii
i
ii
For document ranking
-
7/28/2019 Week #3B Model Sistem Temu Kembali Informasi
11/12
11
Prob. model (contd)
How to estimate pi and qi?
A set ofN relevant and
irrelevant samples:
riRel. doc.with ti
ni-riIrrel.doc.
with ti
niDoc.
with ti
Ri-riRel. doc.without ti
N-Rin+ri
Irrel.doc.without ti
N-niDoc.without ti
Ri
Rel. doc
N-Ri
Irrel.doc.
N
Samplesi
ii
ii
i
i RN
rn
qR
r
p
-
7/28/2019 Week #3B Model Sistem Temu Kembali Informasi
12/12
12
Prob. model (contd)
Smoothing (Robertson-Sparck-Jones formula)
When no sample is available:pi=0.5,
qi=(ni+0.5)/(N+0.5)ni/N
May be implemented as VSM
))((
)(
)1(
)1(log)(
iiii
iiii
t i
ii
ii
t
i
rnrR
rnRNrx
pq
qpxDOdd
i
i
Dt
i
iiii
iiii
t
i
ii
wrnrR
rnRNrxDOdd
)5.0)(5.0(
)5.0)(5.0()(
top related