week #3b model sistem temu kembali informasi

Upload: ir12u

Post on 03-Apr-2018

226 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/28/2019 Week #3B Model Sistem Temu Kembali Informasi

    1/12

    Model Sistem Temu Kembali

    Informasi

    Oleh: Zainal A. Hasibuan

    Mata Kuliah: Pemrosesan Teks danSistem Temu Kembali Informasi, 2009

  • 7/28/2019 Week #3B Model Sistem Temu Kembali Informasi

    2/12

    2

    Model Sistem Temu Kembali

    Informasi Tujuan: Menemukan dokumen yang relevan dengan

    kebutuhan informasi pengguna dari suatu koleksi

    dokumen

    Koleksi

    Dokumen

    Pengguna

    Pertanyaan

    Dokumen

    Terambil

    STKIRetrieval

    Umpan balik

    relevansi

  • 7/28/2019 Week #3B Model Sistem Temu Kembali Informasi

    3/12

    3

    Contoh

    Google

    Web

  • 7/28/2019 Week #3B Model Sistem Temu Kembali Informasi

    4/12

    4

    Sistem Temu Kembali Informasi

    Dokumen Pertanyaan

    indexing indexing(Queryanalysis)

    Kata Kunci Kata Kunci

    (keywords) Query (keywords)

    evaluation

  • 7/28/2019 Week #3B Model Sistem Temu Kembali Informasi

    5/12

    5

    Permasalahan Dalam Sistem

    Temu Kembali Informasi

    Indeks dokumen dan query

    Seberapa baik indeks tersebut dapat mewakili isidokumen atau maksud pertanyaan?

    Evaluasi dokumen terambil Seberapa tepat dokumen yang terambil sesuai

    dengan pertanyaan?

    Evaluasi STKI

    Kinerja sistem?

    Dokumen relevan (presisi)?

    Semua yang relevan terambil (recall?

  • 7/28/2019 Week #3B Model Sistem Temu Kembali Informasi

    6/12

    6

    Vector space model

    Vector space = all the keywords encountered

    Document

    D = < a1, a2, a3, , an>a

    i= weight of t

    iin D

    Query

    Q = < b1, b2, b3, , bn>b

    i= weight of t

    iin Q

    R(D,Q) = Sim(D,Q)

  • 7/28/2019 Week #3B Model Sistem Temu Kembali Informasi

    7/12

    7

    Matrix representation

    t1 t2 t3 tn

    D1 a11 a12 a13 a1n

    D2 a21 a22 a23 a2n

    D3 a31 a32 a33 a3n

    Dm am1 am2 am3 amn

    Q b1 b2 b3 bn

    Term vector

    space

    Document space

  • 7/28/2019 Week #3B Model Sistem Temu Kembali Informasi

    8/12

    8

    Some formulas for Sim

    Dot product

    Cosine

    Dice

    Jaccard

    i i i

    iiii

    i

    ii

    i i

    ii

    i

    ii

    i i

    ii

    i

    ii

    ii

    baba

    ba

    QDSim

    ba

    ba

    QDSim

    ba

    ba

    QDSim

    baQDSim

    )*(

    )*(

    ),(

    )*(2

    ),(

    *

    )*(

    ),(

    )*(),(

    22

    22

    22

    t1

    t2

    D

    Q

  • 7/28/2019 Week #3B Model Sistem Temu Kembali Informasi

    9/12

    9

    Probabilistic model

    Given D, estimate P(R|D) and P(NR|D)

    P(R|D)=P(D|R)*P(R)/P(D) (P(D), P(R) constant)

    P(D|R)

    D = {t1=x1, t2=x2, }

    i

    ii

    i

    ii

    i

    ii

    i

    ii

    ii

    t

    x

    i

    x

    i

    t

    x

    i

    x

    i

    t

    x

    i

    x

    i

    t

    x

    i

    x

    i

    Dxt

    ii

    qqNRtPNRtPNRDP

    ppRtPRtP

    RxtPRDP

    )1()1(

    )1()1(

    )(

    )1()|0()|1()|(

    )1()|0()|1(

    )|()|(

    absentpresentxi

    01

  • 7/28/2019 Week #3B Model Sistem Temu Kembali Informasi

    10/12

    10

    Prob. model (contd)

    )1(

    )1(log

    1

    1log

    )1(

    )1(log

    )1(

    )1(

    log)|(

    )|(log)( )1(

    )1(

    ii

    ii

    t

    i

    ti

    i

    ii

    ii

    t

    i

    t

    x

    i

    x

    i

    t

    x

    i

    x

    i

    pq

    qpx

    q

    p

    pq

    qpx

    qq

    pp

    NRDP

    RDPDOdd

    i

    ii

    i

    ii

    i

    ii

    For document ranking

  • 7/28/2019 Week #3B Model Sistem Temu Kembali Informasi

    11/12

    11

    Prob. model (contd)

    How to estimate pi and qi?

    A set ofN relevant and

    irrelevant samples:

    riRel. doc.with ti

    ni-riIrrel.doc.

    with ti

    niDoc.

    with ti

    Ri-riRel. doc.without ti

    N-Rin+ri

    Irrel.doc.without ti

    N-niDoc.without ti

    Ri

    Rel. doc

    N-Ri

    Irrel.doc.

    N

    Samplesi

    ii

    ii

    i

    i RN

    rn

    qR

    r

    p

  • 7/28/2019 Week #3B Model Sistem Temu Kembali Informasi

    12/12

    12

    Prob. model (contd)

    Smoothing (Robertson-Sparck-Jones formula)

    When no sample is available:pi=0.5,

    qi=(ni+0.5)/(N+0.5)ni/N

    May be implemented as VSM

    ))((

    )(

    )1(

    )1(log)(

    iiii

    iiii

    t i

    ii

    ii

    t

    i

    rnrR

    rnRNrx

    pq

    qpxDOdd

    i

    i

    Dt

    i

    iiii

    iiii

    t

    i

    ii

    wrnrR

    rnRNrxDOdd

    )5.0)(5.0(

    )5.0)(5.0()(