tom tat lats nmvuong

40
ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGÔ MINH VƢƠNG TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY Chuyên ngành: Khoa học Máy tính Mã số chuyên ngành: 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT TP. HỒ CHÍ MINH NĂM 2013

Upload: vinh-nguyen-huu

Post on 18-Dec-2015

21 views

Category:

Documents


3 download

DESCRIPTION

asdsa

TRANSCRIPT

  • I HC QUC GIA TP.HCM

    TRNG I HC BCH KHOA TP.HCM

    NG MINH VNG

    TRUY HI THNG TIN DA TRN

    ONTOLOGY

    Chuyn ngnh: Khoa hc My tnh

    M s chuyn ngnh: 62.48.01.01

    TM TT LUN N TIN S K THUT

    TP. H CH MINH NM 2013

  • Cng trnh c hon thnh ti: Trng i hc Bch Khoa -

    i hc Quc Gia TpHCM

    Ngi hng dn khoa hc: PGS. TS. Cao Hong Tr

    Phn bin c lp 1: PGS. TS. ng Th Bch Thy

    Phn bin c lp 2: PGS. TS. L Thanh Hng

    Phn bin 1: PGS. TS. Phc

    Phn bin 2: TS. Nguyn Th Minh Huyn

    Phn bin 3: PGS. TS. Dng Tun Anh

    Lun n s c bo v trc Hi ng chm lun n hp ti:

    ..

    ..

    Vo lc .gi.ngythngnm.

    C th tm hiu lun n ti:

    - Th vin Khoa hc Tng hp Tp.HCM - Th vin Trng i hc Bch Khoa HQG-TpHCM

  • 1

    1 Chng 1 - GII THIU

    D liu trn Web phn ln l vn bn v ch ph hp cho con

    ngi c hiu. Do , vic nghin cu v pht trin cc m hnh

    truy hi vn bn c y v chnh xc cao l cn thit. Trong

    lun n ny, khi khng cn nhn mnh, chng ti dng thut ng

    truy hi ti liu vi ngha l truy hi vn bn.

    Nhm khc phc nhc im ni trn ca cc m hnh truy hi

    ti liu theo t kha, cc m hnh truy hi theo ng ngha khai thc

    v biu din ngha ca cc t v khi nim tim n trong truy vn v

    ti liu. Cng vi s ra i v pht trin ca Web c ng ngha,

    ontology c s dng rng ri trong vic nghin cu v pht trin

    cc m hnh truy hi ti liu theo ng ngha. Trong , nhiu cng

    trnh vi mc ch nng cao hiu qu truy hi ti liu : (1) khai

    thc thc th c tn; (2) khai thc t WordNet; trong lun n, chng

    ti gi t WordNet l t c m t trong mt ontology v t vng

    nh WordNet; hoc (3) thm thng tin vo truy vn.

    V d vi truy vn tm kim cc ti liu v Earthquake in USA

    th cc ti liu v Earthquake in United States of America, v

    Temblor in USA hoc v Earthquake in Denali, Alaska 2002 u

    ph hp vi truy vn ny. iu ny l do: (1) USA v United States

    of America l hai b danh (alias) ca cng mt thc th c tn

    (Named Entity, NE); (2) Earthquake v Temblor l hai t WordNet

    ng ngha vi nhau; v (3) Denali, Alaska 2002 l mt trn ng

    t xy ra USA. Trong khi , cc ti liu v Earthquake in

    Fukushima 2011 khng ph hp vi truy vn trn v Fukushima

    2011 tuy cng l mt trn ng t nhng xy ra Japan, khng

    phi USA. gii quyt cc vn ny, cn khai thc cc c

    im ontology v thc th c tn, v t WordNet, v v s kin.

    Mc tiu ca lun n l nghin cu khai thc cc ontology v

    thc th c tn, t WordNet v s kin nng cao hiu qu truy hi

  • 2

    ti liu. Th nht, lun n kho st tt c cc c im ontology ca

    thc th c tn v nghin cu nh hng ca chng n hiu qu

    truy hi ti liu. ng thi, lun n nghin cu cc cch kt hp gia

    thc th c tn v t kha trong truy hi ti liu. Trong , so vi

    cc cng trnh trc y, lun n khai thc thm cp tn-lp v nh

    danh ca thc th c tn biu din truy vn v ti liu. Ngoi ra,

    lun n khai thc cc lp thc th mc c th tim n trong t

    hi dng Wh. Th hai, lun n nghin cu khai thc cc c im

    ontology ca t WordNet v kt hp chng vi t kha. Ngoi cc

    c im ontology c bn ca t WordNet l nhn v ngha c

    s dng trong cc cng trnh trc y, lun n s dng thm cp

    nhn-ngha biu din t WordNet trong trng hp t ny c

    nhiu hn mt ngha trong ng cnh xem xt. Th ba, lun n khai

    thc ontology v s kin thm vo truy vn cc thc th tim n

    lin quan vi cc thc th theo cc quan h tng minh trong truy

    vn.

    Cc m hnh xut ca lun n s dng cc ontology v thc

    th c tn, t WordNet v s kin c bao ph ln, v cc gii

    thut nhn din thc th c tn v phn gii nhp nhng ngha ca t

    c chnh xc cao ca cc cng trnh khc. V vy, cc kt qu th

    nghim trong lun n chu nh hng ca cht lng ca cc

    ontology v cng c x l c s dng. Tuy nhin, ngha ca

    lun n l nghin cu s khc bit v hiu qu truy hi ti liu ca

    cc m hnh khc nhau trn cng mt nn tng ontology v cng c

    tin x l.

    Vic xy dng mt h thng truy hi ti liu dng ngay trong

    thc tin nm ngoi phm vi ca lun n. V vy, trng tm ca lun

    n khng phi l vn thi gian x l v truy hi ti liu, m l v

    chnh xc v y ca cc m hnh v phng php xut.

    Lun n xut cc m hnh truy hi ti liu khai thc cc

    c im ontology v thc th c tn, v t WordNet v v s kin

  • 3

    mt cch tng i y v ton din nhm nng cao hiu qu truy

    hi, bao gm:

    1. M hnh khai thc cc c im ontology ca thc th c tn

    v kt hp chng vi t kha.

    2. M hnh khai thc cc c im ontology ca t WordNet kt

    hp vi t kha.

    3. M hnh m rng truy vn vi cc thc th c tn bng cch

    lan truyn theo cc quan h tng minh trong truy vn.

    4. M hnh kt hp cc phng php trong cc m hnh c

    xut trn.

    Hiu qu ca cc m hnh xut c kim tra bng thc nghim

    v qua bc kim nh ngha thng k.

    Lun n ny gm 123 trang c chia thnh 7 chng. Chng

    1 - Gii thiu; Chng 2 - C s kin thc; Chng 3 - Khai thc

    thc th c tn; Chng 4 - Khai thc t WordNet; Chng 5 - Khai

    thc thng tin tim n; Chng 6 - Kt hp cc m hnh; Chng 7 -

    Tng kt. Lun n c 35 bng, 35 hnh v s dng 178 ti liu tham

    kho trong c 8 bi bo khoa hc c cng b ca tc gi.

    2 Chng 2 - C S KIN THC

    2.1 Ontology

    Ontology bt ngun t trit hc, c dn xut t ting Hy Lp

    l onto v logia. Trong nhng nm gn y, ontology c s

    dng nhiu trong khoa hc my tnh v c nh ngha khc vi

    ngha ban u. Theo ontology l s m hnh ha v c t cc cc

    khi nim mt cch hnh thc, r rng v chia s c. Cc ontology

    c s dng trong lun n l KIM ontology, WordNet v YAGO.

    KIM ontology cha khong 300 lp thc th, 100 thuc tnh v

    kiu quan h, v 77.500 thc th c tn vi hn 110.000 b danh.

    Thc th c tn l con ngi, t chc, ni chn, v nhng i tng

    khc c tham kho bng tn. Mi thc th c tn c ba c im

  • 4

    ontology c bn l tn, lp v nh danh. Mi thc th c tn c th

    c nhiu tn khc nhau, c gi l cc b danh ca thc th c tn

    . Mt khc, cng c nhiu thc th c tn khc nhau nhng c

    cng tn. Mi thc th c tn thuc v mt lp trc tip ca n v

    ng thi thuc v cc lp cha ca lp trc tip . Mi thc th c

    tn c mt nh danh xc nh duy nht n.

    WordNet phin bn 3.0 cha khong 155.000 t v 117.000

    tp ng ngha. Mi t WordNet c cc c im l nhn (word

    form, form hoc label) v ngha (word meaning hoc sense). Trong

    , mi nhn l s pht m hoc s ghi vt l ca mt t. Mi ngha

    ca mt t c mt nh danh xc nh duy nht n trong WordNet.

    Hai nhn c gi l ng ngha ca nhau nu s thay th ln nhau

    ca chng trong mt cu khng lm thay i ngha ca cu . Cc

    nhn l ng ngha ca nhau s to thnh mt tp ng ngha

    (synsets) v c th c dng biu din mt ngha.

    YAGO cha khong 1,95 triu thc th, 93 kiu quan h v 19

    triu s kin m t quan h gia cc thc th. Cng nh KIM

    ontology, cc kiu thuc tnh v quan h gia cc thc th c tn

    trong YAGO l nh phn.

    2.2 Nhn din thc th c tn v phn gii nhp nhng ngha

    ca t

    Nhn din thc th c tn (Named Entity Recognition NER) l

    nhm xc nh ng nh danh hoc lp ca mt thc th c tn

    trong ng cnh xem xt. Ty theo ng cnh, mt gii thut NER c

    th khng xc nh c nh danh m ch xc nh c lp ca

    thc th c tn, hoc thm ch cng khng xc nh c lp. Trong

    lun n, ng c nhn din thc th c tn ca KIM c dng

    rt trch cc c im ontology ca thc th c tn trong truy vn v

    ti liu. Cc c im ontology ny c lun n khai thc ch

  • 5

    gii thc th c tn trong truy vn v ti liu. chnh xc v y

    ca ng c ny ln lt vo khong 90% v 86%.

    Phn gii nhp (Word Sense Disambiguation - WSD) l nhm

    xc nh ng ngha ca mt t trong ng cnh xem xt. Trong

    Agirre v Soroa (2009), cc tc gi cho thy hiu qu ca gii thut

    WSD da trn WordNet xut hiu qu hn cc gii thut da trn

    WordNet khc v c chnh xc khong 56.8%. Lun n p dng

    gii thut WSD ny rt trch cc c im ontology ca t

    WordNet, v dng chng ch gii ng ngha ca cc t WordNet

    trong truy vn v ti liu.

    2.3 Tp d liu kim tra

    Mi tp kim tra bao gm 3 phn: (1) mt tp ti liu; (2) mt

    tp truy vn; v (3) mt tp cc cp truy vn v ti liu c lin quan

    vi nhau. Mt s tp kim tra chun l TREC, CISI, NTCIR, CLEF,

    Reuters-21578, TIME v WBR99. Trong , tp TIME gm 425 ti

    liu v 83 truy vn, c cung cp bi SMART. TREC l hi tho

    c t chc hng nm bi Vin K Thut - Cht Lng Hoa K v

    B Quc Phng Hoa K nhm to ra mt c s cho vic nh gi

    cc phng php truy hi thng tin vi quy m ln. Trong , tp ti

    liu L.A. Times ca TREC c s dng ph bin trong cc bi bo

    ca SIGIR-2007 v SIGIR-2008. Tp ti liu ny cha hn 130.000

    ti liu, vi gn 500MB.

    2.4 o hiu qu truy hi v kim nh ngha thng k

    Cc o thng dng cho vic nh gi hiu qu truy hi ca

    mt m hnh truy hi ti liu l chnh xc v y . Hai o

    ny thng l b tr vi nhau, tc l nu chnh xc cao th y

    thp v ngc li. V vy mt o kt hp c hai c s dng

    l F (F-measure). Mt cch khc nh gi hiu qu truy hi ti

    liu l xy dng ng cong P-R, cho thy s thay i ca chnh

    xc theo s tng dn ca y . Bn cnh , chnh xc trung

  • 6

    bnh nhm (mean average precision - MAP) cng l mt trong nhng

    o chun ca cng ng truy hi ti liu.

    S hn thua gia cc m hnh th hin bi cc o trn c

    th l tnh c. Do , khi tin hnh so snh cc m hnh, mt gi

    thuyt null (null hypothesis) c t ra l cc m hnh ny tng

    ng nhau v hiu qu truy hi d l o hiu qu ca chng

    khc nhau. ph nhn gi thuyt null v khng nh m hnh ny

    tht s hiu qu hn m hnh kia th cn c bc kim nh ngha

    thng k (statistical significance test). Trong cc phng php kim

    nh ngha thng k th phng php kim nh ngu nhin Fisher

    c tnh n nh cao nn s c lun n s dng.

    3 Chng 3 - KHAI THC THC TH C TN

    3.1 Gii thiu

    Cc c im ontology ca thc th c tn tim n trong truy

    vn v ti liu l c ngha vi hiu qu truy hi. V d nh i vi

    lp ca thc th c tn, cc ti liu cha Ha Noi, Paris, hoc

    New York c th l cc cu tr li cho truy vn tm ti liu v cc

    thnh ph (tc l cc thc th thuc lp thnh ph) trn th gii.

    Truy hi ti liu da trn t kha s khng tm c cc ti liu

    trn cho truy vn ny, bi v n khng s dng thng tin lp tim n

    ca cc thc th trong cc ti liu so khp vi lp ca cc thc

    th m ngi dng quan tm. Trong trng hp nh danh ca thc

    th c tn, cc ti liu v U.S., USA, United States, hoc America

    nn c tr v cho truy vn tm cc ti liu v United States of

    America. Truy hi ti liu ch da trn t kha s tht bi bi v n

    khng s dng tri thc l mt thc th c tn c th c nhiu b danh

    khc nhau. Trong trng hp thng tin kt hp bi lp v tn ca

    thc th, vi truy vn tm kim cc ti liu v ng Washington,

    ngi dng mun nhn c cc ti liu ni v Washington nh l

  • 7

    mt ngi. Trong khi cc m hnh da trn t kha c th tr v bt

    k trang no cha t Washington, cho d l tn ca mt tiu bang

    hay mt trng i hc. V th, mt trong nhng mc tiu ca lun

    n ny l nghin cu, kho st v khai thc cc c im ontology

    khc nhau ca thc th c tn cho truy hi ti liu.

    Hn na, s xut hin ca mt thc th c tn trong mt ti liu

    hm cha v ko theo cc thng tin tim n khc. Th nht, l cc

    b danh ca thc th . V d, nu quc gia Georgia xut hin trong

    mt ti liu th xem nh cc b danh ca n nh Gruzia cng c

    trong ti liu . Th hai, l cc lp cha ca lp ca thc th .

    V d, nu thnh ph Paris xut hin trong mt ti liu th xem nh

    cc lp cha ca lp City nh Location cng c trong ti liu . V

    vy, nng cao hiu qu truy hi, cc ti liu cn c m rng bi

    cc c im ontology bao ph, tc l c hm v ko theo bi,

    cc c im ontology gc ca cc thc th c tn xut hin trong

    cc ti liu .

    Mt khc, mt truy vn thng khng ch c thc th c tn, v

    d truy vn economic growth of Vietnam, Vietnam l thc th c

    tn c nh danh, cn economic v growth l cc t kha. Cc

    t kha ny cng quan trng trong vic th hin ni dung ca truy

    vn. V th, vic kt hp thc th c tn v t kha l cn thit

    biu din ni dung ca cc truy vn v ti liu.

    Thm vo , trong cc truy vn c cha t hi Wh nh Who,

    Which, Where, When hoc What, cc t hi ny hm cha lp ca

    cc thc th c tn c hi. V d truy vn Where did the Battle

    of the Bulge take place?, t hi Where hm v cc thc th c

    tn thuc lp Location. V th, vic khai thc v nh x t hi Wh

    n lp ca thc th c tn thch hp cng c lun n nghin cu

    nhm nng cao hiu qu truy hi ti liu.

    Chng ny xut cc m hnh khng gian vect (Vector

    Space Model VSM) da trn thc th c tn v t kha, vi bn

  • 8

    ni dung chnh sau: (1) khai thc tt c cc c im ontology ca

    thc th c tn; (2) m rng ti liu bng cc c im ontology bao

    ph cc c im ontology gc ca thc th c tn; (3) khai thc lp

    ca thc th c tn tim n trong cu hi Wh; (4) kt hp thc th c

    tn v t kha.

    3.2 M hnh a khng gian vect cho thc th c tn

    Cc c im ontology ca thc th c tn

    Lun n xut mt m hnh trn nhiu khng gian vect tng

    ng vi cc c im ontology khc nhau ca thc th c tn.

    biu din mt cch hnh thc cc truy vn v ti liu bng cc c

    im ontology ca thc th c tn, lun n nh ngha b ba (N, C,

    I), trong N, C, v I ln lt l tp hp cc tn, lp v nh danh

    ca cc thc th trong ontology v thc th. Theo :

    1. Mi truy vn q hoc ti liu d c m hnh ha nh l mt

    tp con ca (N{*})(C{*})(I{*}). Mi b ba

    (tn/lp/nhdanh) trong tp ny c xem l mt thut ng

    (term) ontology ca thc th c tn. Trong * biu th mt

    tn, lp hoc nh danh khng xc nh ca mt thc th c

    tn trong truy vn hoc ti liu.

    2. Truy vn q c m t bi b bn (Nq

    ,

    Cq

    , NCq

    ,

    Iq

    ), trong

    Nq

    , Cq

    , NCq

    v

    Iq

    ln lt l cc vect trn N, C, NC, v I.

    3. Ti liu d c biu din bi b bn (Nd

    ,

    Cd

    , NCd

    , Id

    ),

    trong Nd

    ,

    Cd

    , NCd

    v Id

    ln lt l cc vect trn N, C,

    NC, v I.

    tng t ca mt ti liu d v mt truy vn q c nh

    ngha l:

    sim( d

    , q

    ) = wN.cosine( Nd

    ,Nq

    ) + wC.cosine( Cd

    ,Cq

    )

    + wNC.cosine( NCd

    ,NCq

    ) + wI.cosine( Id

    , Iq

    ) (3-1)

  • 9

    Trong wN + wC + wNC + wI = 1. Cc trng s wN, wC, wNC v wI ca

    cc vect thnh phn c th c iu chnh ty theo mc quan

    trng ca bn c im ontology trong tng min ng dng c th.

    X l truy vn v ti liu

    Nh trnh by trn, trong m hnh a khng gian vect NE

    xut, mi truy vn hoc ti liu c biu din bng bn vect trn

    cc khng gian N, C, NC, v I. Mi vect c xy dng trn mt

    ti thut ng ontology tn, lp, cp tn-lp hoc nh danh tng

    ng vi truy vn hoc ti liu.

    Mi truy vn q trong m hnh a khng gian vect c x l

    theo cc bc sau:

    1. Cc thc th c tn trong truy vn c rt trch bi mt ng

    c nhn din thc th c tn.

    2. Vi mi thc th c tn c nhn din:

    Nu thc th ch c nhn din c tn n, th n c b

    sung vo ti thut ng ontology tn biu din q.

    Nu thc th ch c nhn din c lp c, th c c b

    sung vo ti thut ng ontology lp biu din q.

    Nu thc th ch c nhn din c tn n v lp c, th c b sung vo ti thut ng ontology cp tn-lp

    biu din q.

    Nu thc th c nhn din y c tn n, lp c v nh

    danh id, th id c b sung vo ti thut ng ontology nh

    danh biu din q.

    Mi ti liu d trong m hnh a khng gian vect c x l

    theo cc bc sau:

    1. Cc thc th c tn trong ti liu c rt trch bi mt ng

    c nhn din thc th c tn ging nh trong x l truy vn.

    2. Vi mi thc th c tn c nhn din:

  • 10

    a. Nu thc th ch c nhn din c tn n, th n c b

    sung vo ti thut ng ontology tn biu din d.

    b. Nu thc th ch c nhn din c lp c, th c v

    super_class(c) c b sung vo ti thut ng ontology lp

    biu din d.

    c. Nu thc th ch c nhn din c tn n v lp c, th ln

    lt b sung vo cc ti thut ng ontology tn, lp v cp

    tn-lp biu din d cc thut ng sau:

    n

    c, super_class(c)

    ,

    d. Nu thc th c nhn din y c tn n, lp c v nh

    danh id, th ln lt b sung vo cc ti thut ng ontology

    tn, lp, cp tn-lp v nh danh biu din d cc thut ng

    sau:

    name(id)

    c, super_class(c)

    ,

    id

    y, name(id) l mt tn bt k ca thc th c nh danh l id

    v super_class(c) l mt lp cha bt k ca lp c. Cc thng tin ny

    c nh ngha trong ontology v thc th c tn m h thng s

    dng.

    3.3 Kt hp thc th c tn v t kha

    M hnh a khng gian vect kt hp thc th c tn v t kha

    Cc truy vn hoc ti liu khng ch cha thc th c tn m cn

    cha t kha. V th, ngoi bn vect trn cc thut ng ontology

    ca thc th c tn, truy vn hoc ti liu cn c thm vect trn t

    kha.

  • 11

    tng t ca mt ti liu d v mt truy vn q c nh

    ngha nh sau:

    sim( d

    , q

    ) = .[wN.cosine( Nd

    ,Nq

    ) + wC.cosine( Cd

    ,Cq

    )

    + wNC.cosine( NCd

    ,NCq

    ) + wI.cosine( Id

    ,Iq

    )]

    + (1 ).cosine(KWd

    ,KWq

    ) (3-2)

    Trong wN + wC + wNC + wI = 1, [0, 1], v KWd

    v KWq

    ln lt

    l vect trn khng gian t kha ca ti liu d v truy vn q. Trng

    s biu din mc quan trng ca thc th c tn v t kha

    trong vic biu din truy vn v ti liu, v c th c iu chnh

    ty theo tng min ng dng c th.

    Vi mt truy vn cho trc, sau giai on lc ti liu, tp ti liu

    tha mn biu thc Bool ca cc t kha c th c giao hoc hp

    vi tp ti liu tha mn biu thc Bool ca cc thc th c tn trong

    truy vn ny. Nh vy c hai m hnh biu din cch kt hp thc

    th c tn v t kha, ln lt c k hiu l NEKW v

    NEKW, tu theo vic ly giao hay hp cc tp ti liu tho mn

    cc biu thc Bool ca cc t kho v thc th biu din truy vn.

    Trong cc m hnh a khng gian vect kt hp thc th c tn v t

    kho trnh by trn, cm t no c xem l thc th c tn th

    cng c xem l t kha.

    M hnh tng qut

    Vi quan im xem cc thc th c tn v t kha u l cc

    thut ng, lun n xut mt m hnh khng gian vect khc, kt

    hp thc th c tn v t kha, c gi l m hnh tng qut v k

    hiu l NE+KW. Theo m hnh ny, mi ti liu hoc truy vn c

    biu din bng mt vect trn mt khng gian hp nht ca cc thut

    ng tng qut l tn, lp, cp tn-lp, nh danh, v t kha.Vic

  • 12

    xy dng cc vect, lc v xp hng ti liu ging nh trong VSM

    truyn thng, nhng trn cc ti thut ng tng qut ny.

    Mi truy vn q trong m hnh NE+KW c x l theo cc bc

    sau:

    1. Loi b cc t khng cha thng tin quan trng (stop-words)

    v a cc t v dng nguyn mu (stemming).

    2. Cc thc th c tn trong truy vn c rt trch bi ng c

    nhn din thc th c tn.

    3. Vi mi thc th c tn c nhn din:

    a. Nu thc th ch c nhn din c tn n, th b ba (n/*/*)

    c b sung vo ti thut ng tng qut biu din q.

    b. Nu thc th ch c nhn din c lp c, th b ba (*/c/*)

    c b sung vo ti thut ng tng qut biu din q.

    c. Nu thc th ch c nhn din c tn n v lp c, th b ba

    (n/c/*) c b sung vo ti thut ng tng qut biu din

    q.

    d. Nu thc th c nhn din y c tn n, lp c v nh

    danh id, th b ba (*/*/id) c b sung vo ti thut ng

    tng qut biu din q.

    4. Cm t no khng l thc th c tn s c xem l t kha

    v b sung vo ti thut ng tng qut biu din q.

    Mi ti liu d trong m hnh NE+KW c x l theo cc bc

    sau:

    1. Loi b cc t khng cha thng tin quan trng v a cc t

    v dng nguyn mu tng t nh trong x l truy vn.

    2. Cc thc th c tn trong ti liu c rt trch bi ng c

    nhn din thc th c tn tng t nh trong x l truy vn.

    3. Vi mi thc th c tn c nhn din:

    a. Nu thc th ch c nhn din c tn n, th (n/*/*) c

    b sung vo ti thut ng tng qut biu din d.

  • 13

    b. Nu thc th ch c nhn din c lp c, th (*/c/*) v

    (*/super_class(c)/*) c b sung vo ti thut ng tng

    qut biu din d.

    c. Nu thc th ch c nhn din c tn n v lp c, th b

    sung vo ti thut ng tng qut biu din d cc thut ng

    sau:

    (n/*/*)

    (*/c/*), (*/super_class(c)/*)

    (n/c/*), (n/super_class(c)/*)

    d. Nu thc th c nhn din y c tn n, lp c v nh

    danh id, th b sung vo ti thut ng tng qut biu din d

    cc thut ng sau:

    (name(id)/*/*)

    (*/c/*), (*/super_class(c)/*)

    (name(id)/c/*), (name(id)/super_class(c)/*)

    (*/*/id)

    4. Cm t no khng l thc th c tn s c xem l t kha

    v b sung vo ti thut ng tng qut biu din d.

    Nh vy, so vi vic x l truy vn v ti liu theo m hnh a

    khng gian vect, im khc bit y ch l cc thut ng ontology

    ca thc th c tn c biu din bng mt nh dng chung l cc

    b ba (tn/lp/nh danh), v c trong mt ti thut ng

    ontology tng qut chung thay v cc ti thut ng ontology tn, lp,

    cp tn-lp, v nh danh ring l.

    Cc t hi Wh nh Who, Which, Where, When hoc What

    trong truy vn hm cha lp ca thc th c tn c hi. V th, t

    hi ny c thay th bng mt lp ca thc th c tn trong

    ontology v thc th, u tin lp c th nht c th, nhm biu din

    ngha ca t hi. Lun n xut m rng m hnh tng qut

    NE+KW vi vic chuyn t hi sang lp ca thc th.

  • 14

    3.4 nh gi thc nghim

    Kho st cc cch kt hp thc th c tn v t kha

    Vic kt hp thc th c tn v t kha c th c thc hin

    thng qua vic kt hp m hnh a khng gian vect cho thc th v

    m hnh khng gian vect cho t kha, hoc thng qua m hnh

    thut ng tng qut. C th l lun n nh gi cc m hnh sau y:

    1. Lexical: l m hnh khng gian vect da trn t kha truyn

    thng c hin thc trong Lucene.

    2. NE: l m hnh a khng gian vect da trn thc th c tn.

    3. NEKW: l m hnh kt hp thc th c tn v t kha bng

    cch hp hai tp ti liu tr v ca hai m hnh NE v KW.

    4. NEKW: l m hnh kt hp thc th c tn v t kha bng

    cch giao hai tp ti liu tr v ca hai m hnh NE v KW.

    5. NE+KW: l m hnh kt hp thc th c tn v t kha bng

    cch hp nht v xem cc thut ng ontology ca thc th c

    tn v t kha l cc thut ng tng qut.

    Cc m hnh trn c thc nghim trn tp TIME. Hu ht cc

    truy vn (80 trong s 83) ca tp TIME khng cha t hi. Do

    lun n khng p dng vic nh x t hi n lp ca thc th c

    tn trong m hnh NE+KW khi thc nghim trn tp TIME. Vic

    nh x t hi ny s c kim tra trn tp TREC phn sau.

    kim tra xem s hn thua v MAP ca cc m hnh c phi l

    tnh c hay khng, phng php kim nh ngu nhin Fisher c

    p dng cho tt c cc th nghim ca lun n vi s hon v l

    100.000 v ngng ca tr s p hai chiu l 0,05.

    Cc MAP c th hin Bng 3.1 cho thy m hnh da

    hon ton trn thc th c tn v m hnh da hon ton trn t kha

    c s khc bit cht t MAP, v MAP ca hai m hnh ny

    thp hn ng k so vi MAP ca cc m hnh kt hp thc th

  • 15

    c tn v t kha. Trong m hnh NE+KW c MAP cao nht,

    vi cc mc ci thin ng k so vi cc m hnh cn li.

    Bng 3.1. Cc chnh xc trung bnh nhm ca cc m hnh

    Lexical, NE, NEKW, NEKW v NE-KW

    M hnh NE+KW Lexical NE NEKW NEKW

    MAP 0,7252 0,6167 0,6039 0,6977 0,681

    ci thin 17,6% 20,1% 3,9% 6,5%

    Bng 3.2. Tr s p hai chiu ca phng php kim nh ngu nhin

    Fisher ca m hnh NE+KW so vi cc m hnh khc

    M hnh A M hnh B |MAP(A)

    MAP(B)| N

    N

    +

    Tr s p

    hai chiu

    NE+KW

    Lexical 0,1085 0 5 0,00005

    NE 0,1213 1 12 0,00013

    NEKW 0,0275 7.977 25.059 0,33036

    NEKW 0,0442 3.512 12.327 0,15839

    Bng 3.2 th hin cc tr s p hai chiu ca phng php kim

    nh ngu nhin Frisher gia m hnh NE+KW vi cc m hnh

    khc. Lun n chn m hnh NE+KW khng ch bi v MAP cao

    nht ca n, m cn bi tnh n gin v tnh ng nht ca n so

    vi cc m hnh a khng gian vect. Cc kt qu cho thy m hnh

    NE+KW thc s hiu qu hn cc m hnh Lexical v NE (do cc tr

    s p hai chiu tng ng nh hn 0,05). C th l vi MAP, m

    hnh NE+KW thc s hiu qu hn m hnh Lexical khong 17,6%.

    Trong khi m hnh NE+KW c hiu qu tng ng vi cc m

    hnh NEKW v NEKW (do cc tr s p hai chiu tng ng ln

    hn 0,05). iu ny c th c gii thch l m hnh NE+KW,

    tn, lp, cp tn-lp, v nh danh ca thc th c tn c i x

    nh nhau, tng ng vi cc trng s ging nhau ca cc vect

  • 16

    c im

    M hnh

    thnh phn trn cc khng gian N, C, NC, v I cc m hnh

    NEKW v NEKW.

    Kho st nh hng ca cc c im ontology ca thc th c

    tn

    Nh cp n v phn tch trong Phn 3.1, cc c im

    ontology ca thc th c tn nh tn, lp, cp tn-lp v nh danh

    cn c nghin cu v khai thc. V th trong phn ny, lun n

    thc nghim v so snh hiu qu truy hi ti liu ca vic s dng

    cc c im ontology khc nhau biu din truy vn v ti liu.

    Bng 3.3 trnh by vic khai thc cc c im ontology khc

    nhau ca thc th c tn biu din truy vn v ti liu ca cc

    nhm cng trnh lin quan v nhm m hnh ca lun n. Cc nhm

    m hnh lin quan c k hiu l Group_1, Group_2 v Group_3,

    tng ng vi cc nhm cng trnh lin quan c kho st. Nhm

    m hnh ca lun n gm hai m hnh l NE+KW+notID v

    NE+KW.

    Bng 3.3. Vic s dng cc c im ontology ca thc th c tn

    biu din truy vn v ti liu

    Nhm cng trnh lin quan Nhm m hnh ca lun n

    Group_1 Group_2 Group_3 NE+KW+notID NE+KW

    Tn x x x x

    Lp x x x x

    Cp Tn-Lp x x

    nh danh x

    Tng t nh m hnh tng qut NE+KW, cc nhm m hnh

    Group_1, Group_2, Group_3 v NE+KW+notID c cng cc c

    im l: (1) xem thc th c tn v t kha l thut ng tng qut;

    (2) cm t khng c nhn din l thc th c tn s c xem nh

    l t kha; v (3) s dng m hnh khng gian vect biu din

    truy vn v ti liu. Tuy nhin, khc vi m hnh NE+KW, Group_1

  • 17

    ch s dng tn, Group_2 ch s dng lp v xem tn ca thc th

    nh t kha, Group_3 ch s dng tn v lp mt cch ring l, v

    NE+KW+notID ch s dng tn, lp v cp tn-lp, m khng s

    dng nh danh thc th. C th l:

    1. Vi mi thc th c b ba y (n/c/id) trong mt truy vn

    q, cc thut ng sau y s c s b sung vo ti thut ng

    tng qut biu din q, tu theo tng nhm m hnh:

    - Group_1: (n/*/*)

    - Group_2: (*/c/*) v t kha n

    - Group_3: (n/*/*) v (*/c/*)

    - NE+KW+notID: (n/c/*)

    - NE+KW: (*/*/id).

    2. Vi mi thc th c b ba y (n/c/id) trong mt ti liu d,

    cc thut ng sau y s c s b sung vo ti thut ng

    tng qut biu din d, bao gm c cc thut ng bao ph cc

    thut ng gc trong d, tu theo tng nhm m hnh:

    - Group_1: (name(id)/*/*)

    - Group_2: (*/c/*), (*/super_class(c)/*) v t kha n

    - Group_3: (name(id)/*/*), (*/c/*) v (*/super_class(c)/*)

    - NE+KW+notID: (name(id)/*/*), (*/c/*),

    (*/super_class(c)/*), (name(id)/c/*) v

    (name(id)/super_class(c)/*)

    - NE+KW: nh NE+KW+notID cng vi (*/*/id).

    Cc m hnh ny cng c lun n tin thnh thc nghim v

    hiu qu truy hi trn tp TIME. Bng 3.4 trnh by cc MAP ca

    cc m hnh Lexical, Group_1, Group_2, Group_3, NE+KW+notID,

    v NE+KW. Theo o ny, m hnh NE+KW c hiu qu truy hi

    cao nht, nn tip theo y c kim nh ngha thng k so vi

    cc m hnh cn li.

  • 18

    Bng 3.4. Cc chnh xc trung bnh nhm ca cc m hnh

    Lexical, Group_1, Group_2, Group_3, NE+KW+notID, v NE+KW

    M hnh NE+KW Lexical Group_1 Group_2 Group_3 NE+KW+notID

    MAP 0,7252 0,6167 0,6516 0,6259 0,6624 0,7120

    ci thin 17,6% 11,3% 15,9% 9,5% 1,9%

    Bng 3.5. Tr s p hai chiu ca phng php kim nh ngu nhin

    Fisher ca m hnh NE+KW so vi cc m hnh Lexical, Group_1,

    Group_2, Group_3 v NE+KW+notID

    M hnh A M hnh B |MAP(A) MAP(B)|

    N N

    +

    Tr s p hai chiu

    NE+KW

    Lexical 0,1085 0 5 0,00005

    Group_1 0,0736 1.452 1.354 0,02806

    Group_2 0,0993 381 376 0,00757

    Group_3 0,0628 2.455 2.340 0,04795

    NE+KW+notID 0,0132 8.259 8.295 0,16554

    Cc MAP v tr s p hai chiu Bng 3.4 v Bng 3.5 cho

    thy m hnh NE+KW thc s hiu qu hn cc m hnh Lexical,

    Group_1, Group_2 v Group_3 ln lt l 17,6%, 11,3%, 15,9% v

    9,5% MAP. iu ny chng t vic khai thc thm cp tn-lp

    v nh danh ca thc th c tn gip ci thin hiu qu truy hi so

    vi vic ch s dng t kha hoc ch kt hp t kha vi tn v lp

    ca thc th mt cch ring l. Trong khi , m hnh NE+KW c

    hiu qu tng ng vi m hnh NE+KW+notID khi th nghim

    trn tp TIME. iu ny c th c gii thch l v trong tp TIME

    phn ln nu hai thc th c nh danh khc nhau th cc cp tn-lp

    tng ng cng khc nhau. V d nh trong tp TIME khng c hai

    thnh ph khc nhau c cng tn xut hin trong cc ti liu. Tc l

    bn thn mt cp tn-lp xc nh mt thc th, tng ng

    nh mt nh danh. Do , trong trng hp ny, vic s dng thm

  • 19

    nh danh thc th ca m hnh NE+KW khng to nn s khc bit

    ng k so vi m hnh NE+KW+notID.

    Kho st nh hng ca t hi Wh

    Phn ny trnh by th nghim nh gi nh hng ca vic khai

    thc lp thc th tim n trong t hi Wh i vi hiu qu truy

    hi ti liu, trn mt tp d liu kim tra c nhiu truy vn loi Wh.

    Lun n chn tp kim tra gm tp ti liu L.A. Times v tp truy

    vn ca QA-Track-99 ca TREC, v tp ti liu L.A. Times c s

    dng nhiu trong cng ng truy hi ti liu v phn ln cc truy vn

    ca QA-Track-99 (102 trong s 124) c t hi Who, Which,

    Where, When hoc What. Chng tht s biu din cc lp ca thc

    th c tn v c th cha thng tin hu ch trong vic tm cc ti liu

    lin quan cho cc truy vn ny. Lun n t tn cho m hnh

    NE+KW m rng vi vic nh x cc t hi Wh n cc lp thc

    th tng ng l NE+KW+Wh.

    Cc MAP trong Bng 3.6 v cc tr s p hai chiu trong Bng

    3.7 cho thy vic khai thc cc thut ng ontology ca thc th c

    tn trong truy vn v ti liu, v nh x t hi n lp ca thc

    th c tn ci thin hiu qu truy hi. Hiu qu ca m hnh

    NE+KW+Wh hiu qu hn 10,8% so vi m hnh da trn t kha

    Lexical MAP. khc bit nh gia hai MAP ca hai m

    hnh NE+KW+Wh v NE+KW (~3,35%) c th c gii thch nh

    sau. Th nht, trong s 124 truy vn, ch 68 cu c t hi Wh v

    c nh x thnh lp ca thc th c tn. Trong khi c 22 cu

    khng c t hi Wh v 34 cu c t hi Wh nhng khng tm

    c trong KIM lp ca thc th c tn tng ng. Th hai, trong

    68 cu c nh x t hi, m hnh NE+KW+Wh hiu qu hn,

    bng v thua m hnh NE+KW ln lt 32, 24 v 12 truy vn.

  • 20

    Bng 3.6. Cc chnh xc trung bnh nhm ca cc m hnh

    Lexical, NE+KW v NE+KW+Wh

    Model NE+KW+Wh Lexical NE+KW

    MAP 0,5652 0,5099 0,5469

    ci thin 10,8% 3,3%

    Bng 3.7. Tr s p hai chiu ca phng php kim nh ngu nhin

    Fisher gia cc m hnh NE+KW+Wh, NE+KW v Lexical

    M hnh A M hnh B |MAP(A) MAP(B)|

    N N

    +

    Tr s p hai chiu

    NE+KW Lexical 0,037 1.751 2.500 0,04251

    NE+KW+Wh Lexical 0,0553 143 259 0,00402

    NE+KW 0,0183 77 52 0,00129

    4 Chng 4 - KHAI THC T WORDNET

    4.1 Gii thiu

    Ngoi nhc im khng xt n cc c im ontology tim n

    ca thc th c tn xut hin trong truy vn v ti liu, truy hi ti

    liu theo t kha truyn thng cha tha mn nhu cu tm kim

    thng tin cn l do khng xt n ngha ca cc t. Xt cc v d

    sau: (1) tm kim cc ti liu v movement; (2) tm kim cc ti

    liu v movement belonging to change; v (3) tm kim cc ti liu

    v movement belonging to the act of changing location from one

    place to another. Bn thn t movement c nhiu ngha khc

    nhau. truy vn th nht, ngi dng mong mun tm kim cc ti

    liu khng ch cha t movement m cn cha cc t ng ngha

    ca n nh motion, front, campaign v trend, hoc cc cc

    ngha con ca n nh opening, passing, travel, displacement

    v transfer. truy vn th hai, ngi dng khng mong ch nhn

    c cc ti liu cha cc t cng c nhn l movement nhng

    khng phi l tc ng thay i mt ci g (change), nh

  • 21

    front hoc trend. Tc l, ch cc ti liu cha t movement

    ng ngha vi hoc l ngha con ca change th mi ph hp vi

    truy vn th hai. Trong khi , truy vn th ba yu cu cc ti liu

    ni v movement vi mt ngha c th v xc nh l s thay i v

    tr t ni ny n ni khc, nh s di c ca con ngi t nng thn

    ra thnh th. V th, mt trong nhng mc tiu ca lun n ny l

    nghin cu, kho st v khai thc cc c im ontology khc nhau

    ca t WordNet nh nhn, ngha ca t, ngha cha v ngha con cho

    truy hi ti liu.

    Cc gii thut WSD thng xp hng cc ngha ca mt t theo

    mc ph hp ca chng vi t ny trong ng cnh xem xt. Tip

    theo, ngha c th hng cao nht s c gn cho t ny. Trong

    trng hp c nhiu hn mt ngha c cng th hng cao nht, cc

    gii thut ny s chn ngu nhin mt ngha hoc chn tt c cc

    ngha ny. Nu chn ngu nhin mt ngha m l ngha sai th kt

    qu tr v s khng ph hp vi truy vn. Cn nu chn tt c cc

    ngha th nhiu kt qu tr v s khng ph hp vi truy vn v c

    nhiu ngha khng ng c chn. V th, trong trng hp mt

    t c nhiu ngha c xc nh bi mt gii thut WSD, lun n

    xut s dng ngha cha chung c th nht ca cc ngha ny v kt

    hp vi nhn ca t biu din thng tin cho t ny.

    Mc khc, trong cc truy vn, thng c mt s t khng phi l

    t WordNet hoc cha c cp nht vo ontology v t vng. l

    mt tn thc th hoc l mt t cha c trong ontology v t vng

    c s dng. V d, vi truy vn What are the best-selling blooks

    in USA?, best-selling l t WordNet, USA l mt tn thc th,

    v blook (c ngha l mt quyn sch da trn ni dung ca mt

    blog) l mt t cha c a vo WordNet.

    Trong chng ny, chng ti xut mt m hnh truy hi ti

    liu da trn t WordNet v t kha. Cc t khng phi l t

    WordNet c xem nh cc t kho thng thng. Trong , da

  • 22

    trn mt ontology v t vng, mi t WordNet s c biu din bi

    thut ng ontology c th nht c th trong mt ng cnh xem xt.

    4.2 M hnh khng gian vect da trn t WordNet

    Mi t WordNet trong vn bn thng c mt ngha xc nh.

    Tuy nhin, ngha ca mt t WordNet c th khng c xc nh

    ng v nhiu l do. Th nht, l s m h v ngha ca mt t

    trong truy vn, do ng cnh khng r rng ca truy vn hoc do ch

    ca ngi dng mun tm cc ti liu ni v bt k ngha c th

    no ca t . Th hai, l do ng cnh khng r rng ca t

    WordNet trong ti liu. Th ba, gii thut WSD c hn ch trong

    vic xc nh ng ngha ca mt t trong truy vn hoc ti liu, d

    trong ng cnh con ngi hiu c ng ngha ca t .

    Nh cp trn, trong trng hp mt t c nhiu hn mt

    ngha ph hp, lun n xut biu din t ny bng mt thng tin

    c th nht c th. l s kt hp gia nhn ca t vi ngha

    cha chung c th nht ca cc ngha ph hp ca t . Thng tin kt

    hp ny mang ngha rng hn mt ngha ngu nhin nhng hp hn

    tp hp tt c cc ngha ph hp. Ngha cha chung c th nht

    msc_hypernym l mt quan h gia mt ngha v mt tp ngha. Mt

    ngha s c gi l mt msc_hypernym ca mt tp ngha {s1, s2, ...}

    nu s l mt ngha cha chung ca chng v khng c ngha cha

    chung no ca chng c th hn s.

    Tm li, ni mt cch tng qut, mt t WordNet c nhn f c

    th c ch gii thnh mt trong cc nh dng sau: (1) ngha ca f

    khi n c mt ngha duy nht c xc nh; hoc (2) thng tin kt

    hp khi n c nhiu hn mt ngha c xc

    nh. y, msc_hypernym(f) l ngha cha chung c th nht ca cc

    ngha c th ca nhn f trong ng cnh xem xt, theo mt gii thut

    WSD c s dng.

  • 23

    M hnh khng gian vect da trn t WordNet kt hp vi t

    kho (l nhng t cn li khng c nhn din nh l mt t trong

    mt ontology v t vng nh WordNet) m lun n xut c k

    hiu l WN+KW. Tng t nh m hnh tng qut NE+KW

    Chng 3, m hnh WN+KW biu din mi truy vn hoc ti liu

    bi mt vect n trn khng gian thut ng tng qut. Mt thut

    ng tng qut l mt t WordNet hoc mt t kha. Vic biu din

    vect, lc v xp hng ti liu tng t nh trong m hnh khng

    gian vect truyn thng. im khc bit l, nh vi m hnh khng

    gian vect cho thc th c tn, m hnh WN+KW cng m rng ti

    liu vi cc c im ontology bao ph cc c im ontology gc

    ca cc t WordNet xut hin trong ti liu, khi tnh cc trng s

    tf.idf cho vect biu din ti liu.

    X l truy vn v ti liu

    Mi truy vn q trong m hnh WN+KW c x l theo cc

    bc sau:

    1. Loi b cc t khng cha thng tin quan trng v a cc t

    v dng nguyn mu.

    2. Cc t WordNet trong truy vn c nhn din v xc nh

    ngha bi mt gii thut WSD.

    3. Vi mi t WordNet c nhn din:

    Nu xc nh c ngha s duy nht ca t ny, th s (tc

    nh danh ca ngha) c b sung vo ti thut ng tng

    qut biu din q.

    Nu t ny c nhn f v c nhiu hn mt ngha ph hp,

    th c b sung vo ti thut ng

    tng qut biu din q.

    4. T no khng l t WordNet s c xem l t kha v b

    sung vo ti thut ng tng qut biu din q.

  • 24

    Mi ti liu d trong m hnh WN+KW c x l theo cc bc

    sau:

    1. Loi b cc t khng cha thng tin quan trng v a cc t

    v dng nguyn mu tng t nh trong x l truy vn.

    2. Cc t WordNet trong ti liu c nhn din v xc nh

    ngha bi mt gii thut WSD nh trong x l truy vn.

    3. Vi mi t WordNet c nhn din:

    a. Nu xc nh c ngha s duy nht ca t ny, th b sung

    vo ti thut ng tng qut biu din d cc thut ng sau:

    s, hypernym(s)

    ,

    b. Nu t ny c nhn f v c nhiu hn mt ngha ph hp,

    th b sung vo ti thut ng tng qut biu din d cc thut

    ng sau:

    msc_hypernym(f), hypernym(msc_hypernym(f))

    ,

    4. T no khng l t WordNet s c xem l t kha v b

    sung vo ti thut ng tng qut biu din d.

    y, form(s) l mt nhn bt k ca mt t WordNet c ngha s, v

    hypernym(s) l mt ngha cha bt k ca ngha s. Cc thng tin ny

    c nh ngha trong ontology v t vng m h thng s dng.

    4.3 nh gi thc nghim

    Bng 4.1. Vic s dng cc c im ontology ca t WordNet

    biu din truy vn v ti liu

    Nhm cng trnh lin quan M hnh ca lun n

    Group_1 Group_2 WN+KW

    Nhn x

    Ngha x x

    Cp Nhn-Ngha x

    Trong phn ny, lun n tin hnh thc nghim so snh hiu

    qu truy hi ti liu ca m hnh WN+KW xut vi cc m hnh

    M hnh

    c im

  • 25

    lin quan cng khai thc t WordNet kt hp vi t kha. Nh trnh

    by Bng 4.1, cc nhm m hnh lin quan c k hiu l

    Group_1 v Group_2, tng ng vi cc nhm cng trnh lin quan

    kho st, da trn cch khai thc cc c im ontology ca t

    WordNet. Tng t nh vi m hnh WN+KW, m hnh khng gian

    vect c s dng hin thc hai nhm m hnh Group_1 v

    Group_2, v t WordNet v t kha c xem l thut ng tng qut

    biu din truy vn v ti liu. Trong , Group_1 ch s dng

    nhn cn Group_2 ch s dng ngha biu din t WordNet trong

    truy vn v ti liu. So vi Group_2, m hnh WN+KW ca lun n

    khai thc v s dng thm cp nhn-ngha ca t WordNet trong

    trng hp mt t WordNet c nhiu hn mt ngha trong ng cnh

    xem xt. C th l:

    1. Lexical: l m hnh khng gian vect da trn t kha

    truyn thng c hin thc trong Lucene, nh Chng 3.

    2. Group_1: nhm m hnh ny, vi mi t WordNet, nu t

    ny truy vn th n c biu din bi nhn xut hin

    trong truy vn, nu t ny ti liu th n c biu din

    bng tp ng ngha ca t ny. Cc t khng c xc nh

    l t WordNet c xem l t kha.

    3. Group_2: nhm m hnh ny, vi mi t WordNet c

    ngha s, nu t ny truy vn th n c biu din bng s,

    nu t ny ti liu th n s c biu din bng s v

    hypernym(s). Cc t khng c xc nh l t WordNet

    c xem l t kha.

    Tng t nh Chng 3, chng ti chn tp ti liu L.A.

    Times ca TREC tin hnh thc nghim hiu qu truy hi ca cc

    m hnh trn. Tip theo, chng ti chn cc truy vn ca Adhoc-

    Track-99 c ti liu lin quan thuc tp L.A. Times. C 44 truy vn

    trong tng s 50 truy vn ca Adhoc-Track-99 c chn. Mi truy

    vn y c 3 phn: tiu (title), m t (description) v tng

  • 26

    thut (narrative). Trong , phn tiu c s dng lm truy vn

    trong tt c cc th nghim ca chng ny.

    Bng 4.2 trnh by cc MAP ca cc m hnh ny v Bng

    4.3 l kt qu kim nh ngha thng k theo phng php Fisher.

    Cc kt qu ny cho thy m hnh WN+KW tht s hiu qu hn ba

    m hnh cn li, m c bit l vic s dng thm cp nhn-ngha

    gip ci thin hiu qu truy hi so vi cc m hnh khai thc cc c

    im ontology ca t WordNet trc y. MAP, m hnh

    WN+KW hiu qu hn so vi cc m hnh Lexical, Group_1 v

    Group_2 ln lt l 30%, 19,7% v 14,9%.

    Bng 4.2. Cc chnh xc trung bnh nhm ca cc m hnh

    Lexical, Group_1, Group_2 v WN+KW

    M hnh WN+KW Lexical Group_1 Group_2

    MAP 0,2866 0,2204 0,2395 0,2494

    ci thin 30% 19,7% 14,9%

    Bng 4.3. Tr s p hai chiu ca phng php kim nh

    ngu nhin Fisher gia m hnh WN+KW vi cc m hnh

    Lexical, Group_1 v Group_2

    M hnh A M hnh B |MAP(A) MAP(B)|

    N N

    +

    Tr s p hai chiu

    WN+KW

    Lexical 0,0662 2.079 2.060 0,04139

    Group_1 0,0471 2.471 2.427 0,04898

    Group_2 0,0372 2.486 2.472 0,04958

    5 Chng 5 - KHAI THC THNG TIN TIM N

    5.1 Gii thiu

    Mt truy vn thng ngn gn nn nhiu khi khng din t ht

    mun ca ngi dng. lm r ngha hn ni dung ca truy vn,

    phng php m rng truy vn c s dng rng ri trong cng

    ng truy hi thng tin. M rng truy vn l thm vo truy vn cc

    thng tin tim n khng xut hin truy vn nhng gp phn biu

  • 27

    din r hn ngha ca truy vn, tc lm r hn mun ca ngi

    dng.

    Phng php kch hot lan truyn (Spreading Activation - SA),

    l mt phng php m rng truy vn, tm kim trn ontology cc

    khi nim c lin quan vi cc khi nim truy vn theo cc quan h

    trong ontology. Cc khi nim c kch hot s c thm vo truy

    vn. Vic thm thng tin ph hp vi mun ca ngi dng

    thng lm tng hiu qu truy hi ti liu. Ngc li, hiu qu truy

    hi ca m hnh thng gim nu thm cc thng tin khng ph hp.

    V d, xt cc truy vn tm cc ti liu v cc ni dung sau: (1)

    cities that are tourist destinations of Thailand; (2) Jewish

    settlements are built in the east of Jerusalem; v (3) works of

    Ernest Hemingway. truy vn th nht, Chiang Mai v Phuket nn

    c thm vo truy vn, v chng thuc lp City v l cc im du

    lch ni ting ca Thi Lan. Vic thm vo truy vn cc thnh ph du

    lch ni ting khc nh Jakarta v Hanoi l khng ph hp, v hai

    thnh ph ny khng Thi Lan. truy vn th hai, cc khu nh c

    Do Thi c xy dng pha ng ca thnh ph Jerusalem nh

    Beit Orot v Beit Yehonatan nn c thm vo truy vn. truy vn

    th ba, cn thm The Old Man and the Sea v A Farewell to Arms

    vo truy vn ny v chng l cc tc phm ca nh vn Ernest

    Hemingway.

    Khc vi cc phng php kch hot lan truyn trc y, trong

    chng ny lun n xut phng php m rng truy vn vi cc

    thc th c tn tim n bng cch lan truyn trn ontology theo cc

    quan h tng minh trong truy vn. Cc b danh, lp cha v lp con

    ca thc th trong ontology c khai thc thc hin kch hot lan

    truyn. Tuy nhin, sau khi cc thc th tim n c thm vo truy

    vn, c truy vn v cc ti liu u c xem nh cc ti t kho.

    Vic kt hp phng php kch hot lan truyn xut y v cc

    c im ontology v thc th c tn v t WordNet trnh by

  • 28

    cc chng trc s c hin thc trong m hnh hp nht

    Chng 6.

    5.2 M rng truy vn

    Phng php kch hot lan truyn m rng truy vn m lun

    n xut trong chng ny l phng php rng buc theo quan h,

    c gi l R+CSA. Truy vn ban u c m rng thng qua

    Phng php R+CSA. Tip theo cc ti liu v truy vn m rng s

    c biu din bi cc khng gian vect da trn t kha. Cui

    cng, vic lc v xp hng ti liu c thc hin nh vi VSM

    truyn thng thng qua m un VSM da trn t kha, trong

    trng s ca cc t kha c tnh theo tf.idf.

    Phng php R+CSA xc nh thng tin tim n lin quan vi

    truy vn gm nm bc chnh sau:

    1. Nhn din quan h: nhn din cc cm t quan h trong truy

    vn v nh x chng thnh cc quan h tng ng trong

    ontology c s dng.

    2. Nhn din cc khi nim khi ng: nhn din v ch gii cc

    thc th xut hin trong truy vn.

    3. Thit lp cc b quan h: biu din truy vn ban u thnh cc

    b quan h I-R-C (hoc C-R-I) cho mi quan h R c xc

    nh bc 1, vi I v C ln lt l mt thc th c tn xc

    nh v mt lp thc th c nhn din bc 2.

    V d vi truy vn Where is the actress, Marion Davies,

    buried?, cm t quan h c xc nh bi hai t where v

    buried c nh x thnh quan h R l buriedIn, Marion

    Davies c nhn din l thc th c tn c nh danh I l

    #Marion_Davies v c lp l Woman, v t where c nh

    x thnh lp C l Location. V vy b quan h c thit lp

    trong truy vn ny l [I: #Marion_Davies]-(R: buriedIn)-[C:

    Location].

  • 29

    4. Kch hot lan truyn c rng buc theo quan h tng minh

    trong truy vn: vi mi b quan h I-R-C, tm cc thc th c

    tn tim n Ia c quan h R vi I v Ia c lp l C hoc l lp

    con ca C trong ontology. V d, trong ontology c s dng

    c quan h:

    [I: #Marion_Davies]-(R: buriedIn)-

    [Ia: #Hollywood_Cemetery]

    v #Hollywood_Cemetery l thc th c lp l lp con ca

    Location, nn l mt thc th c tn tim n cn tm cho b

    quan h v d thit lp bc 3.

    5. M rng truy vn: thm vo truy vn tn chnh ca mi Ia tim

    n c tm thy. v d trn, Hollywood Cemetery c

    thm vo truy vn.

    Nh vy, so vi phng php SA t do, phng php R+CSA

    c ba rng buc. Th nht l rng buc v khong cch. Tc l, da

    trn ontology v s kin c s dng, ch cc thc th c quan h

    trc tip vi cc thc th ban u xut hin trong truy vn mi c

    kch hot. Th hai l rng buc v quan h. Tc l, trn ontology v

    s kin, s lan truyn ch c thc hin trn cc quan h xut hin

    tng minh trong truy vn. Th ba l v lp thc th. Tc l, lp ca

    mi thc th c kch hot phi ging vi, hoc l lp con ca, lp

    theo quan h tng ng trong truy vn.

    5.3 nh gi thc nghim

    tin hnh thc nghim m hnh R+CSA, tng t nh

    Chng 3, chng ti chn tp ti liu L.A. Times v tp truy vn ca

    QA-Track-99. Chng ny so snh hiu qu truy hi ti liu gia m

    hnh R+CSA do lun n xut vi hai m hnh sau:

    1. Lexical: l m hnh khng gian vect da trn t kha truyn

    thng c hin thc trong Lucene, nh Chng 3 v

    Chng 4.

  • 30

    2. CSA: l m hnh s dng phng php kch hot lan truyn c

    rng buc theo khong cch. N m rng truy vn bng cch

    lan truyn trn ontology theo tt c cc quan h trc tip vi

    cc thc th ban u trong truy vn. Cc truy vn m rng v

    cc ti liu sau cng c biu din theo m hnh khng

    gian vect da trn t kha.

    Cc MAP trong Bng 5.1 v cc tr s p hai chiu trong Bng

    5.2 cho thy vic m rng truy vn mt cch hp l s lm tng hiu

    qu ca truy hi vn bn. MAP, m hnh R+CSA ca lun n

    hiu qu hn ln lt l 26,5% v 17,8% so vi hai m hnh Lexical

    v CSA.

    Bng 5.1. Cc chnh xc trung bnh nhm ca cc m hnh

    Lexical, CSA v R+CSA

    M hnh R+CSA Lexical CSA

    MAP 0,6451 0,5099 0,5474

    ci thin 26,5% 17,8%

    Bng 5.2. Tr s p hai chiu ca phng php kim nh ngu nhin

    Fisher gia m hnh R+CSA vi hai m hnh Lexical v CSA

    M hnh A M hnh B |MAP(A) MAP(B)|

    N N

    +

    Tr s p hai chiu

    R+CSA Lexical 0,1352 1.691 1.630 0,03321

    CSA 0,0977 2.207 2.268 0,04475

    6 Chng 6 - M HNH HP NHT

    6.1 Gii thiu

    Chng 3 v Chng 4 ln lt gii thiu m hnh khai thc

    thc th c tn v m hnh khai thc t WordNet m lun n xut

    cho truy hi ti liu. Tuy nhin, cc truy vn v ti liu thng cha

    c cc thc th c tn v cc t WordNet. Trong khi , Chng 5

    xut phng php kch hot lan truyn c rng buc theo quan h

    thm vo truy vn cc thc th tim n. Tuy nhin, cc truy vn

  • 31

    m rng v ti liu vn c biu din di dng cc t kha v vic

    so khp gia chng l s so khp gia cc t kha.

    Do , trong chng ny, chng ti xut m hnh hp nht

    UM (Unified Model) kt hp cc phng php c xut cc

    Chng 3, 4 v 5, tha hng u im ca tng phng php.

    y l m hnh khng gian vect tng qut khai thc v ch gii cc

    c im ontology ca thc th c tn v t WordNet trong cc ti

    liu v truy vn, vi s m rng truy vn bng cch khai thc cc

    thc th tim n lin quan n cc khi nim v quan h trong truy

    vn.

    6.2 M hnh hp nht da trn ontology

    Kin trc h thng ca m hnh hp nht UM c trnh by

    trong Hnh 6.1 c hai phn chnh l phn1 cha cc m un ch gii

    v m rng truy vn v phn 2 cha cc m un m rng v ch gii

    ti liu. M hnh hp nht s dng ba ontology KIM, WordNet v

    YAGO, ln lt c khai thc nh l ontology v thc th c tn,

    ontology v t WordNet, v ontology v s kin.

    phn 1 ca kin trc h thng, m un Phng php R+CSA,

    l phng php trnh by Chng 5, xc nh cc thc th tim

    n ph hp m rng truy vn. Tip theo, t truy vn c m

    rng, m un Nhn din v ch gii thc th c tn, v m un Phn

    gii nhp nhng v ch gii t WordNet ln lt xc nh v nhng

    cc thut ng ontology c th nht ca thc th c tn v t

    WordNet vo trong truy vn. Thm vo , m un Nhn din v

    ch gii t hi thay th t hi, nu c, bng lp ca thc th c

    tn thch hp. Cui cng, vic truy hi ti liu theo ng ngha c

    thc hin thng qua m un VSM tng qut da trn thc th c tn,

    t WordNet v t kha.

    phn 2 ca kin trc h thng, m un Nhn din v ch gii

    thc th c tn, v m un Phn gii nhp nhng v ch gii t

  • 32

    WordNet ln lt xc nh v nhng cc thut ng ontology ca thc

    th c tn v t WordNet vo trong ti liu. Tip theo, ti liu c

    m rng bng cc thut ng ontology bao ph cc thut ng

    ontology gc ca thc th c tn v t WordNet. Cc thut ng

    ontology ny v t kha c nh ch mc thng qua m un M

    rng v nh ch mc ti liu theo cc thut ng ontology ca thc

    th c tn, t WordNet v t kha v c lu tr Kho cha ti

    liu c ch gii v m rng theo thc th c tn, t WordNet v t

    kha.

    Hnh 6.1. Kin trc h thng ca m hnh UM

    X l truy vn

    Truy vn ban u c m rng theo phng php xut

    Chng 5, nhng cc thc th tim n thm vo khng c thay th

    bng cc tn chnh ca chng. Tip theo cc t khng hm cha

    Phn 2

    Phn 1

    Cc ti liu c xp hng

    VSM tng qut da trn

    NE, t WordNet v KW

    Kho cha ti liu c ch gii v m rng theo

    NE, t WordNet v KW

    M rng v nh ch mc ti liu theo cc thut ng ontology

    ca NE, t WordNet v KW Phn gii nhp nhng

    v ch gii t WordNet

    Ontology v t WordNet

    Ontology v NE (KIM)

    Nhn din v

    ch gii NE

    ......

    ......

    ......

    ......

    ..

    Ti liu th

    Nhn din v

    ch gii NE

    Truy vn m rng c ch gii theo

    NE, t WordNet v KW

    Phn gii nhp nhng v ch gii t WordNet

    Truy vn c m rng

    Nhn din v ch gii t hi

    Truy vn th

    Phng php R+CSA

  • 33

    thng tin quan trng trong truy vn m rng c loi b. Vic nhn

    din v ch gii thc th c tn v t WordNet trong truy vn m

    rng ging nh m hnh NE+KW v m hnh WN+KW Chng

    3 v Chng 4. Trong , nu mt t va l thc th c tn va l t

    WordNet, th s c u tin xem l thc th c tn. Mt t khng

    c nhn din nh l thc th c tn hoc t WordNet th s c

    xem nh l t kha. Bn cnh , t hi (Who, Which, Where,

    When hoc What) truy vn cng s c nh x ng thi thnh

    lp tng ng trong ontology v thc th.

    X l ti liu

    i vi mi ti liu, u tin h thng loi b cc t khng hm

    cha thng tin quan trng. Tip theo h thng nhn din cc thc th

    c tn v t WordNet, v m rng chng ging nh m hnh

    NE+KW v m hnh WN+KW trnh by Chng 3 v Chng

    4. Trong , nu mt cm t va l thc th c tn va l t

    WordNet th s c u tin xem l thc th c tn. Nu mt cm t

    khng c nhn din nh l thc th c tn hoc t WordNet th s

    c xem nh l t kha. Cui cng, cc ti liu c nh ch mc

    theo cc thut ng ontology ca thc th c tn, t WordNet, v t

    kha.

    6.3 nh gi thc nghim

    Trc ht, trong phn ny, lun n gii thiu m hnh NE+WN

    l kt hp gia m hnh NE+KW+Wh Chng 3 vi m hnh

    WN+KW Chng 4. Tip theo, m hnh hp nht UM l m hnh

    kt hp gia m hnh NE+WN trn vi m hnh R+CSA Chng

    5. Lun n tin hnh nh gi thc nghim kim tra xem m hnh

    NE+WN c hiu qu hn hai m hnh NE+KW+Wh v WN+KW

    hay khng, v m hnh UM c hiu qu hn hai m hnh NE+WN v

    R+CSA hay khng. Nm m hnh ny c thc nghim trn tp d

  • 34

    liu kim tra ging nh Chng 3 v Chng 5, tc l tp ti liu

    L.A. Times v tp truy vn ca QA-Track-99.

    Cc MAP trong Bng 6.1 v cc tr s p hai chiu trong Bng

    6.2 cho thy vic khai thc cc c im ontology ca thc th c tn

    v t WordNet cng vi cc thc th tim n trong truy vn tht

    s lm tng hiu qu truy hi ti liu. C th l, m hnh UM c hiu

    qu hn bn m hnh NE+KW+Wh, WN+KW, NE+WN v R+CSA

    ln lt l 26.8%, 32.9%, 19% v 11,1% MAP.

    Bng 6.1. Cc chnh xc trung bnh nhm ca cc m hnh

    NE+KW+Wh, WN+KW, NE+WN, R+CSA v UM

    M hnh UM NE+KW+Wh WN+KW NE+WN R+CSA

    MAP 0,7166

    0,5652 0,5391 0,6024 0,6451

    ci thin 26.8% 32.9% 19% 11,1%

    Bng 6.2. Tr s p hai chiu ca phng php kim nh ngu nhin

    gia m hnh NE+WN vi cc m hnh NE+KW+Wh v WN+KW,

    v gia m hnh UM so vi cc m hnh NE+WN v R+CSA

    M hnh A M hnh B |MAP(A)

    MAP(B)| N

    N

    +

    Tr s p

    hai chiu

    NE+WN NE+KW+Wh 0,0372 1.716 1.643 0,03359

    WN+KW 0,0633 2.009 2.109 0,04118

    UM NE+WN 0,1142 1.043 966 0,02009

    R+CSA 0,0715 2.188 2.140 0,04328

    7 Chng 7 - TNG KT

    Mc tiu ca lun n l nghin cu v xut cc m hnh truy

    hi ti liu da trn ontology nhm ci thin hiu qu truy hi ti

    liu. Cc thng tin trong cc ti liu v truy vn phn ln c din

    t thng qua cc khi nim l thc th c tn v t WordNet. Do

    , lun n nghin cu cc c im ontology khc nhau ca thc

    th c tn v t WordNet v khai thc chng biu din ng ngha

    ca truy vn v ti liu. Mt khc, mi truy vn hm cc thc th

  • 35

    c tn tuy khng xut hin trong truy vn nhng cc ti liu ni v

    chng cng nm trong mong i ca ngi t truy vn. V vy, lun

    n cn nghin cu cc phng php khm ph v thm vo truy

    vn cc thc th tim n ny. Cc m hnh truy hi ti liu m lun

    n xut da trn ba loi ontology l ontology v thc th c tn,

    ontology v t vng (nh WordNet), v ontology v s kin.

    Cc m hnh trong lun n c th nghim trn cc tp d liu

    kim tra chun TIME v TREC, theo cc o hiu qu chun l

    chnh xc, y , F v MAP. c bit l phng php kim

    nh ngha thng k c s dng xc nhn li s tng hiu qu

    ca cc m hnh xut.

    Chng 3, lun n kho st cc cch khai thc cc c im

    ontology khc nhau ca thc th c tn cc cng trnh lin quan v

    truy hi ti liu, v nhn thy hai c im l cp tn-lp v nh

    danh thc th cha c s dng. Lun n nghin cu xut v

    lm th nghim nh gi cc m hnh biu din truy vn v ti liu c

    s dng y cc c im ontology ca thc th (tc l tn, lp,

    cp tn-lp, v nh danh) v kt hp vi t kho. Bn cnh , lun

    n cng xut nh x cc t hi Wh vo cc lp thc th tng

    ng khi biu din truy vn.

    Chng 4, lun n tp trung nghin cu khai thc cc c

    im ontology v t vng c nh ngha trong mt c s d liu

    v t vng nh WordNet. Lun n xut mt cch mi l s dng

    nhn ca t kt hp vi ngha cha chung c th nht ca cc

    ngha c th.

    Chng 5, phng php m lun n xut l ch kch hot v

    thm vo truy vn cc thc th c tn c quan h vi cc thc th

    xut hin trong truy vn theo cc quan h tng minh trong truy vn

    . Cui cng, Chng 6 xut mt m hnh hp nht, kt hp cc

    m hnh c nghin cu v pht trin cc Chng 3, 4 v 5.

    Kt qu thc nghim cho thy m hnh hp nht tht s hiu qu hn

  • 36

    +26,5%

    +11,1%

    +32,9%

    +7,3% +5,7%

    +26,8%

    +3,3%

    tng m hnh xut ring l.

    Hnh 7.1 l s tm tt li cc m hnh chnh m lun n

    nghin cu v xut, theo th t pht trin v ci thin dn, trn

    tp ti liu L.A. Times v tp truy vn QA-Track-99 ca TREC. S

    ny cho thy cc m hnh NE+KW, WN+KW v R+CSA c

    MAP cao hn m hnh Lexical (l m hnh truy hi ti liu theo t

    kho thng dng) ln lt l 7,3%, 5,7% v 26,5%. Hn na, m

    hnh NE+KW+Wh c MAP cao hn m hnh NE+KW l 3,3%.

    M hnh UM, kt hp c ba m hnh NE+KW+Wh, WN+KW v

    R+CSA, c MAP cao hn cc m hnh thnh phn ln lt l

    26,8%, 32,9% v 11,1%. So vi m hnh Lexical, m hnh UM

    lm tng hiu qu truy hi mt cch rt ng k l 40,5%, vi

    MAP 0,7166 so vi 0,5099.

    Hnh 7.1. S pht trin v hiu qu ca cc m hnh xut

    T cc nghin cu v kt qu t c ca lun n ny, chng

    ti ngh mt s vn v hng nghin cu tip theo nh sau:

    Khai thc cc thc th tim n c quan h bc cu vi cc

    thc th trong truy vn thng qua quan h tng minh trong

    .

    Lexical (MAP = 0,5099)

    NE+KW

    R+CSA

    WN+KW

    UM (MAP = 0,7166)

    NE+KW+Wh

  • 37

    Kt hp phng php R+CSA ca lun n vi phng php

    phn hi lin quan gi (pseudo feedback).

    p dng cc c im ontology ca thc th c tn v t

    WordNet trn cc m hnh truy hi thng tin khc m hnh

    khng gian vect.

    Th hin ch trong m hnh ho ch (topic modeling)

    bng cc khi nim ontology nh thc th c tn v t

    WordNet, v dng cc ch ny biu din cc ti liu v

    truy vn

    CC CNG TRNH CA TC GI LIN QUAN N

    LUN N

    [1] T. H. Cao and V. M. Ngo, Semantic Search by Latent

    Ontological Features, in International Journal of New

    Generation Computing, Springer-Verlag, SCIE, Vol. 30, No.1,

    pp. 53-71, 2012.

    [2] V. M. Ngo and T. H. Cao, Discovering Latent Concepts and

    Exploiting Ontological Features for Semantic Text Search, in

    Proceedings of the 5th International Joint Conference on Natural

    Language Processing (IJCNLP-2011), pp. 571-579, 2011.

    [3] V. M. Ngo, T. H. Cao and T. M. V. Le, WordNet-based

    Information Retrieval Using Common Hypernyms and

    Combined Features, in Proceedings of the 5th International

    Conference on Intelligent Computing and Information Systems

    (ICICIS-2011), pp. 313-318, 2011.

    [4] V. M. Ngo, T. H. Cao and T. M. V. Le, Combining Named

    Entities with WordNet and Using Query-Oriented Spreading

    Activation for Semantic Text Search, in Proceedings of the 8th

    IEEE International Conference on Computing and

  • 38

    Telecommunication Technologies (IEEE-RIVF-2010), pp. 13-18,

    2010.

    [5] V. M. Ngo and T. H. Cao, Ontology-based Query Expansion

    with Latently Related Named Entities for Semantic Text

    Search, in Proceedings of the 2nd Asian Conference on

    Intelligent Information and Database Systems (ACIIDS-2010),

    Springer-Verlag, Studies in Computational Intelligence, Vol.

    283, pp. 41-52, 2010.

    [6] V. M. Ngo and T. H. Cao, A Generalized Vector Space Model

    for Ontology-based Information Retrieval, in Vietnamese

    Journal on Information Technologies and Communications, Vol.

    22, No.2, pp 43-53, 2009.

    [7] T. H. Cao, K. C. Le and V. M. Ngo, Exploring Combinations of

    Ontological Features and Keywords for Text Retrieval, in

    Proceedings of the 10th

    Pacific Rim International Conference on

    Artificial Intelligence (PRICAI-2008), Springer-Verlag, LNAI,

    Vol. 5351, pp. 603-613, 2008.

    [8] T. H. Cao, V. M. Ngo, D. T. Hong and T. T. Quan, A Named-

    Entity-based Multi-Vector Space Model for Semantic Document

    Clustering, in Proceeding of PAKDD-2008 Workshop on Web

    Mining and Web-Based Application (WMWA), pp. 139-150,

    2008.