klink-2: integrating multiple web sources to generate semantic topic networks

20
Francesco Osborne, Enrico Motta KMi, The Open University, United Kingdom November 2015 Klink&2: Integra0ng Mul0ple Web Sources to Generate Seman0c Topic Networks

Upload: francesco-osborne

Post on 21-Feb-2017

1.440 views

Category:

Software


1 download

TRANSCRIPT

Page 1: Klink-2: integrating multiple web sources to generate semantic topic networks

Francesco Osborne, Enrico Motta

KMi, The Open University, United Kingdom

November 2015

Klink&2:)Integra0ng)Mul0ple)Web)Sources)to)Generate)Seman0c)Topic)Networks)

Page 2: Klink-2: integrating multiple web sources to generate semantic topic networks

Seman&cs)vs)keywords)

•  Many)systems)for)the)explora&on)of)research)

•  A)good)number)of)LD)corpus)describing)scholarly)data)

–  Nature)LD,)Bio2RDF,)AGRIS)LOD,)RDK,)DBLP++,)SW)Dog)Food,)Seman&c)Web)

Journal,)Springer)LOD,)Aminer)FOAF,)Dataset)Scholarometer))

2

Page 3: Klink-2: integrating multiple web sources to generate semantic topic networks

From)keywords)to)research)topics)

For)making)sense)of)academic)data)is)very)useful)to)have)an)comprehensive)and)upNtoNdate)ontology)of)research)topics.)

)

Unfortunately:)

•  human)craCed)classifica&ons)evolve)too)slowly)and)tend)to)be)too)coarse&grained.)

•  Current)automated)methods)for)genera&ng)ontologies)of)research)topics:)

–  ignore)many)indirect)sta&s&cal)and)seman&c)rela&onships)

–  do)not)support)different)kinds)of)hierarchical)rela&onships)–  are)not)able)to)handle)effec&vely)ambiguous)topics)characterized)by)a)noisy)

set)of)rela&onships.))

3

Page 4: Klink-2: integrating multiple web sources to generate semantic topic networks

Our)first)solu&on:)Klink)

Osborne,)F.)and)Mo/a,)E.)(2012))Mining)Seman:c)Rela:ons)between)Research)Areas.)Interna:onal)Seman:c)Web)Conference,)Boston,)MA)

Page 5: Klink-2: integrating multiple web sources to generate semantic topic networks

Some)examples:)Seman&c)Network)of)Topics)

Osborne,)F.,)Mo/a,)E.)and)Mulholland,)P.)(2013))Exploring)Scholarly)Data)with)Rexplore,)Interna:onal)Seman:c)Web)Conference,)Sydney,)Australia)

technologies.kmi.open.ac.uk/rexplore

Page 6: Klink-2: integrating multiple web sources to generate semantic topic networks

Main SW Communities (2000 – 2010)

Some)examples:)TopicNbased)Community)detec&on)

Osborne,)F.,)Scavo,)G.)and)Mo/a,)E.)(2014))A)Hybrid)Seman:c)Approach)to)Building)Dynamic)Maps)of)Research)Communi:es,)EKAW)2014,)Linkoping,)Sweden)

Page 7: Klink-2: integrating multiple web sources to generate semantic topic networks

KlinkN2)

Klink&2)is)more)scalable)and)introduces)a)number)of)new)

features,)and)is)able:))

•  to)scale)up)to)large)interdisciplinary)ontologies)–  )It)is)able)to)generate)the)topic)ontology)incrementally)

•  to)handle)ambiguous)keywords)–  e.g.,)“java)(programming)”,)“java)(Indonesia)”,)“java)(Coffee)”)

•  to)take)as)input)any)kind)of)sta0s0cal)or)seman0c)rela0onship)–  )e.g.,)involving)authors,)organiza0ons,)venues…)

Page 8: Klink-2: integrating multiple web sources to generate semantic topic networks

K1) K2)

K)K)

K)K)K)

K)K)K)K)

K)K)K)K)

K)K) K)K)

K)K)

K)K)K)

K)K)K)K)

K)K)K)

A) A)

A)

A)A)

A)

O) O)O)

O)

O)V)

V)

V)V)V

K) K)K)

Klink) Klink&2)

K1) K2)

Venues)

Authors)Organiza0ons)

Keywords)Keywords)

Rela&onships)used)in)Klink)and)KlinkN2.))

Page 9: Klink-2: integrating multiple web sources to generate semantic topic networks

KlinkN2)data)model)

•  skos:broaderGeneric.)We)reuse)this)property)from)the)SKOS)

model,)to)indicate)the)intui&ve)no&on)that)an)area)is)a)sub&area)of)another)one.)

•  contributesTo.)This)is)defined)as)a)subNproperty)of)skos:related)and)indicates)that)R1)research)outputs)are)relevant)to)R2.)

•  relatedEquivalent.)Defined)as)a)subNproperty)of)skos:related,)which)indicates)that)two)topics)can)be)treated)as)equivalent)for)the)purpose)of)exploring)research.)

9

Page 10: Klink-2: integrating multiple web sources to generate semantic topic networks

10

Statistical Inferences

skos:relatedEquivalent

skos:broaderGeneric contributesTo

Filtering

Triples generation

K)K)

K)K)K)

K)K)K)K)

K)K)K)

A) A)

A)

A)A)

A)

O) O) O)O)O)

V)V)

V)V)V)

K) K)K)

K1) K2)

Venues)

Authors)Organiza0ons)

Keywords)

Linked)Data)Cloud)

Clusterization Disambiguation

Input keywords Klink-2

Page 11: Klink-2: integrating multiple web sources to generate semantic topic networks

Sta&s&cal)indicators)

Hierarchical)rela0onship)(skos:broaderGeneric,)contributesTo)))

11

RelatedEquivalent)rela0onship)

Page 12: Klink-2: integrating multiple web sources to generate semantic topic networks

Handling)ambiguous)keywords)

KlinkN2)address)mainly)three)categories)of)ambiguous)keywords:)

•  Terms)which)actually)have)two)or)more)different)meanings)–  )e.g.,)“owl”,)the)ontology)web)language,)and)“owl”,)the)bird.))

•  Vague)terms,)with)meaning)that)can)change)according)to)the)

paper)they)are)associated)to)

–  )e.g.,)“mapping”,)“indexing”,)“performance”.)

•  Terms)that)used)to)have)a)unique)meaning,)but)are)now)used)in)specialized)ways)by)different)research)communi0es)–  e.g.)“ontology”.))

12

1 2

Page 13: Klink-2: integrating multiple web sources to generate semantic topic networks

An)Example:)Java)(Programming)Language))

13 Klink-2 approach

Page 14: Klink-2: integrating multiple web sources to generate semantic topic networks

An)Example:)Java)(Programming)Language))

14 Klink-2 approach

HOW?

1.  Klink-2 runs a hierarchical bottom-up clustering algorithm on the set of associates keywords.

2.  If the algorithm yields more than one cluster, Klink-2 run a slower and more accurate clusterization algorithm which considering only the entities associated with disambiguator keywords.

3.  If the process yields more than one cluster, the original keyword is used to produce as many disambiguated topics as the resulting number of clusters.)

Page 15: Klink-2: integrating multiple web sources to generate semantic topic networks

Evalua&on)

15

We)tested)four)different)methods:))

•  the)classic)subsump0on)method)(labelled)S);)

•  the)original)Klink)algorithm)(labelled)K);)

•  a)first)version)of)Klink&2,)with)the)ability)of)integra&ng)mul&ple)rela&onships,)but)not)addressing)ambiguous)keywords)(labelled)KR);)

•  the)final)version)of)Klink&2,)with)also)the)ability)to)detect)and)split)ambiguous)keywords)in)contextual)mode)(labelled)K2);)

Page 16: Klink-2: integrating multiple web sources to generate semantic topic networks

Evalua&on)

16

Page 17: Klink-2: integrating multiple web sources to generate semantic topic networks

Evalua&on)

17

Page 18: Klink-2: integrating multiple web sources to generate semantic topic networks

Current)situa&on)

• We)are)collabora&ng)with)major)academic)publishers,)

such)as)Elsevier)and)Springer.)

• We)run)KlinkN2)on)a)por&on)of)Scopus)data)about)

Computer)Science.)We)obtained)a)large&scale)ontology)consist)of)about))15)000)topics)linked)by)about)70)000)seman&c)rela&onships.))

• We)are)developing)a)new)version)of)Rexplore)

(technologies.kmi.open.ac.uk/rexplore/))which)will)take)full)advantage)of)KlinkN2)

Page 19: Klink-2: integrating multiple web sources to generate semantic topic networks

Future)Direc&ons)

•  Diachronic)analysis)of)topic)meanings.)

•  Allowing)KlinkN2)to)analyze)paradigms,)technologies,)datasets,)tools)and)so)on.)

•  Exploi&ng)KlinkN2)ontology)in)a)variety)of)ways)to)produce)smart)analy0cs)of)research)data)

Page 20: Klink-2: integrating multiple web sources to generate semantic topic networks