splendid: sparql endpoint federation exploiting void descriptions

Institute for Web Science and Technologies

University of Koblenz ▪ Landau, Germany

SPLENDID: SPARQL Endpoint Federation

Exploiting VOID Descriptions

Olaf Görlitz, Steffen Staab

WeST InstitutePeople and Knowledge Networks

Olaf GörlitzCOLD 2011, Bonn, Germany

Motivation

How to access a large number of linked data sources?

Data Integration Approaches

Data Warehouse

Efficient query execution Complete results Data copies Inflexible

Link Traversal

Live Data Access Flexible / On Demand Incomplete results Biased by starting point

Our Approach

Live data accessFlexible source integrationEffective query planningComplete results

Data Federation

Hypothesis:Efficient query federation is possible using core Semantic Web technology (i.e. SPARQL endpoints, VoiD descriptions)

VoiD: „Vocabulary of Interlinked Datasets“

} General Information

Basic statisticstriples = 732744

Type statisticschebi:Compound = 50477

Predicate statisticsbio:formula = 39555

Distributed Query Processing

Contribution:Apply Best Practices of RDBMS for RDF Federation

http://code.google.com/p/rdffederator/

Query Example

SELECT ?drug ?title WHERE { ?drug drugbank:drugCategory category:micronutrient . ?drug drugbank:casRegistryNumber ?id . ?keggDrug rdf:type kegg:Drug . ?keggDrug bio2rdf:xRef ?id . ?keggDrug purl:title ?title . }}

Which drugs are categorized as micronutrients?

Query Processing

Source Selection Join Optimization Query Execution

Query Processing

predicate-indexdrugbank:drugCategory → drugbank

type-indexkegg:Drug → kegg

1. Step: Index-based source mapping

→ drugbank

→ kegg

→ kegg, dbpedia, Chebi

→ drugbank

→ kegg

Query Processing

No index for subject / object values

2. Step: Refinement with ASK Queries

Query Processing

3. Step: Grouping Triple Patterns

drugbank

} kegg, dbpedia, Chebi

+ grouping sameAs patterns

Join Order Optimization

bind join /hash join

Dynamic Programming with statistics-based cost estimation

Evaluation

DARQ AliBaba FedX SPLENDID

Statistics ServiceDesc – – VoiD

Source Selection

Statistics(predicates)

All sources ASK queries Statistics + ASK queries

Query Optimization

DynProg Heuristics Heuristics DynProg

Query Execution

Bind join Bind join Bound Join + parallelization

Bind Join + Hash Join

Orthogonal State-of-the-Art approaches:

FedBench Evaluation Suite• Life Science + Cross Domain Data• different query characteristics

Measuring• #data sources selected• query execution time

Evaluation: Source Selection

rdf:typeowl:sameAs

Evaluation: Query Optimization

Conclusion

VoiD-based query federation is efficient

Publish more VoiD description!

What next? Combination with FedX Improving estimation and cost model Integrating SPARQL 1.1 features

splendid: sparql endpoint federation exploiting void descriptions

west institutepeople

efficient query federation

germanyquery processingselect

drug kegg1

germanyquery exampleselect

drugcategorycateg index

sparql endpoint federation

sparql endpoints

Education

sparql作成ツール sparql creator

sparql/szvizler - leibniz center...this sgviz1er is...

costfed: cost-based query optimization for sparql endpoint...

configuring and securing a sparql endpoint

matware: constructing and exploiting domain speci c...

consumo de endpoint sparql desde drupal

combining faceted search with data-analytic visualizations...

federated sparql queries processing with replicated...

hibiscus: hypergraph-based source selection for sparql...

how good is your sparql endpoint? a qos-aware sparql...

a fine-grained evaluation of sparql endpoint …m. saleem et...

extensiÓn para para la integraciÓn de datos...

sparql -...

1 sparql language overview - uppsala university · 1 sparql...

comprendiendo sparql

multilingual ontology matching based on wiktionary data...

consultas sparql

configuring and securing a sparql endpoint 2012 vivo...

fine-grained evaluation of sparql endpoint federation...

jena sparql