![Page 1: SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d8249795902118d6640/html5/thumbnails/1.jpg)
SpringerMedizin SuchoptimierungNemo-Projekt
Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014
1
![Page 2: SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d8249795902118d6640/html5/thumbnails/2.jpg)
Agenda
Aufgabe/Probleme
Vorgehen
Demo
Methodik
Ergebnisse
Weiterführung
Lessons Learned
2
![Page 3: SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d8249795902118d6640/html5/thumbnails/3.jpg)
Aufgabe/Problem
![Page 4: SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d8249795902118d6640/html5/thumbnails/4.jpg)
Einarbeitung
Vorgehen
Solr konfigurieren
Goldstandard
➔ Apache Solr
➔ Spring MVC
➔ Junit /Mockito
➔ VirtualBox
➔ Springer Core
➔ Author Core
➔ Anpassung der Konfigurationsdateien
➔ Indexierung von Beispieldokumenten
➔ MESH anbinden
➔ Suchseite
➔ InstantSearch
➔ Highlighting
➔ Suggestion
➔ Kombination der Cores
➔ Synonyme
➔ Example Queries von Biomedcentral
➔ Suchergebnisse Messen mittels Mean Reciprocal Rank
➔ Visuelle Darstellung des Goldstandards
➔ laden Goldstandard
Datenimport Suche
4
![Page 5: SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d8249795902118d6640/html5/thumbnails/5.jpg)
DEMO
5
![Page 6: SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d8249795902118d6640/html5/thumbnails/6.jpg)
Methodik Indizierung* Indizierung per Implementierung des DataImportHandlers in der solr-Konfiguration
- XML-Dateien von Springer mittels Xpath-Ausdrücken indiziert. - Indizierung der Dokumente mittels gezieltem absenden von Such-Queries evaluiert - 2788 XML-Dateien Indiziert
* Während der Indizierung copyFields für Suggester aufbauen- Suggester in solrconfig.xml implementieren der für diese Felder Vorschläge zurückgibt
Struktur der Indizierung:
* Highlighting in Standart-Solr-Konfiguration vorhanden- Probleme mit Implementierung der hintereinander geschalteten Cores
AuthorName
Article Title
Article SubTitle
Author CoreAuthorGroupGivenNameFamilyName
...
Token + Synonym
Springer Core
6
![Page 7: SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d8249795902118d6640/html5/thumbnails/7.jpg)
Methodik Synonyme
QueryQuery Analyser
Synonyme
Cancer of Breast, Breast Cancer
Index Analyser
Cancer of Breast
Breast Cancer
Breasts Tumor
of
7
![Page 8: SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d8249795902118d6640/html5/thumbnails/8.jpg)
Methodik Datenstruktur/Gold
SearchQuery“cancer”
SearchResultsMapMap(docid,pos)
SearchResultsMap(SearchQuery,SearchResults)
SearchQueryExecution(SearchResults,SearchResults)
Calculate Mean Reciprocal Rank
GoldResult
SearchResult
Metric Table
8
![Page 9: SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d8249795902118d6640/html5/thumbnails/9.jpg)
ErgebnisGoldstandart - Testframework auf Basis von Spring MVC
Das Testframework gibt ein arithmetische Mittel (MRR) aus, um das Ranking-Ergebnis einer Query über eine Anzahl an möglichen Ergebnissenzu evaluieren. Erweiterungen und Änderungen an Solr können direkt bewertet werden.
Indizierung der A++ Struktur
Eine mögliche Lösung für die Indizierung der bisherigen XML-Dokumente in einen Solr-Index ist von uns bereitgestellt.
SolrSuggester, InstantSearch, Autocomplete
Die Nutzung des Suggester von Solr selbst, eine eigene Implementierung des InstantSearches mittels jQuery, sowie eine eigene Implementierung einer Autocomplete-Lösung mittels jQuery ist von uns realisiert worden
9
![Page 10: SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d8249795902118d6640/html5/thumbnails/10.jpg)
ErgebnisVirtualbox
* Virtualbox - Image- funktionsfähige Umgebung- Beispiel für Einrichtung unserer Lösung (Readme - Datei angehangen)
- Auslieferung als .rar oder auch auf DVD möglich
Bereitgestellte Dokumentehow to setup virtualbox containing our solution
https://bitbucket.org/beuthspringerteam/springer-solr/wiki/How%20to%20use%20the%20virtual%20box%20%28on%20ubuntu%29how to setup project locally without virtualboxhttps://bitbucket.org/beuthspringerteam/springer-solr/wiki/How%20to%20Setup%20the%20projectInfo-document containing team-infos, goals, plannings https://docs.google.com/document/d/1CARvHSsHC3KKxHg2Ox8WaYLaMNNoiAbd_5eksuZ_k-0/edit?usp=sharing
10
![Page 11: SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d8249795902118d6640/html5/thumbnails/11.jpg)
Weiterführung● Highlighting für Synonyme implementieren
● Goldstandard vervollständigen durch gezieltere Datenanalyse
● Erweitern der SolrInstanz um weitere Funktionen(Testen mit dem Testframework)
● Authoren-Namen-Importfilter weiter optimieren
● Synoymen Multi Wildcards
● Trefferlisten sollten die Ergebnisse durchsuchbar machen damit Artikel Informationen verglichen werden können.
11
![Page 12: SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d8249795902118d6640/html5/thumbnails/12.jpg)
Lessons Learned
● Apache Solr und Spring-Applikation in getrennten Repositories versionieren
● Eine einheitliche Server-Instanz in einer VM für das Team bereitstellen, die sowohl Solr als auch Tomcat umfasst aber nicht die Entwicklungsumgebung.
● wissenschaftliche Anfangsanalyse der Eingangsdaten und Problematik durchführen
12