integration von apache solr in touchpoint
TRANSCRIPT
![Page 1: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/1.jpg)
Universitätsbibliothek
Projekt Integriertes Bibliotheksportal
Integration von Apache Solr in TouchPoint
Universitätsbibliothek
Projekt Integriertes Bibliotheksportal
RUHR-UNIVERSITÄT BOCHUM
![Page 2: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/2.jpg)
Was ist Lucene?
Integration von Apache Solr in TouchPoint
(Java-)Framework zum Indizieren und Suchen
Doug Cutting (@cutting)
März 2000
Aktuell: Version 3.0.1 (26.2.2010)
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 3: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/3.jpg)
Was ist Solr?
Integration von Apache Solr in TouchPoint
Schnelles, skalierbares Enterprise-Suchsystem
Yonik Seeley (@lucene_solr)
Ende 2004: CNET
Anfang 2006: Apache Projekt
Aktuell: Version 1.4 (10.11.2009)
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 4: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/4.jpg)
Was ist Lucene/Solr?
Integration von Apache Solr in TouchPoint
Seit 15. März 2010: Lucene- und Solr-Code und -Infrastrukturen verschmelzen
Engere Koordination zwischen der Entwicklung von Lucene und Solr
Neue Lucene-Funktionalitäten schneller in Solr
Kürzere Release-Zyklen für Solr
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 5: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/5.jpg)
Funktionalitäten von Solr
Integration von Apache Solr in TouchPoint
RESTful API
Administrationsoberfläche; Monitoring über JMX
Konfiguration über XML-Dateien
Erweiterbar durch Plugin-Architektur
Konfigurier- und erweiterbares Caching
Skalierbar durch verteilte Indizes auf mehreren Rechnern
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 6: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/6.jpg)
Funktionalitäten von Solr
Integration von Apache Solr in TouchPoint
Daten-Schema mit
numerischen Typen
eigenem Datums-Typ
dynamischen Feldern
eindeutigem Schlüssel pro Dokument (auch UUID als Feld-Typ)
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 7: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/7.jpg)
Funktionalitäten von Solr
Integration von Apache Solr in TouchPoint
Sprachliche Analyse
Unterschiedliche Tokenizer (Leerraum, HTML, N-Gramme...)
Filterung mit regulären Ausdrücken, phonetische Filter
Porter-/Snowball-Stemmer für verschiedene Sprachen
Stop-Wortlisten, Synonymlisten
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 8: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/8.jpg)
Funktionalitäten von Solr
Integration von Apache Solr in TouchPoint
(Multiple) Navigatoren und Filter
Hervorheben von Suchtermen
Rechtschreibvorschläge
Vorschläge für ähnliche Treffer
Clustering von Suchergebnissen
„Redaktionelles Ranking“ (aka „Best Bet“)
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 9: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/9.jpg)
Funktionalitäten von Solr
Integration von Apache Solr in TouchPoint
Einfaches XML-Format zum Indizieren
Weitere Handler:
CSVRequestHandler
DataImportHandler (FieldReaderDataSource, FileDataSource, URLDataSource, JdbcDataSource)
Solr Cell (= Apache Tika: Microsoft Office, PDF, ODF, RTF, HTML, XML, EPub, mbox...)
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 10: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/10.jpg)
Skalierbarkeit von Solr
Integration von Apache Solr in TouchPoint
UB Bochum: ca. 2,3 Mio Datensätze
Beluga: ca. 4,7 Mio Datensätze
Nationallizenzen: ca. 22 Mio Datensätze
„Wir verarbeiten aktuell im Tagesdurchschnitt etwas mehr als 4 Such-Requests pro Sekunde (in Solr) und die Kiste langweilt sich zu Tode.“
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 11: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/11.jpg)
Skalierbarkeit von Solr
Integration von Apache Solr in TouchPoint
Hathi Trust: ca. 5,3 Mio Volltexte (18.2.2010)
Durchschnittliche Antwortzeit: 3 Sek, 90% der Anfragen in 4 Sekunden, 9% zwischen 4 und 24 Sek und 1% länger als 24 Sek
Hardware: 4 Suchserver mit 1 Tomcat (16 GB Heapspace) und je 3 „Partitionen“; 10 Partitionen aktiv1 Indexserver mit 12 Tomcats (jeweils 6 GB Heapspace) und 12 Partitionen; 10 Partitionen aktiv
Informationen: http://www.hathitrust.org/blogs/large-scale-search
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 12: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/12.jpg)
Flankierende Technologien
Integration von Apache Solr in TouchPoint
solrmarc (http://code.google.com/p/solrmarc/)
Apache Nutch (http://lucene.apache.org/nutch/)
Alias-I LingPipe (http://alias-i.com/lingpipe/)
carrot2 (http://project.carrot2.org/)
Apache Mahout (http://lucene.apache.org/mahout/)
Apache Hadoop (http://hadoop.apache.org/)
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 13: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/13.jpg)
Support für Solr
Integration von Apache Solr in TouchPoint
Lucidworks Certified Distribution For Solr
Installer
Zusätzliche Stemmer-Klassen
Lucene Index Toolbox (Luke)
LucidGaze for Solr
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 14: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/14.jpg)
Solr-Dokumentation
Integration von Apache Solr in TouchPoint
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 15: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/15.jpg)
Integration in TouchPoint
Integration von Apache Solr in TouchPoint
Code-Basis: InfoGuide mit einer Schnittstelle für generische Datenquellen
Implementierung von
GenericServer,
ResultHitlist,
Result,
DrillDowns,
MoreLikeThis...
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 16: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/16.jpg)
Vielen Dank für Ihre Aufmerksamkeit!
Fragen?
Integration von Apache Solr in TouchPoint
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM
![Page 17: Integration von Apache Solr in TouchPoint](https://reader033.vdocuments.net/reader033/viewer/2022052311/557c0725d8b42a0a6a8b5338/html5/thumbnails/17.jpg)
Bildnachweis
Integration von Apache Solr in TouchPoint
Titel: http://www.flickr.com/photos/59303791@N00/168921732/
LucidWorks Reference: http://www.lucidimagination.com/Downloads/LucidWorks-for-Solr/Reference-Guide
Lucene in Action: http://www.manning.com/hatcher3/
Taming Text: http://www.manning.com/ingersoll/
UniversitätsbibliothekRUHR-UNIVERSITÄT BOCHUM