content delivery: implementierung, anwendung ... · konnektorenlandschaft einer enterprisesearch...

30
Content Delivery: Implementierung, Anwendung & Besonderheiten einer Portallösung ODER So viel Wissen war noch nie in Ihren Daten: Insight Engines Revolution anstatt Evolution © 2016 - IntraFind Software AG 1

Upload: others

Post on 17-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Content Delivery: Implementierung, Anwendung & Besonderheiten einer Portallösung

ODER

So viel Wissen war noch nie in Ihren Daten: Insight EnginesRevolution anstatt Evolution

© 2016 - IntraFind Software AG 1

Page 2: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

IntraFind Software AG

Sitz: München; keine Niederlassungen

Kundenbasis in Deutschland, Österreich und Schweiz

Kunden: > 1000

Partner: > 35 (embedding Partner und Reseller)

Mitarbeiter: 40 festangestellte Mitarbeiter, wir arbeiten i.d.R. nicht mit freien Mitarbeitern

Wir re-investieren 25% unseres Umsatzes in Forschung & Entwicklung

Direkter Herstellersupport,

Gründung: Jahr 2000

Wir bieten unseren Kunden Softwareprodukte, Lösungen und Beratung rund um die Themen Enterprise Search, Information Access & Text Mining und verfügen über mehr als14 Jahre Erfahrung in der Planung und Umsetzung von Suchprojekten.

© 2016 - IntraFind Software AG 2 2

IntraFind ist Ihr Spezialist für die Informationsgewinnung in

unstrukturierten und strukturierten Unternehmensdaten.

Page 3: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

IntraFind Software AG – unsere Kunden

3© 2016 - IntraFind Software AG

Page 4: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Meine These:Bitte… Wenn Sie zu einer These ANDERER Meinung sind

Daten sollten immer „dokumentenspezifisch“ präsentiert werden

Daten müssen immer recherchierbar sein, oftmals aus vielen Quellen

Wenn der richtige Inhalt nicht innerhalb von 30 Sekunden gefunden wird, existiert er nicht!

Es bringt mich nicht immer weiter, nur ein Dokument präsentiert zu bekommen

„Delivery“ heisst nicht zwangsläufig Lieferstrecke, aber immer zwangsläufig ausliefern

Portal impliziert „eine zentrale Plattform“

© 2016 - IntraFind Software AG 4

„In vielen Fällen muss das CDP die Inhalte nicht mehr „managen“ sondern NUR präsentieren / darstellen

30%

90%

40%

30%

0%

0%

10%

In % die Antworten aus

dem Publikum

Page 5: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Wenn ich im hausinternen System nichts finde, dann „google“ ich

Immer einen Webzugriff zu haben, wird langsam Realität

Ich muss mich bereits heute darauf vorbereiten, dass morgen natürlichsprachigeSuchfragen mir Antworten geben

Hilfreich wäre, wenn ich im Kontext meiner Aufgabe die richtige Information proaktiv angezeigt bekommen würde…

Metadaten sind meist nicht ausreichend vorhanden

In vielen Fällen liegen die Daten nach wie vor als Volltext und unstrukturiert vor

© 2016 - IntraFind Software AG 5

Eine gute Suchmaschine wäre für meine Anforderungen heute erst einmal ausreichend

Meine These:Bitte… Wenn Sie zu einer These anderer Meinung sind

10%

8%

3%

0%

0%

50%

0%

Page 6: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Leistungsspektrum

© 2016 - IntraFind Software AG 6

Page 7: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Deutlich Mehr als Volltextsuche

DENN:

Suche ist Commodity

Was zählt ist Content Analytics

darüber funktioniert erfolgreiche Differenzierung

Hervorragende Morphologie für

Deutsch –und viele weitere Sprachen

Führende Verfahren – auch für Big

Data geeignet

© 2016 - IntraFind Software AG 7

Page 8: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

IntraFind Produktportfolio

Search• iFinder Suite

Content Analytics• Tagging, Themenerkennung,

Eigennamenerkennung

• Linguistik

Services, Plugins & Konnektoren

für Elasticsearch

© 2016 - IntraFind Software AG 8

IntraFind – Kernprodukte

Page 9: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

iFinder5 elastic – modularer Aufbau

• Performant und skalierbar Volltextsuche

• Suche nach SynonymenThesaurusbasierte Suche

• Personensuche bis hin zu Experten-IdentifikationPeople Search

• Suche über mehrere Sprachen hinwegCrosslinguale Suche

• Lemmatisierung und KompositazerlegungLinguistische Suche

• Suche nach inhaltlich ähnlichen DokumentenÄhnlichkeitssuche

• Anzeige inhaltlich korrelierter Suchbegriffe, dyn. NavigationAssoziativ-semantische Suche

• Filterung der Treffer nach inhaltlichen ThemenThemenbasierte Suche

• Erkennung von Eigennamen und AttributenNamed Entity Recognition

• Trefferliste thematisch sortierenText-Clustering

• Schneller Überblick, Reduktion aufs WesentlicheTextzusammenfassung

• Dynamische Filterung nach Metadaten, „Zero-Term-Search“Wissenslandkarte

© 2016 - IntraFind Software AG 9

Page 10: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Single Point of Information Access

© 2016 - IntraFind Software AG 10

File Shares(Win, Unix)

E-MailDMS &

Archive

ApplikationERP/CRM

+ weitere Quellen…

Collabo-rationIntranet /Internet

Wikis

Konnektoren

"Don’t underestimate the cost

or complexity of connectivity.

Search engines rely on

connectors to hook into

databases and applications.“

The Forrester Wave™

Enterprise Search

Page 11: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

IntraFind, Elasticsearch & iviews

IntraFind

Elasticsearch

i-views

Solution

IntraFind nutzt die Elasticsearch

IntraFind stellt dabei eine voll umfängliche Lösung dar.

IntraFind Tagging Services nutzt und wird benutzt von iviews Schemata basierten Daten für „insights“

i-views liefert das Knowledge Builder Tool zur Lösung folgender Aufgaben: define & visualise scheme, store & manage data, map data, process data, define rights

Die vorgestellte Lösung ist eine Kombination aus IntraFind, Elasticsearch & i-views im Sinne des „best of breedapproach“ für Ihr Unternehmen

© 2016 - IntraFind Software AG 11

Page 12: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

VORSTELLUNG DEMO

© 2016 - IntraFind Software AG 12

Page 13: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

IFINDER 5 ELASTIC –WEIT MEHR ALS VOLLTEXTSUCHE:LINGUISTIKSEMANTISCH-ASSOZIATIVE SUCHE

© 2016 - IntraFind Software AG 13

Page 14: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Linguistik

© 2016 - IntraFind Software AG 14

Ein wichtiges Verfahren im Hintergrund

Die IntraFind liefert Ihnen erstklassige Morphologie

Referenzen: Haufe, Langenscheidt, Hexaglot, Wolters Kluwer, Zeit

Lemmatisierung (kein Stemming!) und Kompositazerlegung auf höchstem Niveau – für

derzeit 15 Hauptwirtschaftssprachen

Warum Linguistik?

Wirkungsweise: Je besser der Index, desto besser alle weiteren Verfahren, die auf dem

Index aufsetzen, wie z.B. Retrieval, Klassifikation, Clustering oder Tagging, daher:

linguistisch aufbereiteter Index

es wird kein Volltextindex sondern ein sog. „Grundformenindex“ generiert,

in dem neben den Vollformen auch die zugehörigen Grundformen und

Kompositabestandteile hinterlegt sind.

hochwertige Lemmatisierung und Kompositazerlegung sind für qualitativ hochwertiges

Retrieval bei einer morphologisch komplexen Sprache wie Deutsch unerlässlich!

Page 15: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Linguistik

© 2016 - IntraFind Software AG 15

Beispiel: Suchanfrage nach „buch“

Trefferliste umfasst auch Treffer mit „Buches“, „Bücher“, „Büchern“, „Fachbuch“, „Sachbuches“, „Prozessmanagementhandbuch“ …

Erklärung: es werden Singular- und Pluralformen des Suchbegriffes berücksichtigt sowie gebeugte Formen oder zusammengesetzte Wörter (Komposita)

Vorteil: es werden keine relevanten Treffer mehr übersehen

Weiteres anschauliches Bsp: Bei der Suche nach „Räder“ findet der Benutzer auch Inhalte in denen das Wort

steht. Das bringt Vollständigkeit und Kundenzufriedenheit!

Page 16: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Exkurs: LinguistikLemmatisierung

Gebeugte Wortformen (Paradigma)

z.B. Paradigma für das Verb „gehen“ im Präsens

Paradigma im weiteren Sinn, z.B. gehen (Verb) -> das Gehen (Substantivierung) -> der Gang (Substantiv)

Lemmatisierung – gebeugte Wortformen werden auf einem Repräsentanten des Paradigmas (Wortstammes) zurückgeführt

Varianten des Wortstamms sind möglich

z.B. „geh“ – „ging“ – „gang“ / “gäng“

Vorteil für den Benutzer

Klare nachvollziehbare Trefferlisten

Vollständigkeit der Trefferlisten

© 2016 - IntraFind Software AG 16

Page 17: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Exkurs: LinguistikKomposita

Kompositum

die Verbindung zweier oder mehrerer bestehenden Wörter zu einem zusammengesetztem Wort.

Herausforderung

Nicht immer einheitliche und regelmäßige Verwendung von Fugenelemente im Deutschen

z.B: Schwein-e-braten vs. Schwein-s-braten

Alternative Zerlegung (Abt-Ei-Lungen, Stau-Becken vs. Staub-Ecken; Bahn-Hof?)

Produktivität der Kompositazerlegung

Produktivität der Kompositabildung unterscheidet sich je nach Sprache

Deutsch sehr produktiv

English schwächere Produktivität, Kompositabildung durch Hyphenisierung

© 2016 - IntraFind Software AG 17

Kern Fuge Kopf

Semantischer Bedeutungsträger Erleichtert die Aussprache Grammatischer Bedeutungsträger

Brief - träger

Bedeutung s träger

Page 18: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Assoziativ-semantische Suche

© 2016 - IntraFind Software AG 18

Einstieg über ein einfaches Suchfeld

Der Benutzer erhält eine nachvollziehbare

Trefferliste

Da die Treffermenge oft unüberschaubar groß

ist, werden dem User seitliche

Navigationselemente angeboten, über die er die

Suche intuitiv einschränken kann

Die Navigationselemente werden dynamisch

abhängig von Ihrer Suchfrage angezeigt

Alleinstellungsmerkmal: Assoziative Wortwolke

als Navigationselement. Im Kontext zur

Suchanfrage werden stark assoziierte Begriffe

angezeigt, mit der per Klick die Suchanfrage

präzisiert und so die Treffermenge schnell und

einfach reduziert werden kann

Die Begriffe für die assoziative Suche werden in

Echtzeit berechnet und müssen nicht

eingegeben werden.

Beispiel: ESP -> Nässe -> Präzisierung um den

Begriff Spurstabilität durch Auswahl des Begriffs

Page 19: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Mehrsprachigkeit des iFinders

© 2016 - IntraFind Software AG 19

MehrsprachigkeitMehrsprachiges

UI

Mehrsprachige Administration

Mehrsprachige Dokumentation

Sprachen erkennen

Mehrsprachige Dokumente Verarbeiten (Chunking)

Linguistik (Texte verstehen)

Cross bzw. Multi-

Lingualität

Mehrsprachige Thesauri

Page 20: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

VORSTELLUNG LÖSUNGEN AUS DEM SERVICEDESK BEREICH

© 2016 - IntraFind Software AG 20

Page 21: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Fall 1: Frühzeitige Fehlerbilderkennung

© 2016 - IntraFind Software AG21

• Auswertung von Daten aus allen Quellen auf einem Dashboard

• Erkennung von Häufungen bestimmter Fehler bezogen auf z.B.

• Produkte / Produktgruppen

• Kunden

• Programme

• A/C Type

• Partnummer

Ableiten von Maßnahmen zur Verbesserung der Produktqualität

möglich (z.B. Modifikationen in der Entwicklung)

Basis für Preventive Maintenance / Health Monitoring

Page 22: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

TAGGING –METADATEN ERZEUGEN

© 2016 - IntraFind Software AG 22

Page 23: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Metadaten erzeugen - Tagging

© 2016 - IntraFind Software AG 23

Page 24: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Anwendungsbeispiele: Verschlagwortung

Anreicherung von Metadaten in beliebigen Zielsystemen (DMS, Wiki, Collaboration…)

Verbesserung der unternehmensweiten Suche – diese leidet an schlechten Metadaten

Strukturierung von Unternehmenscontent (Erkennen von Lieferscheinen, Rechnungen, Identifikation

vertraulicher Inhalte bis zur Erkennen von z.B. inhaltlich Content-Clustern)

Identifikation von Dokumenten, die aus Revisionsgründen in ein DMS oder Archiv überführt werden sollen ->

smarte Migration relevanter Daten in ein DMS über Text-Analyse

Steuerung von Workflows (z.B. E-Mail-Routing)

PlugIn für CMS oder Office-Produkte-> automatisches Befüllen einer Verschlagwortungsmaske

Allgemein: Der Tagging Service reichert überall dort Metadaten an, wo Content erstellt wird

(CMS, Mails, Dokumente, Redaktionssysteme…)

Auch ein Tag: Das Sentiment: Wird mein Produkt in einem Text positiv, neutral oder negativ dargestellt.

© 2016 - IntraFind Software AG 24

Page 25: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Verschlagwortungsarten

Freie Verschlagwortung

Extraktion von Sachverhalten aus dem Dokumenteninhalt

Kontrollierte Verschlagwortung

Freie Schlagworte werden mit einem kontrollierten Vokabular / Thesaurus / Wissensnetz abgeglichen

Entitätenerkennung

Erkennung der Eigennamen von Personen, Organisationen, Orten

Themenerkennung

mittels automatischer Textklassifikation (Lernverfahren) bei gegebenen Themenhierarchien

© 2016 - IntraFind Software AG 25

Page 26: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Tagging Service –out of the box … hoch spezialisierbar

© 2016 - IntraFind Software AG 26

Freie Schlagworte

Named Entities

Standardentitäten

Whitelisting

Kontrolliertes

Vokabular

Wissensnetz

Spezielle Entitäten

domänen- oder

kundenspezifisch

Themenerkennung

Training über

Training Wizard

Basis Individuell

Page 27: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Linguistik

Ein wichtiges Verfahren im Hintergrund

Die IntraFind liefert Ihnen erstklassige Morphologie

Referenzen: Haufe, Langenscheidt, Hexaglot, Wolters Kluwer, Zeit

Lemmatisierung (kein Stemming!) und Kompositazerlegung auf höchstem Niveau – für derzeit 15 Hauptwirtschaftssprachen

Warum Linguistik?

Wirkungsweise: Je besser der Index, desto besser alle weiteren Verfahren, die auf dem Index aufsetzen, wie

z.B. Retrieval, Klassifikation, Clustering oder Tagging, daher:

linguistisch aufbereiteter Index

es wird kein Volltextindex sondern ein sog. „Grundformenindex“ generiert,

in dem neben den Vollformen auch die zugehörigen Grundformen und Kompositabestandteile hinterlegt sind.

hochwertige Lemmatisierung und Kompositazerlegung sind für qualitativ hochwertiges Retrieval bei einer

morphologisch komplexen Sprache wie Deutsch unerlässlich!

© 2016 - IntraFind Software AG 27

Page 28: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Metadatenmanagement: viele komplexe Verfahren – ein einfacher Arbeitsschritt

© 2016 - IntraFind Software AG 28

Entity: Top Term 1

Entity: Person Name

Entity: Location

Entity: Top Term 2

Entity: Company Name

Entity: Top Term 3

Metadaten-Store

(Index, Redaktionssystem, semantisches Netz)

Entity / Category

Document

Document

Page 29: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Besonderheiten der Lösung

Konnektorenlandschaft einer Enterprisesearch

Wir können unlimitiert Daten verarbeiten

Wir verstehen die Inhalte durch beste Linguistik

Wir können über 600 unterschiedliche Datenformate

Wir verstehen es, die Daten aufzubereiten (Content Analytics)

Wir haben ansprechende Benutzeroberflächen

Wir finden, da wo andere noch nicht mal richtig suchen

Wir verstehen natürlichsprachige Anfragen

ABER am Wichtigsten: Der iFinder ist sofort nutzbar und so einfach zu bedienen wie eine Google Websuche

© 2016 - IntraFind Software AG 29

Page 30: Content Delivery: Implementierung, Anwendung ... · Konnektorenlandschaft einer Enterprisesearch Wir können unlimitiert Daten verarbeiten Wir verstehen die Inhalte durch beste Linguistik

Herzlichen Dank für Ihre Aufmerksamkeit

© 2016 - IntraFind Software AG 30

Manuel Brunner

Partner Manager & Business Development

Phone: +49 (89) 3090446-16

E-Mail: [email protected]

Web: http://www.intrafind.de

IntraFind Software AG

Landsberger Straße 368

80687 München