faktabasert søk med recommind
DESCRIPTION
En beskrivelse av søkemotoren Recommind, og hTRANSCRIPT
1
Faktabasert, strukturert søkmed Recommind Decisiv Search
Sømløs virksomhet, Bouvet, 2011-12-14
Petr Vasilev, <[email protected]>
2
Alt er i orden
• Definere forskjellige skjemer og system
spesifiske språk
• Oversette mellom de
• Synkronisere data kilder
• Federere mellom data
kilder
3
Eller er det?
• Data er veldig absktrakt, generisk og fleksibel
• Det blandes masse forskjellige systemer
sammen
• Vanskelig å vise semantisk data til bruker
4
Datapresentasjon lagTekonologiske viktig
• Skalere sammen med datakilder
• Levere resultater på det forteste
• Støtte eksisterende autorisasjon/autentisering
mekanismer
• Støtte datafleksebilitet
5
Datapresentasjon lagViktig for brukerne
• Enkelt brukergrensesnitt
• Gi sjanse å navigere over data, ikke bare lete
• Vise koblet data
• Støtte språk
(lemmatisering, synonymer, stopord)
• Osv
6
Høres kjent ut? Enterprise search.
7
Alternativer?
• Direkte tilgang til RDF lagringsted/datakilder
med SPARQL
– Ingen indeksering ventetid
– Ingen OOTB (out of the box) støtte til sikkerhet
mekanismer og SSO (single sign on)
– Ingen OOTB brukergrensesnitt
– Ingen spårkstøtte
8
Recommind? Fast? Noe annet?
• Recommind
– Fleksibelt data skjema
– Har muligheter for avansert data analyse
• Fast Search for Sharepoint
– Integreres utrolig bra i MS miljø
• Andre alternativer
– Attivio
– Expert Systems
9
Arkitektur
Recommind Decisiv Search
Data source 1
Data source 1
Connector Indexing / Search
Querying component
Autorization and
authntication source
User interface
Publisher
External system
10
Fleksibel data skjema
• Det tar inn alt som kommer fra konnektor
– Data sitter i indeksen som XML
• Det er mulig å definere felter etter data er inn
• Det er mulig å skrive sine egene konnektorer
– Vi har skrevet konnektor til SDShare
11
Navigering over entiteter
• Det er mulig å definere søkefilterer etter data
er inn
– Vi kan opprette nye filterer uten komplett
reindeksering
• Det er mulig å binde etiketter til verdier
– http://psi.kunde.no/ifs/customer/1 = “Statnett”
12
Oversetting av RDF tripler tilsøkeindeks
Spesifisk felte
Generisk felte
Dokument
<haf:Anlegg/1> <haf:is-part-of> <haf:Anlegg/2>
Anlegg/1 * is-part-of: Anlegg/2 * entity: Anlegg/2
13
Navigering over objekter i søk
• Nedtrekksmenyen på hovedside
– Engasjerer brukerene
– Gir mulighet å naivgere, ikke å søke
• Søkefilter verdier i boksen
– Mye lettere å vite hva vi filtrer med
• Avansert søk for de modige
14
Navigering over objekter på entitet
• Følge metadata lenker
– F eks departament nesten alltid har overordne
department
• Vise alle koblete objekter
– Vise alle anlegg og dokumenter, som er relatert til sak
KundestøtteOslo
KundestøtteOslo Sentrum
is part
of
15
Personalisering
• Vis alle dine dokumenter
– Din avdeling
– Din selskap
• Framtid: OWL resonering
– Få info som er nytt for deg
ad/department/123 ifs/company/31same-as
ad/user/e29266
works-in
16
Avansert dataanalyse
• OCR (Optical character recognition)
• Dyp tekstanalyse
– PSVM (Probabilistic Support Vector Machines)
– Skille mellom møtereferat og nabovarsel
• Spørringsutvidelse
– PLSA (Probabilistic Latent Semantic Analysis)
17
Recommind sine ulemper
• Noe vanskelig problemer med arkitektur
– Spesielt med store taksonomier
• Ingen push API
• Sessjon basert Query API
• Lisens modell
18
Demo!
19
20
21
22
23
24
25
OppsummeringRecommind som søkemotor i semantisk miljø
• Kjempe god verktøy til å bygge opp sluttbruker
grensnitt
• Spiller bra sammen med RDF/SPARQL basert
løsninger
• Har noen ulemper, men de er ikke kritiske