data und web mining kfk semantic web: knowledge management lv-leiter: mag. peter höfferer helena...
TRANSCRIPT
Data und Web MiningData und Web MiningKFK Semantic Web: Knowledge KFK Semantic Web: Knowledge ManagementManagement LV-Leiter: Mag. Peter HöffererLV-Leiter: Mag. Peter Höfferer
Helena OroszlanHelena OroszlanSybille PipalSybille Pipal
ÜberblickÜberblick
Data MiningData Mining– DefinitionenDefinitionen– AllgemeinesAllgemeines– Data Mining Prozess Data Mining Prozess – Methoden und Methoden und
TechnikenTechniken– AnwendungsgebieteAnwendungsgebiete– Data Warehouse | OLAP Data Warehouse | OLAP
| | Data Cubes Data Cubes
Web MiningWeb Mining– DefinitionDefinition– AllgemeinesAllgemeines– KonzepteKonzepte– Analyse von Web Analyse von Web
DatenDaten– Web Mining Web Mining
VerfahrenVerfahren– ToolsTools– AnwendungsgebieteAnwendungsgebiete– ProblemeProbleme
Überblick Data und Web Mining H. Oroszlan, S. Pipal
Data Mining - Data Mining - Definitionen 1Definitionen 1 DatenDaten
formalisierte Darstellung von Sachverhalten, Begriffen oder formalisierte Darstellung von Sachverhalten, Begriffen oder BefehlenBefehlen unstrukturiertes Gebilde aus Zeichen unstrukturiertes Gebilde aus Zeichen maschinell verarbeitet maschinell verarbeitet enthalten Informationen enthalten Informationen
Datenbanken und DatenbanksystemeDatenbanken und Datenbanksysteme systematisch strukturierte, langfristig verfügbare systematisch strukturierte, langfristig verfügbare Sammlung Sammlung von Datenvon Daten DBMS als Schnittstelle für Kommunikation mit DB DBMS als Schnittstelle für Kommunikation mit DB
NetzwerkeNetzwerke Gruppe von PCs, die miteinander verbunden sind Gruppe von PCs, die miteinander verbunden sind gemeinsame Nutzung von Daten gemeinsame Nutzung von Daten LAN | WAN LAN | WAN
Data Mining | Definitionen Data und Web Mining H. Oroszlan, S. Pipal
Data Mining - Data Mining - Definitionen 2Definitionen 2 Data MiningData Mining
Entdecken und Extrahieren von Informationen Entdecken und Extrahieren von Informationen Finden von Mustern Finden von Mustern Wissensgewinnung Wissensgewinnung
Knowledge Discovery in Databases (KDD)Knowledge Discovery in Databases (KDD) oft Synonym für Data Mining oft Synonym für Data Mining gesamte Findungsprozess gesamte Findungsprozess beschreibt automatisierte Verfahren beschreibt automatisierte Verfahren nützt Data Mining Methoden nützt Data Mining Methoden
Text Mining Text Mining Mustererkennung in unformatierten Daten Mustererkennung in unformatierten Daten Web Mining Web Mining Mustererkennung im WWW Mustererkennung im WWW
Data Mining | Definitionen Data und Web Mining H. Oroszlan, S. Pipal
Wozu dient Data Mining?Wozu dient Data Mining?
Data Mining | Allgemeines Data und Web Mining H. Oroszlan, S. Pipal
Ziel: aus einer klar definierten Datenmenge Wissen zu extrahieren
Data MiningData Mining
VorteileVorteile
– WettbewerbsvorteileWettbewerbsvorteile
– Entdeckung + GewinnungEntdeckung + Gewinnung von Informationen von Informationen
– aus Daten relevante aus Daten relevante Informationen Informationen
– Stütze für Stütze für Kundenbetreuungssystem Kundenbetreuungssystem
NachteileNachteile
– DatenschutzDatenschutz
– keine Gewissheit über keine Gewissheit über Richtigkeit Richtigkeit
– hohe Kostenhohe Kosten
– hohe hohe WissensanforderungWissensanforderung
Data Mining | Allgemeines Data und Web Mining H. Oroszlan, S. Pipal
Data Mining ProzessData Mining Prozess
Voraussetzungen – Ansprüche an die DatenVoraussetzungen – Ansprüche an die Daten– Unvollständigkeit und Spärlichkeit der DatenUnvollständigkeit und Spärlichkeit der Daten– Dynamik der Daten Dynamik der Daten – Datenschmutz Datenschmutz – Redundanz Redundanz – Irrelevante FelderIrrelevante Felder– Datenvolumen Datenvolumen
ProzessphasenProzessphasen– PlanungsphasePlanungsphase– VorbereitungsphaseVorbereitungsphase– MiningphaseMiningphase– AuswertungsphaseAuswertungsphase
Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal
PlanungsphasePlanungsphase
Beantwortung der Frage: Beantwortung der Frage:
WAS WOLLEN WIR ERREICHEN?WAS WOLLEN WIR ERREICHEN?
Definition von ErwartungswertenDefinition von Erwartungswerten Berechnung des erwarteten Aufwands (Kosten + Zeit) Berechnung des erwarteten Aufwands (Kosten + Zeit) Beschaffung von FachleutenBeschaffung von Fachleuten
Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal
VorbereitungsphaseVorbereitungsphase
DatenbeschaffungDatenbeschaffung– Identifikation der DatenquellenIdentifikation der Datenquellen– Datenextraktion aus verschiedenen DatenquellenDatenextraktion aus verschiedenen Datenquellen– Datenintegration zu einem DatenbestandDatenintegration zu einem Datenbestand– Gesetzliche Vorschriften berücksichtigenGesetzliche Vorschriften berücksichtigen
DatenaufbereitungDatenaufbereitung
– Identifikation falscher WerteIdentifikation falscher Werte– Identifikation fehlender WerteIdentifikation fehlender Werte– Identifikation korrelierter MerkmaleIdentifikation korrelierter Merkmale– Algorithmus der Datenerhebung wird festgelegtAlgorithmus der Datenerhebung wird festgelegt– Daten an die Anforderungen des Algorithmus anpassen Daten an die Anforderungen des Algorithmus anpassen
Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal
MiningphaseMiningphase
Suche nach Mustern innerhalb großer DatenbeständeSuche nach Mustern innerhalb großer Datenbestände Generierung von problemspezifischen ModellenGenerierung von problemspezifischen Modellen Auswertung der ErgebnisseAuswertung der Ergebnisse Rückkopplung ?Rückkopplung ? Visualisierung der TeilergebnisseVisualisierung der Teilergebnisse
Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal
AuswertungsphaseAuswertungsphase
Auswertung der ErgebnisseAuswertung der Ergebnisse Interpretation der AnwenderInterpretation der Anwender Visualisierung der ErgebnisseVisualisierung der Ergebnisse Wissensgewinnung Wissensgewinnung
Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal
Der Prozess im ÜberblickDer Prozess im Überblick
Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal
Techniken und Methoden Techniken und Methoden 11 KlassifikationKlassifikation = Gruppenbildung ähnlicher Objekte = Gruppenbildung ähnlicher Objekte
– EntscheidungsbaumEntscheidungsbaum - neuronale Netze- neuronale Netze
– fallbasiertes Schließenfallbasiertes Schließen
Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal
Techniken und Methoden Techniken und Methoden 22 SegmentierungSegmentierung = Zerlegung in Teile = Zerlegung in Teile
– Clusteranalyse Clusteranalyse
PrognosePrognoseBasis: Werte aus früheren PeriodenBasis: Werte aus früheren PeriodenZiel: Prognose für Zukunft + Gewinn unbekannter AusprägungenZiel: Prognose für Zukunft + Gewinn unbekannter Ausprägungen
AbhängigkeitsanalyseAbhängigkeitsanalyse– WarenkorbanalyseWarenkorbanalyse
AbweichungsanalyseAbweichungsanalyse – Objekte mit untypischen Merkmalsausprägungen feststellenObjekte mit untypischen Merkmalsausprägungen feststellen
= Identifikation von Ausreißern = Identifikation von Ausreißern
Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal
AnwendungsgebieteAnwendungsgebiete
Business Intelligence Business Intelligence Customer Relationship Management (CRM)Customer Relationship Management (CRM) EinzelhandelEinzelhandel Chemie- und Pharmakologie IndustrieChemie- und Pharmakologie Industrie FernerkundungsdatenFernerkundungsdaten BankenBanken VersicherungenVersicherungen TelefonfirmenTelefonfirmen FluglinienFluglinien
Data Mining | Anwendung Data und Web Mining H. Oroszlan, S. Pipal
Data WarehouseData Warehouse
Data Mining | artverwandte Begriffe
Data und Web Mining H. Oroszlan, S. Pipal
Datenbanksystem, das Daten aus verschiedenen Quellen verwaltet
Data Warehouse 2Data Warehouse 2
Data Mining | artverwandte Begriffe
Data und Web Mining H. Oroszlan, S. Pipal
RDB: Relationale Datenbank | VLRDB: Very Large RDB | OORDB: Objektrelationale DB | OODB: Objektorientierte DB | MDDB: Mehrdimensionale DB
OLAP OLAP (1/4)(1/4)(Online Analytical Processing)(Online Analytical Processing)
Methoden und ToolsMethoden und Tools Analyse von KennzahlenAnalyse von Kennzahlen Codd RegelnCodd Regeln FASMIFASMI
Data Mining | artverwandte Begriffe
Data und Web Mining H. Oroszlan, S. Pipal
OLAP – FASMI OLAP – FASMI (2/4)(2/4)
FastFast AnalysisAnalysis SharedShared MultidimensionalMultidimensional InformationInformation
Data Mining | artverwandte Begriffe
Data und Web Mining H. Oroszlan, S. Pipal
OLAP – OLAP – Architekturkonzepte Architekturkonzepte (3/4)(3/4)
ROLAP (relational)ROLAP (relational) MOLAP (multidimensional)MOLAP (multidimensional) HOLAP (hybride)HOLAP (hybride) DOLAP (desktop)DOLAP (desktop)
Data Mining | artverwandte Begriffe
Data und Web Mining H. Oroszlan, S. Pipal
OLAP – Data Cube OLAP – Data Cube (4/4)(4/4)
DimensionenDimensionen AusprägungeAusprägunge
nn ZellenZellen HierarchienHierarchien
Wien
Stmk
Bgld
Dimension 1
Wein
Bier
Dimension 2
Jan. Feb. Mär.
Dimension 3
Data Mining | artverwandte Begriffe
Data und Web Mining H. Oroszlan, S. Pipal
Web MiningWeb Mining
Beschaffung und Auswertung von Beschaffung und Auswertung von Web DatenWeb Daten
2 Ansätze2 Ansätze– Web Content MiningWeb Content Mining– Web Usage MiningWeb Usage Mining
Web Mining | Überblick Data und Web Mining H. Oroszlan, S. Pipal
Was sind Web Daten?Was sind Web Daten?
Anzahl der ClicksAnzahl der Clicks Zeit auf der Web SeiteZeit auf der Web Seite Wörter in SuchmaschinenWörter in Suchmaschinen
Web Mining | Allgemeines Data und Web Mining H. Oroszlan, S. Pipal
Web Mining KonzepteWeb Mining Konzepte
LogfilesLogfiles CookiesCookies RegistrierungRegistrierung
Unterschiedliche KonzepteUnterschiedliche Konzepte
Web Mining | Allgemeines Data und Web Mining H. Oroszlan, S. Pipal
Analysen von Web Analysen von Web DatenDaten
Datenauswahl
Datenaufbereitung
Datenbereinigung Identifikation v. Nutzen u. Sitzungen
Datenintegration
Mustererkennung
Interpretation
Web Mining | Allgemeines Data und Web Mining H. Oroszlan, S. Pipal
Web Mining ProzessWeb Mining Prozess
Web Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal
Web Mining VerfahrenWeb Mining Verfahren
Path AnalysePath Analyse Assoziationsanalyse Assoziationsanalyse ClusteranalyseClusteranalyse Klassifikationsanalyse Klassifikationsanalyse SequenzanalyseSequenzanalyse
Web Mining | Verfahren Data und Web Mining H. Oroszlan, S. Pipal
Web Mining ToolsWeb Mining Tools
Pattern Discovery ToolsPattern Discovery Tools– Erkennen verschiedener PatternsErkennen verschiedener Patterns
WEBMINERWEBMINER
Pattern Analysis ToolsPattern Analysis Tools– Analyse der gefundenen PatternsAnalyse der gefundenen Patterns
WebVizWebViz Data CubeData Cube
Web Mining | Tools Data und Web Mining H. Oroszlan, S. Pipal
AnwendungsgebieteAnwendungsgebiete
KundenprofileKundenprofile Platzierung der WerbungenPlatzierung der Werbungen Strukturierung einer Web SeiteStrukturierung einer Web Seite Kundenspezifische WerbungKundenspezifische Werbung Kontakt via E-mailKontakt via E-mail Personalisiert Web SeitePersonalisiert Web Seite
Web Mining | Anwendung Data und Web Mining H. Oroszlan, S. Pipal
ProblemeProbleme
Schnelle Änderung von Web Schnelle Änderung von Web DatenDaten
Logfiles alleine nicht ausreichendLogfiles alleine nicht ausreichend Registrierung nicht korrektRegistrierung nicht korrekt Muss interne Daten integrierenMuss interne Daten integrieren Gewisse Auskünfte nicht möglichGewisse Auskünfte nicht möglich
Web Mining | Probleme Data und Web Mining H. Oroszlan, S. Pipal
Danke für Ihre Danke für Ihre Aufmerksamkeit!Aufmerksamkeit!