anwendungen maschinellen lernens: projekte & abschlussarbeiten · markus gulmann....
TRANSCRIPT
Projekte (Auswahl)
iMonitor: intelligentes IT-Monitoring durch KI-Ereignisverarbeitung
http://www.imonitor-project.de/startseite/welcome.html
The specific and ultimate goal of the REMPARK project is to develop a Personal Health System for management of Parkinson's Disease
http://www.rempark.eu/
The main project objective behind FLOURplus is to exploit the full baking potential of flour in the baking process. The bakery production process can be fully adapted to the varying natural flour properties in real time and in a simple way.
http://www.flourplus.eu
Abschlussarbeiten (Auswahl)
● Zhihao Tang. Monte-Carlo Search for Multiple Sequence Alignment. (Supervisor, Reviewer: Stefan Kurtz), 2015
● Paul Wichern. Solution of Packing Problems in Additive Manufacturing. (Supervisor, Reviewer: Gabriel Zachmann), 2014.
● Simon Frerichs. Choice, Evaluation and Implementation of an Suitable Algorithm on Netflow Data for Defending Distributed-Denial-of-Service-Attacks. (Reviewer, Supervisor Carsten Bormann), 2014.
● Christoph Greulich. Agent-based Intermodal Navigation in Dynamic Environments. (Supervisor, Reviewer: Klaus-Dieter Thoben), 2013.
● Dominik Elsbroek. Monitoring Network Traffic With IPFIX to Detect Well-Known IPv6 Attacks. (Reviewer, Supervision: Carsten Bormann), 2012.
● Marten Wirsik. Statistical Pattern Matching and Machine Learning for Analyzing Computer Networks (Reviewer, Supervision: Carsten Bormann), 2012.
● Tim Federholzner. Randomization and Partial Observability in General Game Playing (Supervisor, Reviewer: Karsten Höscher), 2011.
● David Zastrau. Accelerated Machine Learning Algorithms on the GPU (Supervisor, Reviewer: Lutz Frommberger), 2011.
● Ali Shabani. Improved Inference of Street Maps on Basis of Open-Street-Map Raw Data (Supervisor, Reviewer: Gerrit Kalkbrenner), 2010.
● Cengizhan Yücel. Solving One- and Two-Player Games on the Graphics Card with Perfect Hash Functions (Supervisor, Reviewer: Jan Vahrenhold), 2010.
● Mark Kellershoff. Abstraction & Planning for Program Model Checking (addtitional Reviewer: Bernhard Steffen), 2008.
● Damian Sulewski. Parallel Software Model Checking in StEAM (Supervisor, Reviewer: Bernhard Steffen), 2007.
● Björn Borowsky. Optimal Metric Planning with Presburger Automata (Supervisor, Reviewer: Thomas Schwentick), 2007.
● Kenneth Kahl. Machine Learning Algorithms for the Strategic Game Hex (Supervisor, Reviewer: Lars Hildebrand), 2007.
● Björn Scholz. Automatic Inference of Road Maps based on GPS Traces (Supervisor, Reviewer: Petra Mutzel), 2006.
Abschlussarbeiten (tbc) Kai Hillman. Darstellung und Analyse eines Konzeptes zur digitalen Beweissicherung (BA)
Philipp Nguyen. NFC-Sicherheitanalyse mit Smartphones -- Sicherheitsanalyse von Android-Applikationen mit NFC-Funktionalität (BA)
Axel Auffarth. Modeling of Security Aspects in Software Architectures (MA)
Timo Reimerdes. Sicherheit und Privatsphähre in Sozialen Netzwerken (DA)
Markus Gulmann. Sicherheitsanalyse ausgewählter Systemservices des mobilen Betriebssystems Android, (BA)
Aleksej Michalik: Einsatz neuronaler Netze zur Erkennung von Schadsoftware (BA)
Bastian Breit. Sicherheitsaspekte von Android und mobilen Verkaufsportale (DA)
Dimitri Hellmann. Angriffsszenarien ausgehend von Android-Anwendungen (DA)
Bernd Samieske. Entwicklung eines erweiterbaren onologiebasierten Asset-Management (DA)
Stefan Klement: Security Aspects of the Google Android Platform (DA)
Malte Humann: Auswirkungen von Sensoreigenschaften auf die Angriffserkennung mittels Sensorfusion (DA)
Abschlussarbeit: Gestenerkennung (Daniel Kohlsdorf)
● TZI-Absolvent erhält Contact Förderpreis für Abschlussarbeit
● Er entwickelte ein Verfahren, das die Erkennung von Gesten in der Mensch-Computer-Interaktion, wie beispielsweise bei einer Wii, verbessert, und dieses auch international publiziert. Der Preis ist mit 4.000 Euro dotiert.
● Für seine Promotion ist Kohlsdorf an die renommierte Georgia Tech. zum Wearable Computing Pionier Thad Starner gegangen
● Der hoffnungsvolle Nachwuchswissenschaftler aus der Arbeitsgruppe Künstliche Intelligenz kam bereits während des Studium auf wissenschaftliche Veröffentlichungen.
IiSAX: Indexing and Mining Terabyte Sized Time Series, by Shieh & Keogh
http://www.cs.ucr.edu/~eamonn/iSAX/iSAX.html
● AGCT−TG
● A−CTCG−
MSA
Optimal MSA: Let A be the set of all MSAs that can be generated by a set of sequences S = {s1,…, sn}. The optimal MSA O for S wrt. evaluation F is an alignm. with F(O) = opt { F(X) | X in A }
MSA Problem: Given a set of sequences S = {s1, ..., sn] compute an optimal MSA O of S
(Pair) Alignment
Evaluation Functions
Pairwise Sum
F(A) = F(a1,...,an) =
∑0<i<n∑i<j<n+1 F(ai,aj).
General Scores
Affine Gap Costs
Opening + |Gap|*Extension
MSA Search Tree
● Hirschberg's Algor.● Dynamic
Programming● IDDP
● Frontier Search● External Search● Partial Expansion
MCTS 4 1P
Nested Monte Carlo Search (Cazenave)
Algorithm (~UCT) defined in terms of Moves and Rollouts and L
Nested Rollout Policy Adaptation (Rosin)
Algorithm defined in terms of Adapt and Rollout, N and L
Beam NRPA(level,policy)
if level = 0 then seq := Rollout(policy) return (eval(seq),seq,policy)Beam := (inf,{},policy)for N iterations do newBeam := {} for all (v,s,p) in Beam do insert (v,s,p) in newBeam tempBeam := BeamNRPA(level-1,p) for all (v',s',p') in tempBeam do p' := Adapt(p,s') insert (v',s',p') in newBeam Beam := B best beams in newBeamreturn Beam
B B
N
(v,s,p)
Aktuelle Masterarbeit
● Fritz Jacob: Ereignis-basierte Analyse von Mediendateien mit Methoden des maschinellen Lernens
Aktuellste Arbeit (Motivation KIVA, GCom)
● Denis Golubev: Effiziente Bewegungsplanung für ein und mehrere Agenten
● https://www.youtube.com/channel/UCHhXrhMGNOrXDR2MG_ehwWA
Aktuelle Dissertation
● Claas Ahlrich: Development and Evaluation of AI-based Parkinson’s Disease Related Motor Symptom Detection Algorithms
[Extra Folien]
Grundlage iMonitor(Dissertation Carsten Elfers)
Die Angriffserkennung in Datenströmen und liegt im Schnittfeld von Forschungen in den Disziplinen Rechnernetze und Künstliche Intelligenz. Dabei werden Ereignismeldungen von mehreren Programmen zur Datenstromanalyse, den sogenannten Sensoren, intelligent korreliert, Hypothesen gebildet und Gefahrenspotentiale aufgezeigt.
Alleinstellungsmerkmal iMonitor
Das Alleinstellungsmerkmal ist die tolerante Mustererkennung bei der Analyse der Ereignisse. Dabei wird taxonomisches Hintergrundwissen z.B. über die Struktur von Angriffstypen zur Definition von Ähnlichkeitsbeziehungen herangezogen, um aus exemplarisch als Angriff vorab erkannten und nach Signifikanz und Gefährlichkeit eingestuften Ereignissen, verwandte Ergeignisse abzuleiten und Hypothesen über zum Teil mehrstufige Angriffe abzuleiten.
Hintergrundwissen
Das Hintergrundwissen ist als Ontologie abgelegt und wird über eine Schnittstellensprache SPARQL (in Anlehnung an die Datenbankabfragesprache SQL) vom Lernverfahren in seinem Schlussfolgerungsmechanismus mehrfach angefragt. CRFs fallen in die Klasse graphischer (probabilisitschen) Modelle mit gerichteten Abhängigkeitsgraphen,
Die Einbeziehung von Hintergrundwissen ist zentral, da die Information über Angriffe punktuell ist und über ein in der Taxonomie verankertes Ähnlichkeitsmaß auf verwandte Angriffe bei der Hypothesenbildung ausgeweitet werden kann.
MLAls maschinelles Lernverfahren wurden vorab Conditional Random Fields (CRFs), eine Teilklasse graphischer (probabilistischer) Modelle, eingesetzt und mit der obige Expressivität angereichert. Man kann sich die exponentiellen Modelle als temporal erweiterete Hidden Markov Modelle vorstellen, die einen Schluss über zeitlich weiter entfernte Evidenzen ermöglichen.
In iMonitor wurde aus Effizienzgründen auf probabilistischen Schluss verzichtet und ein schlankere Analyse für den toleranten Regelschluss implementiert (→ Carsten Elfers, Neusta)
FIDES - Projektziele• Erweiterung von SIEM um intelligente Korrelationsverfahren
– Qualität der Algorithmen – Anreicherung des strukturierten Wissens
• Überwachung und Zusammenführung verschiedener Datenquellen (wie z.B. Snort/IDS, Firewall-Logs, Honeypots, …)
• Frühwarnung – Erkennung von Angriffen nach ersten Angriffsschritten
• Assistenz
• Reduktion von Fehlalarmen
Korrelationsar-chitektur
● Mehrere Datenquellen • Redundanzen berücksichtigen
• Semantische Normalisierung● Assistenz
• Angriffs-Modellierung anhand von normalisierten Eventströmen
● Intelligente Korrelation• Variationen von Angriffen über
semantische Verwandtschaft detektieren
● Reduktion der Ereignisse auf die Wesentlichen • Bewertung durch annotierte und
daraus abstrahierten Regeln
Beispiel eines Musters
IF(Classification sameAs AttemptedKnowledgeGainClassification)
AND(Source-IP part-of InternalAddressRange)
ANDNOT
(Source-IP is-a AdministratorPC)
MusterabstraktionSignatur/Muster:IF Classification = AttemptedAdminClassification …
Einkommendes EreignisClassification = AttemptedUserClassification …
Abstraktion-> Signatur trifft Muster besser
Hypothesen-Pool
• Analysiere Permutationen der Ereignis
• „Survival of the fittest“ Hypothesen
• Fitness = W‘keit von normalen Verhalten gegenüber gefährlichem
Interpretation• Conditional Random
Field bestimmt W‘keit eines Angriffs
• Nutze Beispiele, um die Zuverlässigkeit der Sensoren Muster zu trainieren.
fides und herkömmliche SIEM-Systeme
● Ontologische Schlüsse• Breites Spektrum des
modellierbaren Wissens● Abstraktion der Regeln
• Für jedes Event gibt es immer eine Bewertung
● Probabilistische Inferenz• Liste der wahrscheinlichsten
Hypothesen
• Verwendung der Inferenz-ergebnisse auch in den Regeln
• Lernfähigkeit ermöglicht eine einfache Adaption an die Domäne
● Keine Ontologie• Wissen ist statisch und
Anwendungsabhängig● Statische Regelmenge
• Regeln werden nicht abstrahiert sondern nur auf exakte Erfüllung geprüft
● Statische Inferenz• Keine wahrscheinlichen
Angriffe, sondern nur „Regel-matches“
• Adaption nur durch erheblichen Modellierungsaufwand möglich
Anomalieerkennung(Malte Humann)
Viele Systeme, die heutzutage eingesetzt werden, arbeiten mit Signaturanalyse, da die Anomalieerkennung mit Schwellwertanalyse von praktischer Einsetzbarkeit noch weit entfernt war. Manchmal gab es eine Mischform bei der Methoden, die schwellwertgesteuerte Signaturanalyse, eingesetzt.
Ziele der Zeitreihenanalyse● kompakte Beschreibung einer historischen Zeitreihe● Vorhersage von künftigen Zeitreihenwerten
(Prognose) auf der Basis der Kenntnis ihrer bisherigen Werte
● Erkennung von Veränderungen in Zeitreihen (Monitoring in der Medizin bei chirurgischen Eingriffen, Veränderung der globalen Vegetationsphänologie durch anthropogene Klimaänderungen)
● Eliminierung von seriellen oder saisonalen Abhängigkeiten oder Trends in Zeitreihen (Saisonbereinigung), um einfache Parameter wie Mittelwerte verlässlich zu schätzen
Add-On: String-Matching Algorithmen
/home/edelkamp/iMonitor-files/strings/aho-corasick
/home/edelkamp/iMonitor-files/strings/bdds/home/edelkamp/iMonitor-files/strings/huffman
/home/edelkamp/iMonitor-files/strings/msa/home/edelkamp/iMonitor-files/strings/mst
Zeichenkettenanalyse für Zeitreihen
● Editierdistanz● Mehrfachsequenz-Alignierung● Approximative Zeichenkettensuche● Bellmann-Ford Algorithmus● Wertiteration● Das Optimalitätsprinzip nach Bellmann
Wissenschaftliche Verwertung
● Carsten Elfers DissertationEvent Correlation Using Conditional Exponential Models with Tolerant Pattern Matching Applied to Incident Detection
● Papiere● KaiOliver Detken, Carsten Elfers, Marcel Jahnke, and Malte Humann, Stefan Edelkamp. Intelligentes Monitoring der IT Sicherheit durch den Einsatz von SIEM. Conference on Security (DACH), Sankt Augustin, 2015.
● KaiOliver Detken, Stefan Edelkamp, Carsten Elfers, Malte Humann, Thomas Rix. Intelligent monitoring with background knowledge. IEEE International Conference on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications (IDAACS). Warsaw, 2015.
Draft
● Parameter-Free Time Series Analysis with Application to Anomaly Detection in Computer Networks
Malte Human, Stefan Edelkamp
TZI, Bremen, Germany
Nachbereitung
● Auswertung der Analyse auf Benchmark und TZI-Daten● Java-Implementierung● Anbindung der Zeitreihenanalyse an das iMonitor
Werkzeug● Auswertung erfolgreich ● Video beschreibt funktionierdes Tool● Anträge: ZIM 2, KMU innovativ● Vorlage: “Leitwarte”, Partner: HanseWasser
Big Data Analytics
● Riesiges Forschungsfeld● Forensik großer Datenmengen● Automatische Wissensakquisation● Ontologische Datenbanken● Semantic Full Text Search (a la Brokkoli)● Datenstrukturen: Sax/iSax
● Rel. Work Planning 4 Penetration Testing
Fazit
● Intensive Zusammenarbeit mit den Firmen großer Gewinn. ● ZIM für universitäre Prozesse aufwändig (Stundenzettel, keine
Reisemittel)● Hoffen auf Zusammenarbeit mit HanseWasser
und Stadtwerke Essen● Resultat: Funktionierendes Tool, siehe Video● Lightweight-”FIDES”; breitere Sensoranbindung und schlankerer
Oberfläche.● Wissenstransfer: Malte Humann ist Mitarbeiter bei DekoIT● Dank an die professionelle Projektleitung!
64
Development of process tools and database
FP7 Capacities, SME-2013-2 Research for SME Associationswww.flourplus.eu
T 4.2; Data Inclusion and Optimization (4M)
T 4.3; Algorithm and Interface Development
T 4.4; Assembling of FlourPlus System
T 4.1; Prototype web server und interface (8M)
Tasks in WP4
AI Inside
6/25/15 09:40:36 AM
• Can we predict the characteristics of the baked goods from the analytical data?
http://www.cs.waikato.ac.nz/ml/weka/
Java, GPL, over 20 years, continuously improved, not always fastest but robust
Alternative: RapidMiner, libSVM, etc.
Weka Toolkit
ServerMirror @ UHB
• Processor: Intel Xeon – 2 Processors with 8 Cores each running at
2.2GHz• 128 GB main memory
• MS SQL Server (Mirror Image of TTZ DB) • JAVA• Weka
installed at TZI in January 2015
DATA Pre-Processing
• About 150 values for each flour– 90 for the flour analytics– 60 for the rolls and breads
• Multivariate data analysis (Feature Selection)• PCA Principal Component Analysis
– → Reduce number of values– PLS Partial Least Squares Regression – → Create models
• Which analytical methods are the most meaningful?
6/25/15 09:40:36 AM