maschinelles lernen im zeitalter der cyber-ki · 2020-03-31 · maschinelles lernen ist schwer zu...

10
WHITEPAPER I Maschinelles Lernen im Zeitalter der Cyber-KI Auf maschinellem Lernen basierende Ansätze für Cybersicherheit und die Technologie von Darktrace WHITEPAPER

Upload: others

Post on 28-May-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Maschinelles Lernen im Zeitalter der Cyber-KI · 2020-03-31 · Maschinelles Lernen ist schwer zu entwickeln und bereitzustellen, da hierfür komplexe Algorithmen und ein übergeordnetes

WHITEPAPER

I

Maschinelles Lernen im Zeitalter der Cyber-KIAuf maschinellem Lernen basierende Ansätze für Cybersicherheit und die Technologie von Darktrace

WHITEPAPER

Page 2: Maschinelles Lernen im Zeitalter der Cyber-KI · 2020-03-31 · Maschinelles Lernen ist schwer zu entwickeln und bereitzustellen, da hierfür komplexe Algorithmen und ein übergeordnetes

WHITEPAPER

1

Überblick: Ein neues Zeitalter der Cyber-KI

In der Cybersicherheit hat ein neues Zeitalter begonnen. In den kom-plexen digitalen Umgebungen von heute kämpft Maschine gegen Maschine und heimtückische Angreifer und kriminelle Gruppierungen finden immer wieder neue Wege, wie sie anderen schaden können. Das Unternehmensnetzwerk ist zu einem Gefechtsfeld geworden, auf dem die Kontrolle über die digitalen Infrastrukturen und letztendlich auch die Existenz eines Unternehmens auf dem Spiel stehen.

Die große Gefahr heute sind nicht mehr nur die klassischen Szena-rien von Datendiebstahl oder Website-Hacking, sondern die verbor-genen Bedrohungen, die unter der Oberfläche lauern. Diese Angreifer verhalten sich still, schleichen heimlich herum und manipulieren auf hinterhältige Weise Daten oder installieren Kill Switches, die jederzeit aktiviert werden können. Solche Bedrohungen, denen speziell entwickelter Code zugrunde liegt und bei denen die Perimeter-Grenze nur einmal überschritten wird und nie Informationen nach draußen gesendet werden, sind kaum festzustellen.

Angesichts dieser neuen Realität versagen Legacy-Sicherheitssys-teme und viele verschwinden nach und nach. Das liegt daran, dass der traditionelle Ansatz für Cybersicherheit auf der Fähigkeit basiert, die Bedrohung schon im Vorfeld zu definieren. Dieser starre Ansatz, der nur bekannte Bedrohungen erkennt, ist nicht mehr zeitgemäß. Die Bedrohungslandschaft entwickelt sich völlig unvorhersehbar, denken wir nur an neuartige, sich blitzschnell ausbreitende Angriffe, Insiderbedrohungen oder gehackte IoT-Geräte, mit denen ganze Lieferketten kompromittiert werden – ein neuer Ansatz für die Cyber-abwehr ist dringend nötig.

„Die KI-Technologie von Darktrace hat alles zum Positiven verändert – wir sind jetzt in der Lage, uns in der sich ständig wandelnden Bedrohungslandschaft zu behaupten.“Raspberry Pi

„Wir leben nicht mehr in einer Zeit, in der sich Cyberangriffe auf Arbeitsplatzrechner oder Server beschränken. Darktrace zieht mit seinem maschinellen Lernen in den Kampf, noch bevor er beginnt.“City of Las Vegas

Nach diesem neuen Paradigma ist die KI-Technologie in der Lage, bislang unbekannte Cyberbedrohungen zu erkennen und unschädlich zu machen. Maschinelles Lernen hat das Potenzial, die Cyberabwehr grundlegend zu verändern. Die große Herausforderung besteht jedoch darin, die Technologie in großem Stil in die Vielfalt dynamischer Datenumgebungen zu integrieren, damit sie echte Bedrohungen in Echtzeit ohne menschliches Eingreifen erkennt.

Mit der ersten KI für Cyberabwehr, die sich in unterschiedlichsten digitalen Infrastrukturen von Unternehmen bewährt hat, ist Darktrace weltweit führend in der Erkennung und eigenständigen Response auf Cyberbedrohungen – was Legacy-Systeme nicht leisten können. Die „Immunsystem“-Technologie von Darktrace basiert auf maschinellem Lernen und KI-Algorithmen und kommt in tausenden Unternehmen weltweit zum Einsatz.

In diesem Whitepaper wird der Ansatz von Darktrace im Bereich des maschinellen Lernens erläutert und das einzigartige Zusammenspiel von nicht überwachtem maschinellem Lernen, überwachtem ma-schinellem Lernen und Deep Learning in der weltweit führenden KI- basierten Cybertechnologie beleuchtet.

Page 3: Maschinelles Lernen im Zeitalter der Cyber-KI · 2020-03-31 · Maschinelles Lernen ist schwer zu entwickeln und bereitzustellen, da hierfür komplexe Algorithmen und ein übergeordnetes

2

Der Legacy-Ansatz

Die heutigen Cyberbedrohungen sind raffinierter denn je. Einige sind automatisiert und schnell, andere langsam und getarnt. Hinzu kommt, dass die Netzwerke immer komplexer werden.

Angesichts der zunehmenden Zahl an Verbindungen, sowohl intern als auch extern, ist es schwierig geworden, die gesamte Netzwerk-aktivität zu überwachen und Parameter und Signaturen festzulegen, die mehr bieten als nur Basisschutz. Die Netzwerkperimeter sind redundant geworden und die Cyberbedrohungen entwickeln sich völlig unvorhersehbar.

Nach dem traditionellen Paradigma werden Firewalls, Endpoint- Schutzlösungen und andere Tools wie SIEMs und Sandboxes eingesetzt, um spezielle Richtlinien durchzusetzen, und sie bieten Schutz vor bekannten Bedrohungen.

Diese Tools haben durchaus ihre Berechtigung in der Gesamtab-wehrstrategie eines Unternehmens, aber im Zeitalter der sich rasant entwickelnden Cyberbedrohungen reichen sie nicht aus. Einige sind verschwunden, weil die Netzwerke unüberschaubar groß geworden sind und hochentwickelte Bedrohungen die Sicherheitstools ohne Probleme umgehen.

Grenzen des Legacy-Ansatzes

� Tools für den Perimeterschutz basieren auf Signaturen, Regeln und Heuristik – wenn ihnen einen Angriff an der Eintrittspforte entwischt, haben sie keine Chance mehr, Gegenmaßnahmen zu ergreifen.

� Endpoint-Sicherheit beruht auf Signaturen und der Erkennung von Angriffen, die bereits identifiziert wurden – unbekannte Bedrohungen hingegen werden durchgelassen.

� Sandboxes werden von modernen Angriffsformen ausgetrickst, die genau wissen, dass sie sich in einem isolierten Raum befinden, und sich erst einmal ruhig verhalten.

� Mit Protokolliertools und SIEM-Datenbanken ist ein unverhältnis-mäßig hoher manueller Aufwand verbunden, wenn gewährleistet sein soll, dass im gesamten Unternehmen konsequent Daten gesammelt und mit den Bedrohungsprognosen des Sicherheitsteams abgeglichen werden. Nicht nur, dass diese Vorgehensweise sehr ressourcenintensiv ist, auch wird vom Sicherheitsteam enorm viel abverlangt, weil es einerseits viel Fantasie haben muss, welche Bedrohungen dem Unternehmen gefährlich werden könnten, andererseits die Analysten nicht mit Warnmeldungen überhäuft werden dürfen.

� Die sogenannte „Verhaltensanalytik“ erkennt keine neuen, sich entwickelnden Bedrohungen – weil sie dem regelbasierten Paradigma folgt und darauf angewiesen ist, dass bereits Informationen darüber vorhanden sind, wie sich Mitarbeiter in ihrer jeweiligen Funktion oder Geräte verhalten „sollten“, und auf dieser Grundlage nach Abweichungen schaut. Dieser Ansatz wird der Komplexität moderner Unternehmen aber nicht mehr gerecht.

Letztendlich wurden Legacy-Systeme von den heutigen komplexen Geschäftsumgebungen und dem Erfindergeist der Angreifer ausge-bremst. Zurückzuführen ist dies auf grundlegende Schwächen:

� Sie müssen alle Angriffe der Vergangenheit kennen.

� Sie müssen das Unternehmen und die geschäftsspezifischen Regeln genau kennen.

� Es muss eine Struktur für die Verbreitung hochwertiger Informationen über neue Angriffe geben.

� Sie müssen erraten, wie künftige Angriffe und Software- Schwächen aussehen könnten.

� Sie müssen in der Lage sein, alle genannten Erkenntnisse in wirksame Regeln oder Signaturen zu fassen.

Und: Es muss erst etwas passieren, damit Legacy-Tools eine passen-de Lösung bereitstellen können. Im Zeitalter der unvorhersehbaren, sich rasant entwickelnden Angriffe ist dieser Ansatz nicht mehr zeitgemäß und völlig unzureichend.

„Verhaltensanalytik“Die Verhaltensanalytik ist eine Methode, die auf Korrelationen basiert. Wenn zum Beispiel ein externer Portscan durchge-führt wird und im Anschluss daran eine Reihe fehlgeschlage-ner Anmeldeversuche auf einem externen System stattfinden, kann diese Aktivität von einer sogenannten „Correlation Engine“ als verdächtig eingestuft werden.

Das kritische Problem besteht darin, dass es in großen Syste-men immer gewisse Korrelationen gibt. Zudem bedeutet eine Korrelation nicht, dass ein Kausalzusammenhang besteht. Wenn das installierte System dies nicht versteht, sind un-weigerlich falsche Korrelationen das Ergebnis.

„Traditionelle Tools, die nur bekannte Bedrohungen erkennen, reichen nicht mehr aus.“Heritage Education Fund

Page 4: Maschinelles Lernen im Zeitalter der Cyber-KI · 2020-03-31 · Maschinelles Lernen ist schwer zu entwickeln und bereitzustellen, da hierfür komplexe Algorithmen und ein übergeordnetes

WHITEPAPER

3

Aktueller Stand auf dem Gebiet des maschinellen Lernens

Überwachtes maschinelles LernenAufgrund der Flut an Daten in unserer modernen Welt ist es nicht nur unproduktiv, sondern für den Mensch auch unmöglich, die in einem typischen Unternehmensnetzwerk jede Minute produzierten riesigen Datenmengen zu durchforsten.

Maschinelles Lernen ist schwer zu entwickeln und bereitzustellen, da hierfür komplexe Algorithmen und ein übergeordnetes Framework für die Interpretation der produzierten Ergebnisse nötig sind. Richtig angewendet können diese Ansätze Maschinen helfen, logische, wahrscheinlichkeitsbasierte Entscheidungen zu treffen. Dadurch werden die personellen Ressourcen geschont und es sind Einblicke möglich, die bisher undenkbar waren.

Die am häufigsten anzutreffende Form des maschinellen Lernens ist das überwachte maschinelle Lernen, das in einer Reihe gewerblicher und industrieller Bereiche für Klassifizierungszwecke eingesetzt wird. Zum Beispiel:

� Zahlungsverarbeiter können mithilfe moderner Methoden für maschinelles Lernen Modelle entwickeln, mit denen sich betrügerische Zahlungen in Echtzeit feststellen lassen.

� Online-Videodienste nutzen Algorithmen, um mehr über die Präferenzen der Kunden zu erfahren und ihre Abonnenten mit personalisierten Empfehlungen besser ansprechen zu können.

� Werbefirmen können mithilfe von Analysen des Suchverlaufs gezielt Werbung platzieren. Dies ist erfolgversprechender als es mit einem menschlichen Marketingexperten möglich wäre.

� Computer in Autos produzieren riesige Mengen an Daten, die so aufbereitet werden können, dass Aussagen darüber, wie Kunden das Fahrzeug tatsächlich nutzen, ebenso wie Prognosen über einen möglichen Ausfall von Bauteilen möglich sind.

� Im Gesundheitswesen lässt sich durch die Erhebung von Daten das Wohlbefinden engmaschig überwachen, sodass Probleme frühzeitig erkannt werden und somit das Risiko schwerwiegender Situationen reduziert werden kann.

Überwachtes Lernen basiert auf zuvor klassifizierten Daten, anhand derer die Maschine lernt, wie das Klassifizierungssystem funktioniert. In Szenarien, in denen Verhaltensweisen bekannt sind und Klassifizie-rungen problemlos möglich sind, kann das Ergebnis dieser Systeme sehr genau sein. Hochmoderne Klassifizierungssysteme zum Beispiel sind in einigen Fällen effizienter als der Mensch. Was das überwachte maschinelle Lernen so mächtig macht, ist seine Fähigkeit, auf Grundlage eines statistischen Ansatzes den Umgang mit Fehlern und Störeffekten aus der echten Welt zu lernen.

Somit sind Systeme, die auf überwachtem maschinellem Lernen basieren, bestens ausgerüstet, um anhand vorliegender Erkenntnisse eine explizite Antwort zu geben. Wir können beispielsweise ein System mit einer Vielzahl von Beispielen bekannter Ransomware füttern, damit es die gemeinsamen Indikatoren dieser Malware lernt und in Zukunft ähnliche Angriffe erkennt.

Genauso kann überwachtes maschinelles Lernen extrem effizient sein, wenn man in einer Abfolge von Bildern „Katzen“ von „Hunden“ unterscheiden möchte – weil es in unserer Gesellschaft eine Fülle von Bildern bekannter Katzen und Hunde gibt, mit denen das System angelernt werden kann. Hinzu kommt, dass selten neue Arten von Katzen oder Hunden hinzukommen.

Ein häufiges Problem bei überwachtem maschinellem Lernen ist jedoch Überanpassung, dabei werden die Modellparameter zu stark an die Trainingsdaten angepasst. Anstatt die wesentlichen Merkmale einer Kategorie zu lernen, lernt die Maschine ein bestimmtes Beispiel – sie erkennt vielleicht einen deutschen Schäferhund, es fehlt ihr aber an Verständnis für „Hunde“ als Kategorie und die Merkmale, aufgrund derer der deutsche Schäferhund zu dieser Gruppe gehört.

Deep LearningDeep Learning ist eine beliebte Unterkategorie von überwach-tem Lernen, die auf einer Vielzahl von Ebenen miteinander verbundener mathematischer Prozesse zur Entwicklung nicht- linearer Decision Engines basiert. Deep Learning ist in der Regel erheblich effizienter als andere Ansätze von überwachtem Lernen, weil es in der Lage ist, weitaus komplexere Darstellun-gen oder Überzeugungen unserer Welt zu verarbeiten, ohne dass der Mensch dem System sagen muss, wie die Daten aussehen müssen.

Damit sind jedoch hohe Kosten verbunden, weil Deep Learning Rechenleistung in einer ganz anderen Größenordnung als zum Anlernen mathematischer Engines erfordert.

Deep Learning wird die traditionellen algorithmischen Ansätze in Bereichen, in denen ausreichende Eingabedaten, Beispiele des erwarteten Ergebnisses und eine automatisierte Möglich-keit zur Messung, ob der Algorithmus erfolgreich ist, verfügbar sind, sicherlich ablösen.

Page 5: Maschinelles Lernen im Zeitalter der Cyber-KI · 2020-03-31 · Maschinelles Lernen ist schwer zu entwickeln und bereitzustellen, da hierfür komplexe Algorithmen und ein übergeordnetes

4

Darktrace und seine einzigartige Kombination von Ansätzen des maschinellen LernensÜberwachtes maschinelles Lernen kann sehr mächtig sein. Darktrace wurde aber mit der Vision gegründet, die weltweit erste selbstlernende Plattform für die Cyberabwehr zu entwickeln. Mithilfe von nicht über-wachtem maschinellem Lernen erkennt das System ungewöhnliche und noch nie dagewesene Bedrohungen, ohne dass entsprechende Trainingsdaten vorliegen müssen, die ohnehin nicht perfekt sind. Daten zu Angriffen in der Vergangenheit schützen nicht zwangsläufig vor zukünftigen Angriffen.

Darktrace hat das weltweit führende ML-System für Cybersicherheit entwickelt, das auf diesem einzigartigen Ansatz basiert, und greift dabei auch auf Deep-Learning-Methoden zurück, um seine KI-Engine mit dem spezialisierten Fachwissen seiner erstklassigen Cyberanalys-ten anzureichern.

Diese neuen Methoden, die bereits in mehreren tausend Netzwerk-umgebungen zum Einsatz kommen, werden immer leistungsstärker. Die Erkenntnisse fließen in unsere neuronalen Netze ein, wodurch das nicht überwachte maschinelle Lernen noch mächtiger wird.

Maschinelles Lernen & Cybersicherheit

Traditionelle Ansätze der Cybersicherheit basieren auf der Identifi-zierung von Aktivitäten, die bereits bekannten Angriffen ähneln – die sogenannten „bekannten Bekannten“. Dem liegt in der Regel ein sig-naturbasierter Ansatz zugrunde, bei dem eine Datenbank bekannter schädlicher Verhaltensweisen angelegt wird. Neue Aktivitäten werden mit der Datenbank abgeglichen und bei einer Übereinstimmung wird die betreffende Aktivität als Bedrohung gekennzeichnet.

Diese Lösungen greifen zur Klassifizierung der Signaturen manchmal auch auf Methoden zurück, die auf überwachtem maschinellem Ler-nen basieren. Bei diesem überwachten Ansatz wird ein System mit Trainingsdaten gefüttert, wobei jeder Eintrag als zu einer bestimmten Klasse zugehörig gekennzeichnet ist.

Im Bereich der Informationssicherheit wird das System so trainiert, dass es eine Datenbank von bereits bekannten Verhaltensweisen verwendet, wobei jede Verhaltensweise entweder als schädlich oder unschädlich bekannt und als solche gekennzeichnet ist.

Neue Aktivitäten werden dann analysiert, um herauszufinden, ob sie mehr den Aktivitäten in der Klasse der schädlichen Verhaltensweisen oder denjenigen in der Klasse der unschädlichen Verhaltensweisen ähneln. Aktivitäten, die den Analysen zufolge aller Wahrscheinlichkeit nach schädlich sind, werden erneut als Bedrohung gekennzeichnet.

Systeme, die auf überwachtem maschinellem Lernen beruhen, weisen grundlegende Schwächen auf:

� Schädliche Verhaltensweisen, die stark von den bereits bekannten Verhaltensweisen abweichen, werden nicht als solche klassifiziert und somit auch nicht abgefangen.

� Der personelle Aufwand für die Kennzeichnung der Trainings-daten ist sehr groß.

� Falsch gekennzeichnete Daten oder falsche Einschätzung durch die Person, die die Daten kennzeichnet, können dazu führen, dass das System neue Aktivitäten nicht richtig klassifiziert.

Maschinelles Lernen eröffnet ganz neue Möglichkeiten für die Cybersicherheit. Mit neuen Methoden des maschinellen Lernens lassen sich die Genauigkeit der Bedrohungserkennung und die Einblicke in das Netzwerk deutlich verbessern, da viel mehr Rechen-analysen vorgenommen und ausgewertet werden können. Zudem läuten sie eine neue Ära der eigenverantwortlichen Reaktion ein, in der ein maschinelles System so intelligent ist, dass es versteht, wie und wann es gegen Bedrohungen vorgehen muss.

„Darktrace redet nicht nur von KI in der Cybersicherheit, sondern ist aktiv.“Ovum

Page 6: Maschinelles Lernen im Zeitalter der Cyber-KI · 2020-03-31 · Maschinelles Lernen ist schwer zu entwickeln und bereitzustellen, da hierfür komplexe Algorithmen und ein übergeordnetes

WHITEPAPER

5

Nicht überwachtes maschinelles Lernen

Dem nicht überwachten maschinellen Lernen von Darktrace kommt eine kritische Rolle zu, weil dafür im Gegensatz zu überwachten Ansätzen keine gekennzeichneten Trainingsdaten erforderlich sind. Vielmehr ist die Technologie in der Lage, wesentlichen Muster und Trends in den Daten zu erkennen, ohne dass menschliche Eingriffe nötig sind. Nicht überwachtes Lernen kann viel mehr leisten, als Programmierer sich vorstellen können, und erkennt daher auch gänzlich neue, unbekannte Zusammenhänge.

Darktrace nutzt einzigartige Algorithmen für nicht überwachtes maschinelles Lernen, um Netzwerkdaten in großem Umfang zu analysieren, und führt Milliarden von wahrscheinlichkeitsbasierten Berechnungen auf Grundlage von Beobachtungen durch. Anstatt sich auf die Kenntnisse über vergangene Bedrohungen zu verlassen, klassifiziert die Plattform eigenständig Daten und erkennt relevante Muster. Ausgehend davon macht sich die Technologie ein Bild vom „normalen“ Verhalten von Geräten, Benutzern oder Gruppen im Netz-werk und erkennt Abweichungen von diesen „Pattern of Life“, die möglicherweise auf eine sich entwickelnde Bedrohung hindeuten.

Grundprinzipien des maschinellen Lernens von Darktrace � Das System lernt „bei der Arbeit“ die normalen Verhaltensweisen

in einem Netzwerk, ist also nicht auf Erkenntnisse zu früheren Angriffen angewiesen.

� Es passt sich an die Größe, die Komplexität und die Vielfalt moderner Geschäftsumgebungen an, in denen jedes Gerät und jede Person einmalig ist.

� Die Angreifer werden mit ihren eigenen Waffen geschlagen, und sind sie auch noch so innovativ – jede ungewöhnliche Aktivität wird aufgedeckt.

� Die Annahmen zu den Verhaltensweisen werden nach und nach mithilfe der Probalilistik korrigiert und angepasst.

� Das System ist immer auf dem neuesten Stand und nicht auf menschliche Eingaben angewiesen.

Mit dem nicht überwachten maschinellen Lernen von Darktrace wird die Cyberabwehr grundlegend verändert. Die KI-basierte Cybertechno-logie hat schnell bewiesen, dass sie bislang unbekannte Cybervorfälle aus allen möglichen Bedrohungsquellen aufdecken kann, die sonst unentdeckt bleiben würden. Dazu gehören unter anderem:

� Insiderbedrohungen – aus böser Absicht oder unbewusst.

� Zero-Day-Angriffe – noch unbekannte, völlig neue Exploits.

� Latente Schwachstellen – verborgene Schwachstellen, die häufig aufgrund fehlender Einblicke in das Netzwerk unentdeckt bleiben.

� Unvorstellbar schnelle Angriffe – Ransomware und andere automatisierte Angriffe, die sich blitzschnell ausbreiten und/oder mutieren und die sich mit menschlichen Response-Mechanismen kaum stoppen und unschädlich machen lassen.

� Verborgene, getarnte Angriffe, die unerkannt in Netzwerken lauern.

„Maschinelles Lernen erkennt Dinge, die wir selbst nicht vorhersagen und definieren können. Das ist wie die Suche nach der Nadel im Heuhaufen.“Steelcase

Thomas Bayes – Pfarrer und MathematikerDie ausgeklügelte Mathematik, die dem ML-Ansatz von Darktrace zugrunde liegt, ist in der Seminararbeit des britischen Mathema-tikers Thomas Bayes (1702–1761) verankert. Seine Theorie der bedingten Wahrscheinlichkeit schlägt eine mathematische Brücke zwischen objektiven, entwickelten Methoden und der subjektiven Welt, in der wir leben. Die Bayessche Statistik wurde von Mathema-tikern der Universität Cambridge weiterentwickelt und stellt einen Filter bereit, um die wahre Bedeutung von vagen und diffusen Daten herauszufinden.

Durch Einbindung der Bayesschen Statistik in den Ansatz für nicht überwachtes maschinelles Lernen ist die Technologie von Darktrace in der Lage:

� Noch unbekannte Beziehungen zu erkennen.

� Daten unabhängig zu klassifizieren.

� Überzeugende Muster zu erkennen, die definieren, was als normales Verhalten zu betrachten ist.

� Auch ohne bereits vorhandene Erkenntnisse und Annahmen auszukommen.

Page 7: Maschinelles Lernen im Zeitalter der Cyber-KI · 2020-03-31 · Maschinelles Lernen ist schwer zu entwickeln und bereitzustellen, da hierfür komplexe Algorithmen und ein übergeordnetes

6

Clustering von GerätenUm ein Modell darüber erstellen zu können, welches Verhalten bei einem Gerät als „normal“ zu betrachten ist, werden dessen Verhaltens-weisen im Kontext ähnlicher Geräte im Netzwerk analysiert. Darktrace macht sich die Fähigkeit des nicht überwachten maschinellen Lernens zunutze, mithilfe von Algorithmen Geräte anhand von Ähnlichkeiten zu gruppieren – eine Aufgabe, die manuell ein Ding der Unmöglichkeit ist, selbst in kleineren Netzwerken.

Um ein ganzheitliches Bild von den Beziehungen innerhalb des Netzwerks zu erhalten, wendet Darktrace verschiedene Clustering- Methoden an, wie z. B. matrixbasiertes, dichtebasiertes oder hierar-chisches Clustering. Die Cluster bilden dann die Grundlage für die Modellierung des normativen Verhaltens einzelner Geräte.

NetzwerktopologieEin Netzwerk ist viel mehr als die Summe seiner einzelnen Teile – seine eigentliche Bedeutung liegt in den Beziehungen zwischen den verschiedenen Einheiten. Darktrace wendet eine Vielzahl mathema-tischer Methoden an, um die verschiedenen Facetten der Topologie eines Netzwerks zu modellieren. Auf diese Weise lassen sich selbst kleinste Veränderungen in der Struktur erkennen, die auf Bedrohungen hindeuten.

Einer der Ansätze basiert auf iterativen Matrixmethoden, bei denen wichtige Konnektivitätsstrukturen im Netzwerk offengelegt wer-den, ähnlich wie bei Page-Ranking-Algorithmen. Parallel dazu hat Darktrace innovative, der statistischen Physik entlehnte Modellan-wendungen entwickelt, mit denen sich die „Energielandschaft“ eines Netzwerks modellieren lässt und anormale Substrukturen aufgedeckt werden, bei denen es sich um erste Anzeichen einer Kompromittierung handeln könnte.

Technische Übersicht

Der transformative Ansatz von Darktrace für die Cyberabwehr stützt sich auf wahrscheinlichkeitsbasierte Methoden, die von Mathemati-kern der Universität Cambridge entwickelt wurden. Durch den Einsatz verschiedener Methoden für nicht überwachtes und überwachtes Lernen sowie Deep Learning in einem Bayesschen Framework kann das Enterprise Immune System eine Vielzahl an schwachen Indikato-ren für anormales Verhalten berücksichtigen, die in der Summe einen einzelnen Wert für die Bedrohungswahrscheinlichkeit ergeben.

Für jede einzelne Umgebung generiert Darktrace Millionen miteinan-der verbundener mathematischer Modelle, die in Beziehung gesetzt werden. Auf diese Weise wird sichergestellt, dass nur tatsächlich anormales Verhalten erkannt und keine Flut an False Positives pro-duziert wird. Im Gegensatz zu regelbasierten Berechnungen lassen sich die Ergebnisse wahrscheinlichkeitsbasierter Mathematik nicht einfach als „Ja“ oder „Nein“ kategorisieren. Stattdessen wird ein Wahr-scheinlichkeitsgrad angegeben, in dem sich die Uneindeutigkeiten wi-derspiegeln, durch die dynamische Datenumgebungen zwangsläufig gekennzeichnet sind.

Einstufung der Bedrohungen Das Enterprise Immune System trägt Uneindeutigkeiten durch Einstufung in verschiedene Evidenzgrade bei den Netzwerkdaten Rechnung. Aus den mathematischen Algorithmen von Darktrace ergibt sich nicht ein eindeutiges „schädlich“ oder „unschädlich“, vielmehr wird den Berechnungsergebnissen ein Wert zugewiesen, der Auskunft über die Bedrohungswahrscheinlichkeit gibt. So können Benutzer des Systems Warnmeldungen in eine Rangfolge bringen und diejenigen priorisieren, die ein sofortiges Eingreifen erfordern. Gleichzeitig fällt das Problem der Vielzahl an False Positives weg, die bei einem regelbasierten Ansatz gang und gäbe sind.

Im Wesentlichen legt Darktrace mathematisch fest, was „norma-les“ Verhalten ist, und stützt sich dabei auf die Analyse einer großen Anzahl an unterschiedlichen Messungen der Aktivitäten eines Geräts, wie unter anderem:

� Serverzugriff

� Datenvolumen

� Zeitpunkte von Ereignissen

� Verwendung von Anmeldedaten

� Art, Volumen und Richtung von Verbindungen

� Upload-/Download-Richtungen

� Dateityp

� Administrationsaktivität

� Ressourcen- und Informationsabrufe

Page 8: Maschinelles Lernen im Zeitalter der Cyber-KI · 2020-03-31 · Maschinelles Lernen ist schwer zu entwickeln und bereitzustellen, da hierfür komplexe Algorithmen und ein übergeordnetes

WHITEPAPER

7

NetzwerkstrukturEine weitere große Herausforderung bei der Modellierung der Verhal-tensweisen eines sich dynamisch entwickelnden Netzwerks ist die große Anzahl potenzieller Prädiktorvariablen. Für die Beobachtung des Paketverkehrs und der Hostaktivität im LAN oder WAN eines Unternehmens, in dem sowohl die Inputs als auch die Outputs eine Vielzahl zusammenhängender Elemente enthalten können (Protokol-le, Quell- und Zielrechner, Protokolländerungen, Regeltrigger usw.), ist es sehr wichtig, dass eine dünnbesetzte und einheitliche strukturierte prädiktive Funktion gelernt wird.

In diesem Zusammenhang wendet Darktrace einen hochentwickel-ten, großangelegten Rechenansatz an, um ein Verständnis der dünn-besetzten Struktur in Modellen der Netzwerkkonnektivität basierend auf L1- Regularisierungsmethoden (Lasso-Verfahren) zu entwickeln. Somit ist das Enterprise Immune System in der Lage, echte Verbin-dungen zwischen den verschiedenen Elementen eines Netzwerks zu erkennen, die als effizient lösbare konvexe Probleme formuliert werden können und in sparsame Modelle einfließen.

Der Bayessche FilterUm diese verschiedenen Analysen des Netzwerkverhaltens zusam-menzuführen und ein Gesamtbild des Zustands der Geräte im Netz-werk zu erhalten, nutzt Darktrace den Bayesschen Filter, ein rekursi-ves Verfahren zur Schätzung von Wahrscheinlichkeitsverteilungen. Mithilfe des Bayesschen Filters passen sich die mathematischen Modelle von Darktrace sofort an, sobald neue Informationen in das System fließen. Das Enterprise Immune System berechnet unter Be-rücksichtigung der neuen Daten die Bedrohungsstufen kontinuierlich neu und erkennt Muster in Datenströmen, die auf Angriffe hindeuten, wo herkömmliche signaturbasierte Verfahren nur Chaos sehen.

Darktrace & Deep Learning

Darktrace setzt zur Verbesserung der Modellierprozesse auch Deep Learning ein. Deep Learning ist eine Unterkategorie des maschinelles Lernens, die auf den kaskadierenden Interaktionen mehrschichtiger mathematischer Prozesse (als neuronale Netze bezeichnet) beruht und dazu beiträgt, dass intelligente Systeme bessere Einblicke erhalten. Mehrschichtige neuronale Netze können die Erkennung und Behebung bestimmter Bedrohungen verbessern, z. B. bei der Identifizierung von DNS-Anomalien, die von anderen ML-Methoden nicht so effektiv festgestellt werden. Das Deep-Learning-System von Darktrace weist allen DNS-Daten eines Geräts einen Score zu, um verdächtige Aktivität noch schneller erkennen zu können.

Zudem fasst Darktrace Geräte in Peergruppen zusammen, basierend auf seinem eigenen Verständnis des Verhaltens dieser Geräte, und setzt überwachtes Lernen ein, um Abfolgen von abwei-chenden Verhaltensweisen, ungewöhnliche Muster oder anormale Aktivität auf einer höheren, ganzheitlicheren Ebene zu erkennen. Die WannaCry-Ransomware zum Beispiel wurde von Darktrace problem-los erkannt, weil Abweichungen von verschiedenen „Pattern of Life“-Modellen festgestellt wurden. Mithilfe von überwachtem Lernen kann Darktrace den Prozess der menschlichen Interpretation verschiedener Kategorien abweichender Verhaltensweisen bei einem Gerät oder Netzwerk im Zeitverlauf nachbilden und somit gezielt – statt wahllos – korrelierte Warnmeldungen ausgegeben.

Überwachtes Lernen wird von Darktrace auch genutzt, um die Umgebung besser zu verstehen, ohne dass ein Mensch Kenn-zeichnungen vornehmen muss. Durch Beobachtung von Millionen verschiedener Smartphones zum Beispiel kann Darktrace ein neues Gerät immer schneller als „Smartphone“ identifizieren und sogar bestimmen, um welche Art von Smartphone es sich handelt.

Mithilfe von Deep Learning und überwachtem Lernen ergänzend zu seinen nicht überwachten ML-Kernalgorithmen baut Darktrace einzig-artiges, kontextbezogenes Wissen über die Netzwerkaktivität auf und integriert gleichzeitig die Einblicke seiner globalen Installationen, um die Bedrohungserkennung zu verbessern.

Darktrace setzt auch Deep-Learning-Methoden zur Automatisierung wiederkehrender und zeitintensiver Aufgaben ein, die im Rahmen der Analyse-Workflows ausgeführt werden. Durch Analysen, wie erfahre-ne Cyberanalysten mit dem Threat Visualizer interagieren, Warnmel-dungen sortieren und fremde Quellen nutzen, ist Darktrace in der Lage, dieses Expertenverhalten nachzubilden und bestimmte Analysten-funktionen zu automatisieren. Auf diese Weise können Analysten aller Kompetenzstufen zunehmend effizientere und einfacherer Analysen durchführen. Zudem verschafft dies den Sicherheitsteams Zeit, um sich auf strategische Tätigkeiten mit höherem Nutzen konzentrieren zu können, wie z. B. Risikomanagement und Fokus auf breiter gefassten Verbesserungen im Unternehmen..

Page 9: Maschinelles Lernen im Zeitalter der Cyber-KI · 2020-03-31 · Maschinelles Lernen ist schwer zu entwickeln und bereitzustellen, da hierfür komplexe Algorithmen und ein übergeordnetes

8

Fazit

Unsere Generation erlebt eine Revolution des maschinellen Lernens. Die Arbeitsweisen sind im Wandel begriffen – die Maschine ersetzt die Muskeln, wiederkehrende Aufgaben werden automatisiert und Aufgaben mit geringem Mehrwert werden von Maschinen ausgeführt, die große Datenmengen bearbeiten und umfangreiche Berechnungen durchführen können.

Da die Netzwerke größer und komplexer geworden sind, haben Angreifer auch mehr Möglichkeiten, Lücken auszunutzen. Firewalls reichen nicht mehr aus, um Firmennetzwerke zu schützen, und regelbasierte Tools sind angesichts der Vielzahl möglicher Angriffs-vektoren überfordert. Die Cyber-Angriffslandschaft entwickelt sich ständig weiter, sodass wir an unseren Erkennungsfähigkeiten arbei-ten müssen – mithilfe von maschinellem Lernen, um die Umgebung zu verstehen, irrelevante Daten herauszufiltern und Maßnahmen zu ergreifen, wenn Bedrohungen erkannt werden.

Darktrace macht sich die von Mathematikern der Universität Cambridge entwickelte wahrscheinlichkeitsbasierte Bayessche Mathematik zunutze und ist weltweiter Marktführer im Bereich des maschinellen Lernens und der künstlichen Intelligenz. Dank des ein-zigartigen Zusammenspiels von nicht überwachtem maschinellem Lernen, überwachtem maschinellem Lernen und Deep Learning, dem Fundament des Enterprise Immune System, hat sich Darktrace als weltweit führendes KI-Unternehmen für die Cyberabwehr etabliert.

Nach diesem neuen Paradigma können wir Unternehmen helfen, ihr eigenes Immunsystem aufzubauen, das eigenständig Cyberbe-drohungen erkennt und abwehrt, die von anderen Tools übersehen werden – ganz ohne menschliches Eingreifen oder subjektive Einschätzung, wie „schädliches“ Verhalten aussieht.

Die Technologie von Darktrace ist zu einem unverzichtbaren Tool für Sicherheitsteams geworden, die einen Überblick über ihr Netzwerk erhalten, die Netzwerkaktivität beobachten und Bereiche mit potenziellen Schwächen offenlegen möchten. Diese müssen nicht mehr manuell aufgespürt werden, das übernimmt das automatisierte System, das auch eine Priorisierung vornimmt.

ML-Technologie ist der wichtigste Verbündete in der Verteidigung von Systemen vor Hackern und Insiderbedrohungen und in der Ergreifung von Maßnahmen gegen unbekannte Cyber-Angriffsformen. Das ist eine bedeutsame Weichenstellung in der Cybersicherheit.

Eigenständige Response mit Darktrace Antigena

Da das maschinelle Lernen von Darktrace in der Lage ist, auf granularer Ebene die normalen Verhaltensweisen – die sogenannten „Pattern of Life“ – zu verstehen und spezifische Abweichungen von der normalen Aktivität zu erkennen, kann es eigenständig auf laufende Angriffe re-agieren und angemessene Maßnahmen ergreifen.

Zum ersten Mal schlägt die Maschine eigenständig zurück: Darktrace Antigena funktioniert wie Antikörper im Immunsystem – eine Bedro-hung wird unschädlich gemacht, indem das bekannte „Pattern of Life“ eines Geräts oder Benutzers durchgesetzt wird.

Dank des nicht überwachten maschinellen Lernens, der ML- Kerntechnologie von Darktrace, lernt die Lösung auch von sich selbst sowie passiv durch die von ihr beobachteten Daten. Wenn Darktrace Antigena eigenständig reagiert, wird sofort ein Feedback Re-inforcement Loop in Gang gesetzt. Die daraus resultierenden Verhaltensweisen im Netzwerk werden wiederum analysiert, um Diagnosen zu erleichtern und weitere Aktionen mit den Erkenntnissen zu unterlegen. Im Gegensatz zum Guided Reinforcement Learning wird dieser Prozess eigenständig von der Maschine und nicht von einem menschlichen Benutzer angestoßen.

Darktrace Antigena basiert im Wesentlichen auf nicht überwachtem maschinellem Lernen, das erwiesenermaßen nur die Cyberereignisse erkennt, die wirklich anormal sind – mit einer Genauigkeit, die eine präzise Response ermöglicht. Maschinelles Lernen, das auf diese Weise eingesetzt wird, ersetzt nicht den Menschen, sondern unterstützt ihn in seiner Funktion. Antigena agiert schneller als jeder Mensch und verschafft den Sicherheitsteams Zeit, die Sicherheit wiederherzustellen und gegebenenfalls weitere Maßnahmen zu ergreifen.

„Darktrace hat unseren Ansatz für Cybersicherheit von Grund auf verändert. Dank der eigenständigen Response kann mein Team sich jetzt um Belange kümmern, für die ein Mensch nötig ist.“Campari

Page 10: Maschinelles Lernen im Zeitalter der Cyber-KI · 2020-03-31 · Maschinelles Lernen ist schwer zu entwickeln und bereitzustellen, da hierfür komplexe Algorithmen und ein übergeordnetes

XDarktrace © Copyright 2019 Darktrace Limited. Alle Rechte vorbehalten. Darktrace ist eine eingetragene Marke von Darktrace Limited. Enterprise Immune System und Threat Visualizer sind nicht eingetragene Marken von Darktrace Limited. Andere hier genannte Marken sind Eigentum der jeweiligen Inhaber.

KontaktNordamerika: +1 (415) 229 9100

Lateinamerika: +55 11 97242 2011

Europa: +44 (0) 1223 394 100

Asien-Pazifik: +65 6804 5010

[email protected]

darktrace.com

Über DarktraceDarktrace ist das weltweit führende Unternehmen für Cyber-KI und Schöpfer der ‚Autonomous Response‘ Technologie. Darktraces selbstlernende KI basiert auf dem menschlichen Immunsystem und wird von über 3.000 Organisationen zum Schutz vor Bedrohungen für Cloud, E-Mail, IoT, Netzwerke und industrielle Systeme eingesetzt. Das Unternehmen hat über 1.000 Mitarbeiter und Hauptsitze in San Francisco und Cambridge, Großbritannien. Alle 3 Sekunden wehrt Darktrace AI gegen eine Cyber-Bedrohung und verhindert, dass sie Schaden verursacht.