Forschungsprojekt AI²

Mensch + KI = IT-Security deluxe

20.04.2016 von Simon Hülsbömer
Ein neues hybrides IT-Security-System des Massachusetts Institute of Technology (MIT) namens AI² verknüpft menschliche mit künstlicher Intelligenz und erkennt bis zu 85 Prozent der Cyberattacken.

Weder Mensch noch Maschine haben bisher erfolgreich nachgewiesen, dass sie für sich allein genommen ausreichenden Schutz vor Angriffen auf Netze und Systeme bieten - warum also nicht beide Seiten miteinander kombinieren? Genau das fand nun im Rahmen eines MIT-Forschungsprojekts statt - mit ziemlich beeindruckenden Ergebnissen. Forscher des Science and Artificial Intelligence Laboratory (CSAIL) des MIT entwickelten gemeinsam mit PatternEx, einem aus der CSAIL-Forschung hervorgegangenen Startup für Machine-Learning-Angebote die Plattform AI². Diese erkannte in Tests 85 Prozent aller Angriffe und reduzierte zudem die Zahl der erkannten "False Positives" - also harmlose Aktivitäten, die fälschlicherweise als Angriff gewertet werden - um den Faktor fünf. Getestet wurde AI² an 3,6 Milliarden Datensätzen, die von Millionen Nutzern über drei Monate hinweg produziert wurden. Wie AI² genau funktioniert, sehen Sie in dem folgenden Video:

Präsentiert wurden die Forschungsergebnisse in der vorletzten Woche auf der Security-Konferenz "DataSec" an der Columbia University in New York. "Sie könnnen sich das System als virtuellen Analysten vorstellen", sagt CSAIL-Forscher Kalyan Veeramachaneni, der AI² zusammen mit Ignacio Arnaldo, dem Chief Data Scientist von PatternEx, aus der Taufe gehoben hat. "Es erstellt automatisch und dauerhaft neue Erkennungsmodelle, die es innerhalb weniger Stunden komplett umbauen kann - damit verbessert es seine Erkennungsrate schnell und deutlich."

Der Trend geht zu hybriden Systemen

Auch wenn nun unter IT-Security-Experten die Angst umgehen mag, ihre Jobs seien in Gefahr, wird deutlich, dass erst die Kombination aus Sicherheitsexperten und KI-Systemen solche Ergebnisse möglich macht. Erst vergangenen Woche veröffentlichte beispielsweise die Crowdsourcing-Plattform Spare5 ein neues System, dass menschliche Expertise mit Machine-Learning-Algorithmen verknüpft, um aus unstrukturierten Daten mehr Informationen herauszuholen.

Entwickler-Frameworks für Machine Learning
Apache Spark MLlib
Früher als Teil des Hadoop-Universums bekannt, ist Apache Spark mittlerweile ein bekanntes Machine-Learning-Framework. Sein umfangreiches Angebot an Algorithmen wird ständig überarbeitet und erweitert.
Apache Singa
Singa, seit kurzem Teil des Apache Incubator, ist ein Open-Source-Framework, das Deep-Learning-Mechanismen auf große Datenvolumen hin „trainieren“ soll. Singa stellt ein simples Programmierungsmodell für Deep-Learning-Netzwerke bereit und unterstützt dabei diverse Entwicklungsroutinen.
Caffe
Caffe umfasst ein ganzes Set von frei verfügbaren Referenzmodellen für gängige Klassifizierungsroutinen; die gewachsene Caffe-Community steuert weitere Modelle bei. Caffe unterstützt die Nvidia-Programmiertechnik CUDA, mit der Programmteile wahlweise auch durch den Grafikprozessor (GPU) abgearbeitet werden können.
Microsoft Azure ML Studio
Weil die Cloud also die ideale Umgebung für ML-Anwendungen darstellt, hat Microsoft seine Azure-Cloud mit einem eigenen ML-Service auf der Basis von „pay as you go“ ausgestattet: Mit Azure ML Studio können Nutzer KI-Modelle entwickeln und trainieren und anschließend in APIs umwandeln, um diese wiederum Anderen zur Verfügung zur stellen.
Amazon Machine Learning
Amazon Machine Learning arbeitet mit Daten, die in einer Amazon-Cloud wie S3, Redshift oder RDS liegen und kann mithilfe binärer Klassifizierungen und Multiklassen-Kategorisierung von vorgegebenen Daten neue KI-Modelle bauen.
Microsoft DMTK
Das DMTK (Distributed Machine Learning Toolkit) von Microsoft soll ML-Anwendungen über mehrere Maschinen hinweg skalieren. Es ist eher als "Out of the Box"-Lösung gedacht und weniger als Framework - entsprechend gering ist die Anzahl der unterstützten Algorithmen.
Google TensorFlow
TensorFlow basiert auf sogenannten Data-Flow-Graphen, in denen Bündel von Daten („Tensors“) durch eine Reihe von Algorithmen verarbeitet werden, die durch einen Graph beschrieben sind. Die Bewegungsmuster der Daten innerhalb des Systems heißen „Flows“. Die Graphen lassen sich mittels C++ und Python zusammenbauen und via CPU oder GPU verarbeiten.
Microsoft CNTK
Das Microsoft Computational Network Toolkit funktioniert ähnlich wie Google TensorFlow: Neuronale Netze lassen sich durch gerichtete Graphen erzeugen. Microsofts eigener Beschreibung zufolge lässt sich CNTK außerdem mit Projekten wie Caffe, Theano und Torch vergleichen – sei aber schneller und könne im Gegensatz zu den genannten gar parallel auf Prozessor- und Grafikprozessorleistung zugreifen.
Samsung Veles
Das Samsung-Framework ist dazu gedacht, Datensätze zu analysieren und automatisch zu normalisieren, bevor sie in den Produktivbetrieb übergehen – was wiederum durch eine eigene API namens REST sofort möglich ist – vorausgesetzt, die eingesetzte Hardware hat genügend Power. Der Python-Einsatz in Veles umfasst auch ein eigenes Analyse- und Visualisierungstool namens Jupyter (früher IPython) für die Darstellung einzelner Anwendungs-Cluster.
Brainstorm
Brainstorm setzt auf Python, um zwei Data-Management-APIs („Handers“ genannt) bereitzustellen – eine für CPU-Prozessing durch die Bibliothek „Numpy“ und eine für GPU-Verarbeitung via CUDA. Eine benutzerfreundliche GUI ist in Arbeit.
mlpack 2
Die neue Version der in C++ geschriebenen Machine-Learning-Bibliothek mlpack, die erstmals im Jahr 2011 erschien, bringt eine Menge Neuerungen mit – darunter neue Algorithmen und überarbeitete alte.
Marvin
Der Quellcode von Marvin ist sehr übersichtlich - die enthaltenen vortrainierten Modelle (siehe Bild) ermöglichen aber bereits eine umfangreiche Weiterentwicklung.
Neon
Neon von NervanaSystems ist ein Open-Source-Framework, das auf ein- und abschaltbaren Modulen basiert und KI-Prozesse via CPU, GPU oder Nervanas eigener Hardware ermöglicht.

In der klassischen IT-Security-Welt halten sich die von Menschen gemachten Technologien auf menschengemachte Regeln und erkennen Angriffsvektoren, die nicht in handelsübliche Muster passen, nicht. Reine Machine-Learning-Ansätze arbeiten mit annormalen Erkennungsmustern und haben ein Problem mit zu vielen "False Positives", die dann wiederum von Menschen nachbearbeitet werden müssen. In der logischen Konsequenz sollte nun das beste aus beiden Welten miteinander kombiniert werden. Da aber Security-Informationen für die Weitverarbeitung durch Algorithmen in Teilen manuell gekennzeichnet werden müssen, ist die Entwicklung solcher Systeme nicht trivial. So kann die Identifikation vieler Angriffsvektoren als das, was sie sind - beispielsweise "DDoS-Angriff" oder "Datenklau" - häufig nur durch IT-Security-Experten erfolgen, die die Methoden genau kennen. Da genüge es laut Veeramachaneni nicht, sich auf Crowdsourcing-Dienste wie Amazon Mechanical Turk zu verlassen, die in anderen Bereichen wie der visuellen Erkennung von Bildinhalten durchaus eine wertvolle und kostengünstige Hilfe sein könnten.

Lerneffekt wird mit der Zeit immer größer

Security-Experten sind jedoch rar gesät. Deshalb arbeitet AI² zunächst mit Machine-Learning-Algorithmen, um mögliche Sicherheitsprobleme aufzudecken. Diese werden dann im zweiten Schritt den Sicherheitsanalysten zur Prüfung vorgelegt. Es handle sich nach Angaben der MIT-Forscher am ersten Tag des Einsatzes konkret um die 200 "am meisten annormalen" Ereignisse. Die menschlichen Analysten melden dem System zurück, welche der Events tatsächlich sicherheitsrelevante Angriffe sind. Die Maschine lässt dieses Wissen anschließend in seine Erkennungsmodelle einfließen und erzeugt auf dieser Grundlage den nächsten Datensatz. Mit der Zeit nimmt die Zahl der von Menschen zu prüfenden Security-Events rapide ab. Veeramachaneni resümiert: "Je mehr Angriffe erkannt werden und je mehr menschliches Feedback das System erhält, desto besser wird der Schutz. Die Mensch-Maschine-Interaktion erzeugt so einen wunderbaren Kaskadeneffekt."

Es gibt noch weitere gute Beispiele für eine kombinierte Mensch-Maschine-Technologie. Im vergangenen Jahr haben wir beispielsweise das Startup ExB Labs besucht, die semantische Textanalyse und -erzeugung voranbringen möchte:

Zum Video: Mensch + KI = IT-Security deluxe