Machine Learning

Vom Hype zur Realität

Kommentar  von Paul Salazar
Machine Learning - ein Begriff, der aus der Statistik hervorgekommen und zum modernen Schlagwort geworden ist. Das bloße Flüstern von "ML" erregt heute Aufmerksamkeit. Doch der geheimnisvolle Nimbus des Begriffs wird nur selten richtig verstanden und ist mit allerlei gehypten Erwartungen behaftet.

Viele Unternehmen betrachten ML als die geheime Zutat, die ihre Berge von Daten wie von Zauberhand in unglaubliche Intelligenz verwandeln wird. Es existiert der naive Glaube, dass die Anstellung eines intelligenten Wissenschaftlers, der ihre Datenberge in einen superschnellen, mit künstlicher Intelligenz programmierten Computer verschiebt, ihnen ermöglicht, die Konkurrenz wie auf einer Rennstrecke zu überholen.

Bei Machine Learning gehen Wunsch und Wirklichkeit weit auseinander.
Foto: maxuser - shutterstock.com

Die produktive Realität stellt sich jedoch deutlich anders dar: Um nützliche Resultate zu erzielen, kann Machine Learning außerordentlich viel Zeit und Aufwand in Anspruch nehmen, was nicht selten zu Frustration und verschwendeten Bemühungen führen kann. Wie können Unternehmen vor diesem Hintergrund also den Hype um Machine Learning in eine produktive Realität verwandeln? Dieser Artikel beschreibt drei grundlegende Probleme des Machine Learning und wie man sie effektiv lösen kann.

Machine Learning: Die Grundlagen

Ich arbeitete früher für ein reines Machine-Learning-Unternehmen. Dort haben wir extrem schnelle Algorithmen kreiert, die große Menge an Daten sehr schnell verarbeiten konnten. Daneben haben wir über eine Bibliothek verschiedener Machine-Learning-Methoden für echte Ergebnisse gesorgt - darunter z. B. Nearest Neighbor, Support Vector Machine, Random Forest, Decision Tree und weitere.

Eine Machine-Learning-Methode ist eine gut definierte Vorgehensweise zur Analyse von Daten und der Generation von Erkenntnissen in Form von statistischen Wahrscheinlichkeiten. Diese Methoden basieren auf einer Vielzahl von statistischen Formeln, die je nach verfügbaren Daten und der angestrebten Schlussfolgerung variieren. Einige dieser Methoden eignen sich besser für eindimensionale periodische Daten, andere eher für Text und Dokumente und wiederum andere für multidimensionale Daten.

Machine Learning FAQ
Facebook-Gesichter
Computer können lernen, menschliche Gesichter zu unterscheiden. Facebook nutzt das für die automatische Gesichtserkennung.
Machine Learning
Anders als das Bild suggeriert ist Machine Learning ein Teilgebiet von Artificial Intelligence – allerdings ein sehr wichtiges.
AlphaGo
Maschine schlägt Mensch: 2016 besiegte Googles Machine Learning System AlphaGo den Weltmeister im Spiel Go.
Grafikprozessoren GPU Nvidia
Die führenden Companies im Machine Learning nutzen für die parallele Verarbeitung der Daten Grafikprozessoren (GPUs) - etwa von Nvidia.
Deep Learning
Deep Learning Verfahren lernen erst Low-Level Elemente wie Helligkeitswerte, dann Elemente auf mittlerer Ebene und schließlich High-Level Elemente wie ganze Gesichter.
IBM Watson
IBM Watson integriert mehrere Artificial Intelligence Methoden: Neben maschinellem Lernen sind das Algorithmen der natürlichen Sprachverarbeitung und des Information Retrieval, der Wissensrepräsentation und der automatischen Inferenz.

Machine Learning: Die Herausforderungen

Es hört sich zunächst einmal sehr eindrucksvoll an, wenn ein Anbieter mit einer Vielzahl von Machine-Learning-Methoden in seiner Bibliothek auftrumpfen kann. Für den Datenwissenschaftler-Veteranen mit fundierter Erfahrung im Kampf mit Daten bietet eine solche Bibliothek eine immense Leistungskraft, mit der die verfügbaren Daten durchkämmt werden können.

Allerdings birgt dieser Ansatz zahlreiche Herausforderungen.

Zunächst einmal müssen die Daten, bevor sie von einer Methode verwendet werden können, entsprechend vorverarbeitet werden. Dies kann eine extrem mühsame und zeitraubende Aufgabe sein, wobei kleinste Änderungen an den geschäftlichen Anforderungen oder den Datenquellen den Datenwissenschaftler dazu zwingen können, den gesamten Datensatz von Grund auf neu zu erstellen.

Zweitens hat jede Methode eine derartig große Anzahl von Einsatzmöglichkeiten und Ergebnissen, dass die Lösung vorab klar definiert werden muss. Dies setzt voraus, dass der Geschäftsanwender die nuancenreichen Unterschiede zwischen den verschiedenen Methoden zu schätzen weiß oder der Datenwissenschaftler wortgewandt genug ist, um diese Unterschiede entsprechend zu erklären. Leider ist genau dies oft nicht der Fall.

Drittens muss der resultierende Datensatz formatiert oder für die Verwendung durch den Endbenutzer umgewandelt werden. Der Endbenutzer ist in der Regel ein Geschäftsanwender oder Prozessbenutzer, der die zum Einsatz gekommenen komplexen statistischen Methoden nicht versteht. Normalerweise benötigt dieser Endbenutzer nur solche Ergebnisse, die sofort genutzt werden können - egal, ob es sich hierbei um eine Webseite handelt, die einem Endnutzer eine bestimmte Seite präsentiert, oder um eine Heatmap, die einen Sicherheitsanalysten bei der Fahndung nach Bedrohungen unterstützt.

Vom Traum zum Zeit- und Ressourcenfresser

Meine persönliche Erfahrung war, dass sich diese drei Herausforderungen ständig und auf unterschiedliche Art und Weise gestellt haben. Allzu oft verwandelte dies den Traum von Machine-Learning-orientierten Lösungen von einer großartigen Idee in einen albtraumhaften Strudel, der wie ein schwarzes Loch Zeit und Ressourcen verschlang. Das Ganze produzierte Ergebnisse auf einer schmalen Basis - und nicht in einer allgemeinen und vor allem wiederholbaren Form.

Ohne erheblichen Aufwand bei der Bewältigung der Herausforderungen in Bezug auf Vorverarbeitung, Lösungsdefinition und Datenpräsentation konnten die Endkunden der Analyse die generierten Daten kaum nutzbringend verwenden. Dies war sehr frustrierend. Wenn es um die Lieferung der erhofften Ergebnisse ging, die Manager und Führungskräfte erwartet hatten, waren hoch-performante und erstklassige Methoden letztendlich unwirksam.

Machine Learning unter der Motorhaube

In jüngerer Zeit sind viele Lösungen hervorgekommen, die Machine Learning quasi "unter der Motorhaube" haben und so den Endkunden nur wenig oder überhaupt nicht mit der Komplexität des Themas belasten. Diese Ansätze vereinfachen eine oder mehrere der vorab identifizierten Herausforderungen oder verbergen sie gänzlich. Dies ermöglicht es den Endkunden, schnell und zuverlässig umsetzbare Ergebnisse zu erzielen. Hierbei ist die Implementierung der Machine-Learning-Methoden zwangsläufig weniger flexibel und der Datenwissenschaftler in seinem Handlungsbereich zugegebenermaßen sehr eingeschränkt.

Machine Learning einfach zu implementieren und nutzbar machen: So geht's

Die Überwindung der drei oben beschriebenen Herausforderungen ist der Schlüssel, um Machine Learning einfach zu implementieren und nutzbar zu machen. Zunächst einmal ist es unerlässlich, Daten in einem Standardformat bereitzustellen - mit wenig oder gar keiner Notwendigkeit, sie zu normalisieren oder anderweitig zu gestalten. Dies ermöglicht die verzögerungsfreie Durchführung von Experimenten und bietet zudem die Fähigkeit, einen Datensatz nach dem anderen auszuprobieren und zu sehen, was passiert. In der Anlaufphase einer komplexen Lösung, die Machine Learning einbezieht, ist dies ein kritischer Faktor.

Zweitens ist es wichtig, ein klar definiertes Ergebnis zu haben. Je enger Format und Form der Ergebnisse ausgerichtet werden können, desto effizienter lassen sich hinterher auf Basis der Ergebnisse Maßnahmen ergreifen. Zu viele Auswahlmöglichkeiten führen zur sogenannten "Paralyse durch Analyse" und verlangsamen den Prozess.

Und zu guter Letzt sorgen leicht verständliche Darstellungen der Ergebnisse dafür, dass die Resultate für ein größeres Spektrum an Endkunden verwertbar werden. Komplexe Ergebnisse, die eine Interpretation durch den Datenwissenschaftler nötig machen, werden einer breiten Annahme entgegenwirken. Dazu wird es die Fähigkeit von Organisationen, umsetzbare Ergebnisse aus ihrer Machine-Learning-Analyse zu gewinnen, erheblich verlangsamen.

Schlussfolgerungen

Für eine weiter verbreitete Nutzung und Annahme von Machine Learning muss es in eine komplette, kostengünstige und einfach zu nutzende Lösung verpackt werden. Die Benutzer benötigen eine Benutzeroberfläche, die wie ein persönlicher Assistent die Auswahl aus vordefinierten Optionen ermöglicht und in bestehenden Standards formatierten Daten bietet. Während der Verarbeitung nur über eine begrenzte Anzahl an Optionen zu verfügen - also eine stark fokussierte Nutzung von Machine Learning -, stellt sicher, dass für die Auswahl der Methoden oder andere Einrichtungsschritte nur wenig Zeit aufgewendet wird.

Mit einer Paketlösung stellen vorgefertigte Visualisierungsvorlagen und standardisierte Datenformate für den Export sicher, dass das Ergebnis schnell analysiert und für die weitere Verwendung im Geschäftsablauf weitergeleitet werden kann. Das Wichtigste ist, dass eine gut gestaltete Verpackung des Ganzen zu einer breiteren Annahme und Nutzung von Machine Learning führt und dem Unternehmen somit das Potential für einen exponentiellen Wertzuwachs bietet.

Ein in Vollzeit beschäftigter Datenwissenschaftler kann eine solche Paketlösung fast immer übertreffen. Allerdings ist dies in der Regel mit erheblichen Kosten und einem entsprechenden Zeitaufwand verbunden. Außerdem ist ein solcher Ansatz weder skalier- noch wiederholbar. Selbst dort, wo fokussiertere ML-Methoden eingesetzt werden, bieten Paketlösungen Unternehmen einen hervorragenden Ausgangspunkt, um ein weitaus breiteres Datenspektrum zu erkunden und die Leistung eines dedizierten Datenteams produktiver und effektiver einzusetzen.