Der Flügelschlag eines Schmetterlings

Daten - das filigrane Gut

19.10.2016 von Wilfried Lyhs
Wenn Algorithmen Daten ohne gesicherte Qualität oder eingeschränkter Gültigkeit nutzen, um Entscheidungen zu fällen, dann können die Konsequenzen fatal sein.

Als die Chaostheorie aus den Anfängen im 18. Jahrhundert 100 Jahre später den Schritt in die populärwissenschaftlichen Veröffentlichungen schaffte, machte die Metapher des Schmetterlingseffets die Runde, nach der der Flügelschlag eines Schmetterlings in Brasilien in Texas einen Tornado auslösen könne. Mathematischer Hintergrund war die Erkenntnis, dass in nichtlinearen Systemen eine geringfügige Änderung der Anfangsbedingungen die Lösung dramatisch beeinflussen kann.

So, wie der Flügelschlag eines Schmetterlings nach einer Metapher einen Tornado auslösen kann, so empfindlich können auch Analysen auf geringfügige - auch unbeabsichtigte - Manipulationen in Datenbeständen reagieren.
Foto: kaisaya - shutterstock.com

Im Hinblick darauf, dass die moderne Softwaretechnik uns in die Lage versetzt, durch algorithmische Auswertung von großen Datenbeständen Entscheidungen zu treffen, die von Menschen nicht mehr oder zumindest nicht in "Echtzeit" nachvollzogen werden können, stellt sich die Frage, welchen Einfluss die Qualität von Daten auf die Qualität der Entscheidung hat. Befindet sich der Entscheidungsalgorithmus in einem Bereich, in dem eine Unschärfe der Eingangsdaten nur eine geringe Veränderung des Ergebnisses oder gar eine Unempfindlichkeit gegenüber Variationen zur Folge hat, oder kommt es zum sprichwörtlichen Tornado durch einen winzigen Flügelschlag?

Daten sind nicht sauber erfasst

Die Situation ist mit der des bekannten Höhlengleichnisses von Platon vergleichbar, bei dem die Höhlenbewohner die Schatten, das heißt die Projektionen auf der Höhlenwand wahrnehmen und die um mehrere Dimensionen verkleinerte Projektion für die Realität halten. Wir laufen Gefahr, dass wir mit unseren Datensammlungen dem gleichen Irrtum wie die Höhlenbewohner unterliegen und glauben, die Wirklichkeit vollständig abzubilden, nur weil sehr viele Daten über sie gesammelt wurden. Wobei wir doch seit Hamlet wissen, dass es mehr "Ding' im Himmel und auf Erden gibt, als unsere" Datenbanken sich erträumen.

Die Qualität der gesammelten Daten ist in vielerlei Hinsicht nicht sauber erfasst. Bei vielen Datensammlungen werden im Laufe ihres Lebenszyklus Felder weggelassen oder ergänzt, weil sie als fehlend erkannt wurden. Unter Umständen werden Erhebungsverfahren, Messverfahren oder Algorithmen, mit denen aus Messgrößen weitere Größen abgeleitet werden, verändert, ohne dass dies in den Daten deutlich dokumentiert wird.
Beliebt ist auch, Randbedingungen, Grenzen der Gültigkeit von Zahlen nicht mit zu erfassen und sich daher der Möglichkeit zu berauben, festzustellen, wenn die Messwerte fragwürdig oder ungültig werden, weil sie außerhalb des Gültigkeitsbereiches der Algorithmen oder des Messbereiches liegen. Das führt zur zumindest partiellen Inkonsistenz der Datensammlungen, das heißt zu einer unscharfen Projektion der Realität. In der Regel wird bei Datenbanken aus Kostengründen auf automatische oder manuelle Plausibilitätsprüfungen verzichtet.

PwC Studie "Big Decisions"
PWC-Studie: Global Data and Analytics Survey 2016: Big Decisions
Für seine Analytics-Studie befragte PwC weltweit mehr als 2000 Manager aus unterschiedlichen Funktionsbereichen.
Entscheidungsträger aus deutschen Unternehmen
Rund 170 Manager aus deutschen Unternehmen nahmen an der PwC-Studie teil.
Strategische Entscheidungen
Die meisten strategischen Entscheidungen drehen sich um neue Produkte, neue Märkte oder IT-Investitionen.
Was erschwert Entscheidungen?
Daten sind das geringste Problem, wenn es um strategische Entscheidungen geht.
Disruption
Deutsche Unternehmen erwarten im internationalen Vergleich weniger disruptive Veränderungen in ihrer Branche.
Umsatz vor Kosten
Die meisten strategischen Entscheidungen wirken sich auf den Umsatz der Unternehmen aus.
Mitarbeiter vor Kunden
Deutsche Unternehmen erwarten von ihren strategischen Entscheidungen mehr Auswirkungen auf die Mitarbeiter als auf die Kunden.
Advanced Analytics
Im internationalen Vergleich nutzen deutsche Unternehmen mehr fortgeschrittene Analytics-Methoden.
Bekannte und unbekannte Risiken
Ein bedeutender Teil der Risiken im Kontext strategischer Entscheidungen gilt als unbekannt oder unsicher.

Jedes Datum sollte auch ein Entstehungs- und ein Löschdatum besitzen. Gerade bei der Berücksichtigung der Lebensdauer von Daten sieht es ganz besonders schlecht in Datensammlungen aus, da kein Datensammler die mühsam gesammelten Daten gerne wieder löscht. Dies führt dazu, dass die Validität von Daten teilweise fragwürdig ist, dies dem Nutzer aber in der Regel verborgen bleibt.

Der Fall des Spaniers, der 2010 seinen Hausbaukredit nicht erhielt, da bei Google sein Name im Zusammenhang mit einer gepfändeten Immobilie erschien und er dagegen klagte, zeigt, dass einerseits falsche Daten dramatische Konsequenzen haben können. Herr Kurnaz kann auch darüber berichten, wie er zu einem Freiflug nach Guantanamo gekommen ist - und andererseits die fehlende Zwangslöschung, auch von wahren Daten, zu einer erheblichen Beeinträchtigung privaten Lebens führen kann.

Das "Recht vergessen zu werden" wird trotz der Rechtsprechung durch den EuGH noch heftig diskutiert. Eine gesetzlich definierte Lebensdauer zumindest von personenbezogenen Daten ist im Sinne datentechnischer Hygiene zu begrüßen, wenngleich fraglich ist, wie diese im Netz vollständig realisiert werden kann.

Algorithmen, glaubhaft oder nicht

Der Physiker wendet die Methode der Fehlerfortpflanzung an, um die Auswirkung von Ungenauigkeiten der Messgrößen auf die berechnete Zielgröße abzuschätzen. Für Algorithmen in Data Warehouses oder BI-Systemen gibt es diese Abschätzungen allerdings nicht. Dem Benutzer eines Algorithmus oder einer Datensammlung wird die Unschärfe seiner Recherche nicht deutlich gemacht. Siri macht keine Angaben darüber, mit welchem Grad an Exaktheit die gegebene Antwort zustande gekommen ist. Wohl dem, dessen Allgemeinbildung ihm gestattet, die Plausibilität von Siris Aussagen zu überprüfen.

Modernes Datenmanagement für Analytics
Daten werden wichtiger
In fast drei Viertel aller Unternehmen basieren Entscheidungen heute schon auf Basis von Daten und Analysen.
Höhere Erwartungen
Die Erwartungen im Management und in den Fachabteilungen wachsen. Das sind die wesentlichen Treiber für die Veränderungen im Bereich Business Analytics.
Data Warehouse kommt nicht mit
Fast die Hälfte der Befragten moniert, dass sich die neuen Anforderungen in Sachen Analytics mit dem klassischen Data Warehouse nicht schnell genug umsetzen lassen.
Data Warehouse verändert sich
Angesichts der neuen Analytics-Anforderungen planen fast alle Unternehmen Veränderungen in ihrem Data Warehouse.
Weiter Weg zum passenden Datenmanagement
Die Integration heterogener Datenquellen und die Befähigung der Fachbereiche, selbständig Daten auszuwerten, sind die wichtigsten Themen im Datenmanagement. Aber es gibt noch einiges zu tun, bis das richtig umgesetzt ist.
Data Lakes und Sandboxes im Kommen
Während Data Marts und das zentrale Enterprise Data Warehouse gesetzt sind, richten sich die künftige Pläne mehr auf Data Lakes und Sandboxes - wohl um besser mit Daten experimenteiren zu können.
Vorhersagetechnik gefragt
Unternehmen werden in den nächsten Monaten und Jahren ihr Hauptaugenmerk vor allem auf Techniken für Predictive Analytics, Big Data und Hadoop richten.
Self-Service-BI für die Fachbereiche
Nur jedes 20. Unternehmen verbietet Self-Service-BI-Werkzeuge. Die Hälfte der Befragten gestattet den direkten Zugriff auf die operativen BI-Systeme.
Vorhersagen für bessere Geschäfte
Mit Predictive Abnalytics wollen die Unternehmen in erster Linie ihr Geschäft optimieren und ihre Kunden besser verstehen.
Finanzabteilung braucht Realtime-Analysen
Realtime-Analysen sind vor allem in der Finanzabteilung gefragt, aber auch in der Interaktion mit Kunden, um deren Verhalten rechtzeitig zu erkennen und schnell Maßnahmen einleiten zu können.
Hindernisse
Fehlende Ressourcen und die mangelnde Bereitschaft für Veränderungen sind dir größten Hemmnisse, eine neue Datenmanagement-Strategie im Unternehmen auf den Weg zu bringen.
Fachbereiche übernehmen BI-Verantwortung
Nach wie vor hat in Sachen BI meist die IT den Hut auf. Aber immerhin ist in fast jedem fünften Unternehmen BI organisatorisch in der Fachabteilung verankert.

Wissenschaftler und Manager träumen davon, dass uns armen, vom täglichen Entscheidungsnotstand überforderten Menschen, Entscheidungen von Automaten abgenommen werden. Dabei ist der Mensch durch seine Evolution doch gerade bei den Entscheidungen auf der Basis unsicherer Daten außerordentlich effektiv. Wollen wir das Entscheiden Automaten überlassen, nur um Schuld für Fehlentscheidungen an eine Maschine delegieren zu können? Sollten wir nicht lieber dafür sorgen, dass hochgradige Risiken durch unkalkulierbares Management entsorgt werden?

Es sieht so aus, dass einige große Datensammler ein nicht kontrollierbares Monstrum heranziehen: keiner weiß, wo die Daten herkommen, wie genau, richtig oder legal sie sind. Aber die Tatsache, dass sie existieren, wird hinlänglich als Beweis dafür verstanden werden, dass sie "so falsch nicht sein können". Wenn dann der Einfachheit halber noch automatische Entscheidungen getroffen werden, dann gnade uns Gott.