Data Management und Data Quality

Ein Hürdenlauf im Datendschungel

04.12.2019 von Iris Lindner

Effektives Datenmanagement soll unter anderem einen schnellen Zugriff auf die Daten sowie eine effiziente Verwaltung großer Datenmengen erlauben. Doch so wünschenswert wie der Nutzen ist auch die Fähigkeit, Daten aus Data Lakes, Silos und Multi-Cloud-Umgebungen in einer dafür notwendigen gemeinsamen Basis vereinen zu können.

Zweifelsfrei hat sich die DSGVO im vergangenen Jahr auf das Datenmanagement ausgewirkt. Konzeptionell war es vor ihrer Einführung relativ einfach, die betrachtungsrelevanten Daten zu verarbeiten und den Forderungen aus den Fachbereichen aufzubereiten. Mittlerweile muss man sich aber weitergehende Gedanken darüber machen, um welche Daten genau es sich dabei handelt und was mit diesen passiert. Gerade die DSGVO-relevanten Daten erfordern ein Konzept, das vorgibt, wie mit den Daten zu einem bestimmten Zeitpunkt umzugehen ist.

Die eingeladenen Experten diskutierten angeregt und kontrovers beim IDG Roundtable zum Thema Data Management.
Foto: Michaela Handrek-Rehle

Informationen zu den Partner-Paketen der Data Management & Data Quality Studie

Nicht nur konzeptionell muss man dem Datenschutz in einem Projekt schon relativ früh begegnen. Auch bei der Applikationsentwicklung müssen Funktionen bereitgestellt werden, um Daten später gezielt löschen zu können. Und als wäre das nicht schon Herausforderung genug, kommt mit der Art und Weise der Datenhaltung noch eine Portion Komplexität hinzu. Ob zentral in einem Data Warehouse oder einem Data Lake, verteilt in Silos, On-Premise oder in der Cloud - die verschiedenen Möglichkeiten bringen sowohl Vor- als auch Nachteile mit sich.

Zu viele Töpfe erschweren die Nutzung

Datensilos sind aus guten Gründen entstanden: Unternehmen haben beispielsweise für Logistik, Vertrieb und Einkauf ein System ausgewählt, das sie dabei unterstützt, schneller und effizienter zu werden. Im besten Fall waren die Systeme noch personalisiert, weil jeder Kunde individuell ist. Eine Diese gewachsenen Strukturen zu harmonisieren beziehungsweise zu standardisieren ist nicht nur extrem komplex, sondern auch ein Moving Target, das niemals vollständig erreicht wird. Der Grund dafür: Mobile Anwendungen und Web-Applikationen hinzuzufügen, die am besten noch in der Cloud laufen, erzeugt derzeit wieder neue Datentöpfe.

Die containerisierte Anwendung ist nicht das eigentliche Problem. Die Daten allerdings aus der Datenbank des Cloud-Anbieters zu bekommen ist ein enormer, kostspieliger und langwieriger Aufwand. Wie lässt sich dann ein spezieller Service aus einer Cloud nutzen, wenn die Daten in einer anderen Cloud liegen? Dafür bräuchte es ein Datenmanagement, das selbst verteilt ist und mit einer hybriden Umgebung umgehen kann, um hier nicht weitere Disparitäten zu schaffen.

Computerwoche Roundtable Data Management 2019

Daniel Eiduzzis, DXC Technology
„Hinter der derzeitigen Entwicklung von Data Governance Offices steckt ein spannender Prozess, der mehrere Übungen vereint: Betriebswirtschaftliche und technische Kompetenzen schaffen gemeinsam einen Ordnungsrahmen für ein nachhaltiges Informationsmanagement. Ein solches Competence Center stellt geeignete Werkzeuge zur Überwachung und Steuerung zuvor definierter Compliance-Anforderungen bereit. Data Owner zeichnen für die Harmonisierung und Konsolidierung der unternehmensweit genutzten Key-Performance-Indikatoren (KPI) verantwortlich. Data Scientists helfen bei der technisch anspruchsvollen Aufbereitung und Analyse der betrachtungsrelevanten Data Sets.“

Marcus Flohr, Delphix
„Ein wichtiger Punkt, der in dem Multi-Cloud-Konzept berücksichtigt werden muss, ist, wie man die Daten in die Cloud bekommt, und das so intelligent, dass man für eine 10-TB-Produktivdatenbank nicht auch noch eine weitere 10-TB-Datenbank in der Cloud für ein Testsystem vorhalten muss. Die Bereitstellung von Rechenkapazitäten in der Cloud ist sofort gegeben. Das ist automatisiert, man kann CPUs, Memories et cetera dazu buchen. Doch wie baut man die verschiedenen Datenkonstrukte intelligent und ohne großen Zeitverlust zusammen?“

Edmund Heider, IDG
„Wenn wir heute über Datenstrategie reden, denken wir noch nicht daran, was vielleicht in fünf oder zehn Jahren an Möglichkeiten existieren mag. Es ist deshalb nicht nur extrem schwierig, eine Datenstrategie zu entwickeln, sondern auch, die zahlreichen Daten zu verwenden, die erhoben wurden, als es noch keine Strategie gab. Selbst wir als Endnutzer werden mit Daten überschüttet. Wer schaut denn noch auf das Thermometer, wenn man die Temperatur auch auf dem Smartphone ablesen kann? Oder man fährt im Zug und bekommt automatisch die Meldung ,Verspätung‘ oder bei Flugreisen die Nachricht ,Gate geändert‘. Wollen wir, dass so viele Daten auf uns einströmen? Irgendwann wird der Overflow dazu führen, dass es die Leute nicht mehr interessiert, ob ihr Paket im Logistikzentrum Leipzig gerade verarbeitet wird oder nicht.“

Karsten Stöhr, DataStax
„Bei der Datenstrategie gibt es langfristige Trends, die sich auch nicht mehr umkehren werden. Dazu gehört, dass Daten immer verfügbar sein müssen. Auch, dass man eine Lösung sofort skalieren kann, um den Kunden einen Service schnell bieten zu können. Eine Datenstrategie berücksichtigt auch, dass sich die Kunden auf der ganzen Welt bewegen und den Service jederzeit und überall konsumieren wollen. Von daher darf man den Blick nicht nur nach innen richten, sondern muss bei der Skalierung auch den Kunden die ganze Zeit im Blick haben. Und das ist eine Herausforderung des heutigen Datenmanagements.“

Günter Wassner, Teradata
„Künftig wird bei einer Lieferverzögerung nicht mehr der Logistikleiter die Entscheidung treffen, ob der Kunde durch Mehrkosten seine Lieferung doch noch erhält, sondern ein Kunden-Scoring, basierend auf einem Algorithmus. Eine Datenstrategie ist da absolut notwendig. Denn wenn diese Entscheidung auf falschen Daten getroffen wird, hat das einen enormen Effekt. Dieses Szenario, in dem hinter einer Entscheidung eine Maschine steht, ist schon heute durchaus Realität – ein Szenario, das die Menschen, die diese Maschinen programmieren, verantwortungsvoll gestalten müssen.“

Georg Wesinger, Celonis
„Transparenz der Daten zu schaffen, um zu erkennen, wie Prozesse tatsächlich ablaufen, ist der erste wichtige Schritt zur Steigerung der Effizienz in allen Unternehmensbereichen. Die größte Herausforderung besteht allerdings in der Umsetzung, die erst durch eine automatisierte Operationalisierung erreicht wird. Idealerweise haben alle Mitarbeiter kontinuierlich die „next best action“ im Blick und können diese konsequent umsetzen. Nachhaltige Optimierung wird angetrieben durch die Frage: ‚Was muss ich als Nächstes tun, um meinem Ziel, zum Beispiel einer Reduzierung der Durchlaufzeit, näherzukommen?‘ In der Theorie klingt das ganz einfach, aber in der Praxis scheitern die meisten Unternehmen daran, dass sie keine guten Einsichten und Handlungsempfehlungen aus den Daten bekommen, die durch einen Roboter analysiert und bereitgestellt werden.“

Multi-Cloud- und hybride Umgebungen in der Datenhaltung gibt es bereits. Wie gut das Datenmanagement damit funktioniert, hängt davon ab, ob diese Möglichkeit der Datenhaltung von vornherein bedacht wurde. Häufig ist Datenmanagement eine zweitrangige Überlegung, der erste Blick fällt meist auf die Anwendungen. Und deshalb werden an dieser Stelle die gleichen Fehler gemacht wie früher, nur entstehen die Datensilos heute in der Cloud. Für den 360-Grad-Blick auf die Kundendaten braucht es aber eine gemeinsame Basis.

Auch wenn Flexibilität, Schnelligkeit, Performance und Skalierbarkeit die Argumente der Silos sind, so wird Data Governance bei ihnen zum Problem. Natürlich ist ein zentraler Ansatz bei der Entwicklung einer Architektur hier eine Herausforderung, aber man sollte sich dabei nicht von Einschränkungen der Technologie leiten lassen, sondern von den Business-Anforderungen.

Für die Datenhaltung war "Single Point of Truth" eines der Konzepte, das in den zurückliegenden Jahren immer wieder diskutiert wurde. Diesem Konzept haben Data Lakes aktuell den Rang abgelaufen. Das bedeutet aber weder, dass alle Daten zentral in einer Datenbank gesammelt werden, noch dass hier bereits Silos aufgebrochen wurden. Ein neuer Trend in der Datenhaltung ist, die Daten dort zu lassen, wo sie entstehen, und sie für die Anwendung mit virtuellen Werkzeugen abzugreifen.

Transparenz innerhalb eines Clicks

Egal mit welcher Methode die Daten optimal organisiert wurden, entscheidend ist, daraus die richtigen Rückschlüsse zu ziehen. Um Daten gewinnbringend zu interpretieren braucht es eine durchgängige Sicht, Transparenz, und ein analytisches Managementsystem, in dem die Daten zusammengebracht werden müssen. Die für die Analysen notwendige Historie in einem operativen Managementsystem im Nachgang aufzubauen ist nicht möglich, da das System dafür wiederum mehr Daten benötigen würde. Aber genau der operative Bereich ist die Herausforderung, in dem die Schnelligkeit über Erfolg oder Misserfolg der Anwendung entscheidet.

Informationen zu den Partner-Paketen der Data Management & Data Quality Studie

Ein Beispiel aus dem Bereich Banking: Sämtliche Kundendaten sind auf lokalen Systemen gespeichert, Mobile-Pay-Anwendungen laufen aber in der Cloud. Führt der Kunde auf seinem Smartphone eine Transaktion aus, müssen sich die Daten aus der Cloud mit den lokal gespeicherten Informationen synchronisieren - und zwar innerhalb eines Clicks. Funktioniert das nicht wie erwartet, wird der Kunde ungeduldig und am Ende vielleicht noch verärgert.

Ähnlich ist es mit Produktvorschlägen bei eBay oder Amazon: Die Intelligenz des Systems ist im mobilen Frontend sichtbar, doch eigentlich steckt sie in einem zentralen System. In der Skalierung liegt einer der Knackpunkte im Datenmanagement: Jeder der mehreren Millionen Kunden soll diesen Service konsumieren können. Deswegen braucht es die Kombination aus analytischen und operativen Managementsystem. Und damit wird die Messelatte extrem hoch auf die Technologie gelegt, die in der Lage ist, dies zu leisten.

Eine Strategie hilft beim Navigieren

Technologie allein führt jedoch nicht zum Erfolg. Auch die Evolution der Unternehmen geht weiter: Zu den bereits bestehenden BI Competence Centern (BI = Business Intelligence) gesellen sich nun Kompetenz-Center hinzu, die für Data Quality, Datamanagement und Data Governance verantwortlich zeichnen. Die sind deshalb notwendig, weil die Schwierigkeit längst nicht mehr darin liegt, Daten zu sammeln, bereitzustellen und verfügbar zu machen. Es gilt, durch diesen Dschungel zu navigieren und dort auch Verantwortlichkeiten zu schaffen.

Auf der Suche nach dem Data Owner können auch auf fachlicher Ebene Konflikte entstehen, für die die Unternehmen häufig noch nicht sensibilisiert sind. Die Menschen im Business zur korrekten Arbeit mit Daten zu befähigen ist ein Weg, Data Management intern voranzutreiben. Voraussetzung dafür ist aber, dass dies einfach zu konsumieren, zu verstehen und vor allem schnell ist.

Zusätzlich ist noch etwas anderes für den Erfolg durch Daten unverzichtbar: eine Datenstrategie. Getrieben von der Fachabteilung und unterstützt von der Geschäftsleitung stellt diese sicher, dass immer eine Verbindung zu der Aufgabe besteht, die gelöst werden soll. Auch mehrere Datenstrategien aus verschiedenen Abteilungen sind möglich, solange sie zum Gesamtziel des Unternehmens beitragen. Wenn zum Beispiel das Unternehmensziel lautet, den Umsatz zu verdoppeln, kann die Datenstrategie eines vertrieblich organisierten Fachbereichs lauten, gezielt aus einer Customer Experience lernen zu wollen, um dann den Kunden einen besseren Service bieten zu können. Dazu muss man die Fachabteilungen aber in die Lage versetzen, ihre Anwendung zeitnah aufzubauen, die richtigen Daten schnell zu bekommen und einfach darauf zugreifen zu können. Dabei darf es nicht die Aufgabe der Fachabteilung sein, sich auch um die Verwaltung der Daten sowie um die Security dahinter kümmern zu müssen.

Nicht zuletzt definiert eine Datenstrategie auch, welchen Wert die Daten haben. In welchen Algorithmen wird beispielsweise ein Geburtsdatum genutzt? Soll die Information verwendet werden, um in verschiedenen Algorithmen das Alter hochwertiger zu bestimmen, oder möchte man sie für eine Kampagne mit Geburtstagsgutscheinen nutzen? Da sich eine Strategie aus dem Blinkwinkel des "Value of Information" permanent ändern kann, stellt sich auch die Frage nach der Halbwertszeit einer Datenstrategie. Zu wissen, dass die jetzt definierte Datenstrategie in einem relativ greifbaren Zeitraum veraltet sein wird, auch weil zwischenzeitlich neue Datenquellen oder neue technologische Möglichkeiten entstehen, bringt ein gewisses Frustpotenzial mit sich. Daher kann ein Punkt der Strategie auch sein, die Daten einfach zu sammeln und für eventuelle spätere Analysen zu speichern.

Dass Security beim Datenmanagement nicht als Treiber gilt, liegt unter anderem daran, dass der Cloud mittlerweile Vertrauen entgegengebracht wird - nicht nur weil die Vorteile in den unterschiedlichen Services überwiegen, sondern weil in den Augen der Nutzer auch noch nichts Schlimmes passiert ist. Hinzu kommt, dass ein mittelständisches Unternehmen nur sehr schwer so viel für Sicherheit investieren kann wie ein Cloud-Anbieter. Und das wird wohl auch so bleiben.

Informationen zu den Partner-Paketen der Data Management & Data Quality Studie