Daten-Pipelines automatisieren

5 Wege zum Dataops-Glück

09.01.2024 von Isaac Sacolick
Viele Dataops-Teams haben Mühe, mit den steigenden Anforderungen an die Datenqualität Schritt zu halten. Künstliche Intelligenz respektive Machine Learning kann helfen.
(Generative) KI und Machine Learning können auch den Alltag von Dataops-Teams bereichern.
Foto: ArtemisDiana - shutterstock.com

Data Wrangling, Dataops, Data Prep, Data Integration - wie auch immer Ihr Unternehmen den Vorgang, Daten zu integrieren und zu bereinigen, nennt - er ist arbeitsintensiv. Entsprechend tauchen in vielen Unternehmen Schwierigkeiten auf, wenn es darum geht:

Dataops ist zwar keine neue Herausforderung, gewinnt jedoch zunehmend an Bedeutung. Immer mehr Firmen streben danach, datengetrieben zu operieren und mit Analytics Wettbewerbsvorteile zu erschließen. Diejenigen, die sich dabei als Pioniere hervortun, weiten Dataops auch auf unstrukturierte Datenquellen aus, um KI-Suchfunktionen zu etablieren und ihre Daten für die Verwendung mit Large Language Models (LLMs; auch große Sprachmodelle) vorzubereiten.

Die Herausforderungen, die sich aus dieser Entwicklung für Dataops-Teams ergeben, lauten:

Die gute Nachricht: Um Daten-Pipelines zu automatisieren, stehen qualitativ immer bessere Tools zur Verfügung - vor allem im Bereich künstliche Intelligenz (KI) respektive Machine Learning (ML). Mit ihrer Hilfe lässt sich die Datenverarbeitung von manuellen und regelbasierten Ansätzen in Richtung intelligente Automatisierung treiben. Im Gespräch mit Experten haben wir fünf Bereiche identifiziert, die Dataops-Teams mit Hilfe von KI und ML effizienter gestalten können.

1. Datenvorbereitung reduzieren

"Fortschrittliche KI- und ML-Funktionen ermöglichen einen Paradigmenwechsel bei der Datenintegration, -transformation und -beobachtung", konstatiert Will Freiberg, CEO beim Managed-Service-Anbieter Crux. "Mit Hilfe automatisierter Lösungen können Dataops-Teams künftig 70 Prozent ihrer Zeit, für High-Level-Analysen verwenden, statt sie mit Datenvorbereitung zu vergeuden", ergänzt er.

Um zu ermitteln, welchen Stellenwert manuelle Aufgaben innerhalb des Dataops-Teams einnehmen, empfiehlt der Manager den Betroffenen, sich zwei Fragen zu stellen:

Sind manuelle Verarbeitungsschritte erforderlich, um die Daten-Pipelines zu unterstützen, sollten Dataops-Teams nach Meinung von Freiberg die Gelegenheit nutzen, um die Zykluszeiten für neue Datenquellen und die Recovery-Zeiten nach Daten-Pipeline-Problemen zu optimieren: "Sobald Datenteams Standards für die Datenqualität definieren und diese in die KI einfließen lassen, kann die Technologie schematische Änderungen und Anomalien erkennen, wenn externe Datensätze eingebunden und gemanagt werden. Das verhindert kaputte Daten-Pipelines und die Notwendigkeit, manuell eingreifen zu müssen."

2. Observability und Monitoring skalieren

Defekte Daten-Pipelines sind das Resultat, wenn auf Monitoring, Alerts und Automatisierung verzichtet wird. Um Probleme möglichst schnell zu erkennen und zu beheben, empfehlen sich aktive Abhilfemaßnahmen in Form von Data-Observability-Tools und Dataops-Best-Practices, die dabei unterstützen Datenintegrations-Ereignisse zu loggen und Daten-Pipelines zu überwachen.

"Probleme manuell aufzuspüren und zu beheben ist angesichts der Datenmengen, mit denen die Unternehmen heute umgehen müssen, zeitaufwändig", meint Emily Washington, Senior Vice President of Product Management bei Precisely. Sie gibt Daten-Spezialisten einen Tipp an die Hand, um die Datenqualität effektiv sicherzustellen: "Validieren Sie die Daten, sobald sie in das Ökosystem des Unternehmens gelangen. Continuous Monitoring gewährleisten Sie, indem Sie Data Observability im Rahmen einer übergreifenden Datenintegritätsstrategie einführen."

Data Observability zielt darauf ab, konsistente und zuverlässige Daten-Pipelines für Decision Making, Dashboards und Machine-Learning-Modelle bereitzustellen. Für Dataops ist es zudem eine Möglichkeit, Service-Level-Ziele (SLOs) zu managen - ein Prinzip, das mit Site Reliability Engineering eingeführt wurde und auch für Daten-Pipelines gilt. Produktmanagement-Expertin Washington bringt die Vorzüge auf den Punkt: "In der Konsequenz führt Data Observability zu gesünderen Daten-Pipelines, produktiveren Teams und zufriedeneren Kunden."

Sollten sich Dataops-Funktionen mit Blick auf die Zukunft auch bei Generative AI durchsetzen, könnte das ermöglichen, Data Observability in großem Maßstab zu skalieren. Zum Beispiel indem:

3. Datenanalyse und-klassifizierung verbessern

Dataops-Teams können KI und ML auch dazu nutzen, Daten zu analysieren und zu klassifizieren, während sie durch die Daten-Pipelines fließen. Hillary Ashton, Chief Product Officer bei Teradata, weiß um die Vorzüge dieses Ansatzes: "KI-gesteuerte Datenerfassung verbessert die Qualität der Daten, die in das System einfließen, indem sie frühzeitig Anomalien erkennt, die Relevanz bewertet und Daten abgleicht. ML-Modelle können genutzt werden, um verborgene Muster in Daten zu identifizieren, zu bereinigen und zu harmonisieren und um sensible Daten zu klassifizieren und so eine angemessene Governance zu gewährleisten."

Zu den grundlegenden Klassifizierungen gehört dabei, persönliche Informationen und andere sensiblen Daten als solche zu kennzeichnen. Sobald diese identifiziert sind, können Data-Governance-Teams Automatisierungsregeln definieren, um die Quelle neu zu klassifizieren und andere Geschäftsregeln auszulösen. Ashton ist davon überzeugt, dass generative KI künftig deutlich leistungsfähigere Datenqualitäts- und Governance-Tools hervorbringen wird.

Ein weiterer Compliance-Anwendungsfall: die IT-Sicherheit. Laut Tyler Johnson, Mitbegründer und CTO beim Automatisierungsspezialisten PrivOps, ist Identity und Access Management (IAM) ein weiterer Bereich, in dem Dataops in Kombination mit KI und ML einen Mehrwert schaffen kann: "Automatisierung kann etwa das Risiko minimieren, dass böswillige Akteure veraltete Berechtigungen nutzen, um in das Unternehmen einzudringen. Erweiterte Datenpipeline-Workflows, um Zugriffsprotokolldaten mit KI zu aggregieren und zu integrieren, kann externe und interne Sicherheitsbedrohungen minimieren. Die KI identifiziert verdächtige Zugriffsmuster und alarmiert in diesem Fall das Security Operations Center."

4. Schneller Zugriff auf bereinigte Daten

Sensible Informationen und andere Anomalien innerhalb eines Datenstroms zu identifizieren, ist ein grundlegender Anwendungsfall der Data Governance. Ein schnellerer Zugriff auf bereinigte Daten steht allerdings im Interesse der Business Teams: Ein Haupt-Anwendungsfall in den Bereichen Sales, Marketing und Kundendienst ist es, Kundendatensätze in Echtzeit zu aktualisieren - ein Ansatz, um diese Daten zu zentralisieren, ist dabei, sie in eine Customer-Data-Plattform (CDP) zu streamen.

Karl Wirth, Chief Product and Technology Officer bei Treasure Data, weiß, worauf es dabei ankommt: "Der Einsatz der richtigen Tools, um Datenqualitätsprobleme im gesamten Verarbeitungsprozess zu erkennen und zu beheben, ist von entscheidender Bedeutung. Das beginnt damit, automatisierte, explorative Datenanalysen, Datenbereinigungen sowie den Einsatz deterministischer und probabilistischer Tools zum Abgleich von Benutzer-IDs während der Datenaufnahme zu planen."

Ein weiterer Ansatz, um Kundendaten zu managen, ist das Stammdatenmanagement (auch Master Data Management; MDM). Dabei definiert Dataops die Regeln, um primäre Kundendatensätze und -felder aus mehreren Datenquellen zu identifizieren.

Laut Manish Sood, Gründer und CEO des MDM-Anbieters Reltio, kann maschinelles Lernen auch an dieser Stelle unterstützen: "Moderne Ansätze nutzen Automatisierung und ML-basierte Techniken, um Daten aus verschiedenen Quellen schnell zu vereinheitlichen, und übersteigen den begrenzten Umfang traditioneller MDM-Systeme."

Dabei reduziert die Technologie auch die Zahl und Komplexität der Geschäftsregeln in MDM-Systemen, wie David Cox, Outbound Product Manager beim Datenmanagement-Anbieter Semarchy, erklärt: "Automatisierung wird seit langem im Bereich Dataops eingesetzt, um das Stammdatenmanagement und insbesondere die Datenqualität zu optimieren. Beispielsweise, indem Regeln für Metadaten festgeschrieben werden." Künstliche Intelligenz könne dazu beitragen, die Datenqualität in großem Umfang zu automatisieren, da eine unendliche Anzahl von Regeln erforderlich sein kann, wenn es darum geht, die Qualität großer, schneller und komplexer Datensätze zu kontrollieren, so Cox.

5. Datenbereinigung optimieren

Dataops-Teams haben mit KI und ML die Möglichkeit, ihr Hauptaugenmerk von der Datenbereinigung und Pipeline-Reparatur darauf zu verlagern, Mehrwertdienste bereitzustellen - zum Beispiel im Bereich Data Enrichment.

"Weil die Menge und Komplexität der Daten zunimmt, ist es nicht mehr skalierbar, Regeln für die Datenqualität manuell festzulegen. KI und ML bieten einen vielversprechenden Ansatz, um dieses Problem zu bewältigen", ist Satish Jayanthi, Mitbegründer und CTO des Automatisierungsanbieters Coalesce, überzeugt. Er fügt hinzu: "Diese Technologien können fehlerhafte Daten durch Automatisierung effizient identifizieren und berichtigen und so die negativen Folgen abmildern."

Ashwin Rajeeva, Mitbegründer und CTO von Acceldata, hat einige Beispiele dafür auf Lager, wie Machine Learning eine kontinuierliche Verbesserung der Datenqualität ermöglicht: "Das Gelernte kann angewendet werden, um Fehler zu korrigieren, fehlende Daten zu ergänzen, Beschriftungen hinzuzufügen, eine intelligente Kategorisierung durchzuführen und Daten zu deduplizieren."

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.