Data Management

"Recht auf Vergessen" im Unternehmen nutzen

11.04.2016 von Hartwig Laute

Trends wie Big Data und Mobility lassen Datenmengen anwachsen. Aber welche Daten braucht man wirklich? Welche verursachen nur Arbeit oder bergen Risiken?

EU-Bürger können seit Mai 2014 einen Löschantrag für Suchmaschineneinträge, die nicht in Verbindung mit ihrem Namen auftauchen sollen, an Google und andere Suchmaschinenbetreiber stellen. Und Internetnutzer machen von dem sogenannten „Recht auf Vergessen" rege Gebrauch. Pro Minute erhält der Suchmaschinengigant 1500 Löschanträge. Inzwischen hat Google laut eigenen Angaben in seinem Transparenz-Bericht Löschanträge für mehr als 1,3 Millionen URLs überprüft. Von diesen wurden 42,5 Prozent auch tatsächlich ausgeblendet. Dennoch streiten sich die verschiedenen europäischen Datenschutzbehörden und Google, ob die betroffenen Suchergebnisse nur in der jeweiligen Landesversion, innerhalb Europas oder weltweit ausgeblendet werden müssen. Google hat nun Zugeständnisse angekündigt.

Die öffentlichen Diskussionen zeigen, dass sowohl bei Privatpersonen als auch in Unternehmen ein Bewusstsein für Datensensibilität entstanden ist. Längst geht es nicht mehr nur um die sichere Aufbewahrung von Daten, sondern auch um deren Löschung, wenn sie nicht mehr gebraucht werden.

Verzehnfachung der Datenmenge bis 2020

Die Menge an elektronisch gespeicherten Daten soll sich laut einer Studie des Marktforschungsinstituts IDC bis 2020 weltweit verzehnfachen. Um bei der stetig wachsenden Menge an Daten nicht in unstrukturierten Informationen zu ertrinken, ist eine effektive Informationsverwaltung mehr denn je gefragt. Auch angesichts Megatrends wie Big Data und Compliance wird der Datenbewältigung in Unternehmen ein immer höherer Stellenwert beigemessen.

Big-Data-Glossar

Die Begriffe rund um Big Data
Big Data - was ist das eigentlich? Jeder spricht drüber, jeder versteht etwas anderes darunter. Klicken Sie sich durch unser Glossar mit den wichtigsten und meistgenutzten Begriffen (manche sagen auch "Buzzwords") und verstehen Sie, was damit genau gemeint ist. <br /><br /> <em>zusammengestellt von <a href="http://www.kommunikation-in-sendling.com/" target="_blank">Kriemhilde Klippstätter</a>, freie Autorin und Coach (SE) in München</em>

Ad Targeting
Der Versuch, die Aufmerksamkeit des potenziellen Kunden zu gewinnen, meist durch "passgenaue" Werbung.

Algorithmus
Eine in Software gegossene mathematische Formel mit der ein Datensatz analysiert wird.

Analytics
Mit Hilfe von Software-basierenden Algorithmen und statistischen Methoden werden Daten interpretiert. Dazu benötigt man eine analytische Plattform, die aus Software oder Software plus Hardware besteht und die die Werkzeuge und Rechenpower bereitstellt, um unterschiedliche analytische Abfragen durchführen zu können. Es gibt eine Reihe unterschiedlicher Formen und Einsatzzwecke, die in diesem Glossar näher beschrieben sind.

Automatic Identification and Capture (AIDC)
Jede Methode der automatischen Identifizierung und Datensammlung über eine Gegebenheit und die nachfolgende Speicherung in ein Computersystem. Etwa die Informationen aus einem RFID-Chip, die ein Scanner ausliest.

Behavioral Analytics
Behavioral Analytics nutzt Informationen über das menschliche Verhalten, um die Absichten zu verstehen und zukünftiges Verhalten vorhersehen zu können.

Business Intelligence (BI)
Der generelle Ausdruck für die Identifizierung, Herkunft und Analyse der Daten.

Call Detail Record (CDR) Analyse
Diese enthält Daten, die die Telekommunikationsunternehmen über die Nutzung von Mobilfunkgesprächen – etwa Zeitpunkt und Dauer der Gespräche – sammeln.

Cassandra
Ein verteiltes Datenbank-Verwaltungssystem für sehr große strukturierte Datenbanken („NoSQL“-Datenbanksystem) auf Open-Source-Basis (Apache).

Clickstream Analytics
Bezeichnet die Analyse der Web-Aktivitäten eines Benutzers per Auswertung seiner Klicks auf einer Website.

Competitive Monitoring
Tabellen, in denen die Aktivitäten der Konkurrenz im Web automatisch gespeichert werden.

Complex Event Processing (CEP)
Ein Prozess, bei dem alle Aktivitäten in den Systemen einer Organisation überwacht und analysiert werden. Bei Bedarf kann sofort in Echtzeit reagiert werden.

Data Aggregation
Das Sammeln von Daten aus unterschiedlichen Quellen für die Erstellung eines Berichts oder für eine Analyse.

Data Analytics
Ein Stück Software, mit dem Informationen aus einem Datensatz gezogen werden. Das Ergebnis kann ein Report, ein Status oder eine Aktion sein, die automatisch gestartet wird.

Data Architecture and Design
Legt dar, wie Unternehmensdaten strukturiert sind. Meist erfolgt das in drei Prozessschritten: Begriffliche Abbildung der Geschäftseinheiten, logische Abbildung der Beziehungen innerhalb der Geschäftseinheit sowie die physikalische Konstruktion eines Systems, das die Tätigkeiten unterstützt.

Data Exhaust
Die Daten, die eine Person bei ihrer Internet-Aktivität "nebenbei" erzeugt.

Data Virtualization
Der Prozess der Abstraktion verschiedener Datenquellen durch eine einzige Zugriffsschicht auf die Daten.

Distributed Object
Ein Stück Software, das es erlaubt, mit verteilten Objekten auf einem anderen Computer zusammenzuarbeiten.

De-Identification
Das Entfernen aller Daten, die eine Person mit einer bestimmten Information verbindet.

Distributed Processing
Die Ausführung eines Prozesses über verschiedene per Netzwerk verbundene Computer hinweg.

Drill
Apache Drill ist eine Open-Source-SQL-Suchmaschine für Hadoop- und NoSQL-Datenmanagement-Systeme.

Hadoop
Ein freies, in Java geschriebenes Framework der Apache Foundation für skalierbare, verteilt arbeitende Software in einem Cluster. Es basiert auf dem bekannten MapReduce-Algorithmus der Google Inc. sowie auf Vorschlägen des Google-Dateisystems.

HANA
SAPs Software-und Hardware-Plattform mit In-Memory-Computing für Echtzeitanalysen und große Transaktionsvolumen.

In-Database Analytics
In-Database Analytics bezeichnet die Integration der Analysemethoden in die Datenbank. Der Vorteil ist, dass die Daten für die Auswertung nicht bewegt werden müssen.

In-Memory Database
Jedes Datenbanksystem, das den Hauptspeicher für die Datenspeicherung benutzt.

In-Memory Data Grid (IMDG)
Die verteilte Datenspeicherung im Hauptspeicher vieler Server für schnellen Zugriff und bessere Skalierbarkeit.

Machine-generated Data
Alle Daten, die automatisch von einem Rechenprozess, einer Applikation oder einer nicht-menschlichen Quelle erzeugt werden.

Map/reduce
Ein Verfahren, bei dem ein großes Problem in kleinere aufgeteilt und an verschiedene Rechner im Netz oder Cluster oder an ein Grid aus unterschiedlichen Computern an verschiedenen Standorten ("map") zur Bearbeitung verteilt wird. Die Ergebnisse werden dann gesammelt und in einem (reduzierten) Report dargestellt. Google hat sein Verfahren unter der Marke "MapReduce" schützen lassen.

Mashup
Dabei werden unterschiedliche Datensätze innerhalb einer Applikation so kombiniert, dass das Ergebnis verbessert wird.

NoSQL
Datenbanken, die nicht relational aufgebaut sind und mit denen sich große Datenvolumina handhaben lassen. Sie benötigen keine festgelegten Tabellenschemata und skalieren horizontal. Beispielsweise ist Apache Cassandra eine NoSQL.

Operational Data Store (ODS)
Darin werden Daten aus unterschiedlichen Quellen gesammelt damit noch weitere Operationen ausgeführt werden können, bevor die Daten in ein Data Warehouse exportiert werden.

Pattern Recognition
Die Klassifizierung von automatisch erkannten Mustern.

Predictive Analytics
Diese Form der Analytics nutzt statistische Funktionen in einem oder mehreren Datensätzen, um Trends oder zukünftige Ereignisse vorherzusagen.

Recommendation Engine
Per Algorithmus werden die Kundenbestellungen einer Website analysiert und sofort passende Zusatzprodukte ausgesucht und angeboten.

Risk Analysis
Die Anwendung statistischer Methoden auf einen oder mehrere Datensätze, um das Risiko eines Projekts, einer Handlung oder Entscheidung abschätzen zu können.

Sentiment Analysis
Dabei werden Einträge von Leuten in sozialen Netzwerken über ein Produkt oder ein Unternehmen statisch ausgewertet.

Variable Pricing
Dabei folgt der Kaufpreis eines Produkts dem Angebot und der Nachfrage. Das erfordert die Echtzeit-Überwachung von Konsum und Lagerbestand.

Parallel Data Analysis
Ein analytisches Problem wird in Teilaufgaben aufgebrochen und die Algorithmen werden auf jede Problemkomponente zeitgleich und parallel angewendet.

Query Anal
In diesem Prozess wird eine Suchanfrage optimiert, um das bestmögliche Ergebnis zu erhalten.

Reference Data
Daten, die ein physikalisch oder virtuell vorhandenes Objekt und seine Eigenschaften beschreiben.

Intelligentes Data Management schafft Abhilfe

Um interne Datenflut rechtzeitig in den Griff zu bekommen, ist es wichtig, relevante Informationen aufzubewahren und unbedeutende Daten gleichzeitig rechtskonform zu beseitigen. Ein manuelles Sichten und Filtern des kompletten Datenbestands in einem Unternehmen ist in der Realität aber schier unmöglich, geschweige denn effizient. An dieser Stelle können jedoch Information-Governance-Tools Abhilfe schaffen, indem der vollständige elektronische Datensatz eines Unternehmens durch ein intelligentes und automatisiertes System geordnet und bereinigt wird.

Ungenutzte Daten zu bereinigen schafft Übersichtlichkeit und senkt Kosten wie Risiken.
Foto: Syda Productions - www.shutterstock.com

Risiken und Kosten senken

IT-gestütztes Data Management sorgt für die Reduktion regulatorischer Risiken, indem nur relevante Daten, die für geschäftliche oder regulatorische Zwecke gespeichert werden müssen, im Unternehmen erhalten bleiben. Durch die präzise und konsequente Klassifizierung riesiger Informationsberge erleichtert es die richtige Information Governance Unternehmen, gesetzliche Richtlinien einzuhalten und gleichzeitig die Privatsphäre von Mitarbeitern und Kunden zu wahren.

Weitere Vorteile von Data Management

Eine effektive Information Governance sorgt zudem dafür, dass Kosten für die Datenspeicherung reduziert werden und zugleich die Datenspeicherungsrichtlinien erfüllt werden. Werden überflüssige Daten regelmäßig gelöscht, werden die Speicherkapazitäten nicht überstrapaziert. Eine automatisierte Kategorisierung von Daten sorgt außerdem für eine Verringerung der Prozessführungs- und Regulierungskosten.

NTT Data über "Big Data Governance - eine Reifegrad-Analyse in Deutschland"

Big Data Governance
NTT untersucht in der Studie "Big Data Governance - eine Reifegrad-Analyse in Deutschland" Big Data-Projekte aus 37 Unternehmen. Es geht dabei um so unterschiedliche Branchen wie Automobil, IT und Banken.

Erreichen der Ziele
Geld spielt eine Rolle: Unternehmen, die mindestens 20 Prozent ihres IT Budgets für Big Data aufwenden, sind erfolgreicher in der Umsetzung von Big Data Projekten.

Technik am wichtigsten
Es hängt an der Technik: die technische Expertise halten die Unternehmen für den wichtigsten Erfolgsfaktor bei Big Data-Projekten.

Risiko Datenschutz
Datenschutz und Compliance gelten als größte Risiken bei der Anwendung von Big Data.

Erfolgsfaktor Integration
Je besser Big Data in die Informationsarchitektur integriert ist, umso höher die Chance, alle Ziele zu erreichen.

Aufgaben von Big Data Governance
Die Befragten erwarten von Big Data Governance vor allem die Bereitstellung von organisatorischen Strukturen, Richtlinien, Prozessen und Standards.

Informationsüberfluss verursacht nicht nur chronischen Stress bei den Mitarbeitern, sondern zieht auch verpasste Geschäftschancen nach sich, wenn mehr Zeit und Aufwand in das Durchforsten unsortierter Daten investiert wird als für das eigentliche Kerngeschäft. Mitarbeiter verschwenden ihre Zeit – und das Geld ihrer Arbeitgeber – damit, Informationen zu suchen und Dokumente neu zu erstellen, die es so bereits irgendwo im Unternehmen gibt, die aber nicht auffindbar sind. Hinzu kommt, dass das Management keinen Überblick über die Informationsbestände im eigenen Unternehmen hat. Führungskräfte haben es schwer, die Einblicke zu bekommen, die sie benötigen, um fundierte Entscheidungen zu treffen. Angestellte der Rechtsabteilung können im Streitfall nicht schnell genug reagieren, weil Informationen verschüttet sind.

Mit dem "Recht auf Vergessen" können Unternehmen den nächsten "Frühjahrsputz" angehen und das Unternehmen von belastenden Datenbeständen entrümpeln, um Platz für neue Geschäftsmöglichkeiten zu schaffen. (sh)