Daten automatisch finden und einstufen

Tools für die Datenklassifizierung

17.03.2015 von Oliver Schonschek

Speziallösungen spüren Daten auf, ermitteln Datenkategorien und schlagen Schutzmaßnahmen vor. Damit legen sie die Basis für den Datenschutz.

Am Anfang steht die Ist-Analyse. Im Datenschutz bedeutet dies insbesondere, zuerst die Art und die Verteilung der vertraulichen Daten zu bestimmen. Leider ist dies nicht so einfach, wie es klingt. Die Menge an Daten nimmt unaufhörlich zu, wie die Big-Data-Prognosen betonen.

Gleichzeitig gibt es eine ständig wachsende Zahl an Speichermöglichkeiten für die Daten, auf den Endgeräten, im Netzwerk oder in der Cloud. Ohne geeignete Werkzeuge für die Suche nach vertraulichen Daten wird kaum ein Unternehmen einen Überblick über die aktuelle Datenverteilung erhalten. Ohne diesen Überblick gelingt aber kein zuverlässiger Datenschutz.

Ordnung und Klassifizierung weiß man auch andernorts zu schätzen...
Foto: Flickr - CC-BY Flydime

Speziallösungen helfen bei der Datensuche

Erfreulicherweise kann man die Suche nach den zu schützenden Daten weitgehend automatisieren. Möglich wird dies einerseits durch explizite Lösungen für die Datensuche und Datenklassifizierung, durch Softwarewerkzeuge also, die Daten unternehmensweit aufspüren und anhand von Regeln einer bestimmten Datenkategorie zuordnen.

Big Data Vendor Benchmark 2015

Top 100 - Big Data
Die Ergebnisse des Big Data Vendor Benchmarks Deutschland 2015 zeigen ein deutliches Bild: Diesmal wurden nahezu doppelt so viele Unternehmen bewertet wie im Vorjahr, und es ist Bewegung im Markt.

Big Databases & Data Management Solutions

Big Data Operations

Die Anwenderunternehmen erhalten Berichte, wo sich welche Art von Daten befindet. Auf dieser Basis kann festgelegt werden, welcher Schutzbedarf an den verschiedenen Datenspeicherorten besteht, ob zum Beispiel eine Verschlüsselung notwendig ist oder nicht.

Eine solche Unterstützung bei der Datenklassifizierung bieten Lösungen wie dg classification, Wave Discoverer und Symantec Data Insight.

dg classification nutzt unter anderem Metadaten, definierbare Textmuster und Vergleichsverfahren, um die Dateien einzustufen. Zusätzlich zur Möglichkeit, eigene Regeln zu definieren und Musterregeln anzupassen, können Beispieldateien genutzt werden, um die Lösung automatisch passend zum Unternehmen zu konfigurieren.

Symantec Data Insight klassifiziert Daten unter anderem anhand Metadaten, Dateialter, Dateiberechtigungen und Dateibesitzer. Über ein Self-Service-Portal können die Dateibesitzer an der Datenklassifizierung mitwirken. Schnittstellen zu DLP-Lösungen und zur Archivierung helfen dabei, den zur Datenkategorie passenden Schutz direkt umzusetzen.

Wave Discoverer nutzt ebenfalls Metadaten wie Dateialter und Dateiersteller, definierte Keywords und Textmuster, um die passende Datenkategorie zuordnen zu können.

Zusätzlich unterstützen solche Datenklassifizierer eine Vielzahl von Compliance-Vorgaben wie PCI DSS und leiten daraus ab, welche Dateitypen besonderen Schutz bedürfen.

DLP-Lösungen sind auch Spürhunde

Die zweite Art von Softwareunterstützung für die Suche und Einstufung von Daten bieten DLP-Lösungen (Data Leakage Prevention).

Zu ihren Kernaufgaben zählt nicht nur die Kontrolle von Schnittstellen und Verbindungen, um ungewollten Datenabfluss zu verhindern. In den meisten Fällen bieten DLP-Lösungen auch eine Suchfunktion und Klassifizierung für die Daten an. Entsprechende Such- und Klassifizierungsfunktionen finden sich unter anderem bei Digital Guardian, Symantec Data Loss Prevention, DeviceLock Endpoint DLP Suite und Trustwave Data Loss Prevention, um nur einige Beispiele zu nennen.

DLP-Lösungen wie DeviceLock können so konfiguriert werden, dass sie bestimmte Dateitypen im überwachten Netzwerk aufspüren und entsprechend definierter Regeln schützen.
Foto: DeviceLock

Im Unterschied zu den reinen Klassifizierungslösungen haben DLP-Lösungen auch Reaktionsmöglichkeiten im Gepäck und verschlüsseln automatisch die als vertraulich eingestuften Daten oder führen andere definierte Schutzmaßnahmen durch, wie die Blockade des Dateitransfers oder das Verweigern von Datenkopien.

Datenklassifizierung wird schnell und intelligent

Viele Unternehmen fürchten, die Klassifizierung ihrer Daten sei sehr aufwändig und komplex. Tatsächlich aber können spezielle Datenklassifizierer sowie DLP-Lösungen viele Schritte automatisieren, bringen bereits Musterregeln mit und können relativ leicht an den Unternehmensbedarf angepasst werden.

Die Kontrolle von Dateizugriffen kann abhängig gemacht werden von bestimmten Inhalten wie Geburtsdaten, Versicherungsnummern oder Internetadressen. Neben Keywords können DLP-Lösungen auch bestimmte Textmuster suchen, um Daten hinsichtlich ihres Schutzbedarfs einzustufen.
Foto: DeviceLock

Die Intelligenz in den Tools zur Datenklassifizierung geht inzwischen weit über die reine Keyword-Erkennung hinaus. Bei der Einstufung der Dateien finden Inhalts- und Kontext-Analysen statt, neben der Identifizierung vertraulicher Inhalte werden somit auch die Umgebungsparameter der Dateien ausgewertet, wie der Speicherort, die Dateinutzung, die Anwendungen, die auf die Dateien zugreifen, und die Besitzer der Dateien sowie deren Rollen und Berechtigungen.

Mit einer solchen Unterstützung sollten Unternehmen den ersten Schritt auf dem Weg zum Datenschutzkonzept nicht mehr überspringen, sondern wirklich mit der Ist-Analyse von Datenverteilung, Dateikategorien und Schutzbedarf beginnen. Nur so erhält das Datenschutzkonzept ein sauberes Fundament.

Mehr zum Thema?

Mehr zum Thema? Wollen Sie mehr zum Thema "Datentransparenz" erfahren, lesen Sie auch unsere Beiträge "Datenschutz durch Datentransparenz" und "Datenschutz auch ohne Personenbezug". (sh)

Big Data Glossar

Die Begriffe rund um Big Data
Big Data - was ist das eigentlich? Jeder spricht drüber, jeder versteht etwas anderes darunter. Klicken Sie sich durch unser Glossar mit den wichtigsten und meistgenutzten Begriffen (manche sagen auch "Buzzwords") und verstehen Sie, was damit genau gemeint ist. <br /><br /> <em>zusammengestellt von <a href="http://www.kommunikation-in-sendling.com/" target="_blank">Kriemhilde Klippstätter</a>, freie Autorin und Coach (SE) in München</em>

Ad Targeting
Der Versuch, die Aufmerksamkeit des potenziellen Kunden zu gewinnen, meist durch "passgenaue" Werbung.

Algorithmus
Eine in Software gegossene mathematische Formel mit der ein Datensatz analysiert wird.

Analytics
Mit Hilfe von Software-basierenden Algorithmen und statistischen Methoden werden Daten interpretiert. Dazu benötigt man eine analytische Plattform, die aus Software oder Software plus Hardware besteht und die die Werkzeuge und Rechenpower bereitstellt, um unterschiedliche analytische Abfragen durchführen zu können. Es gibt eine Reihe unterschiedlicher Formen und Einsatzzwecke, die in diesem Glossar näher beschrieben sind.

Automatic Identification and Capture (AIDC)
Jede Methode der automatischen Identifizierung und Datensammlung über eine Gegebenheit und die nachfolgende Speicherung in ein Computersystem. Etwa die Informationen aus einem RFID-Chip, die ein Scanner ausliest.

Behavioral Analytics
Behavioral Analytics nutzt Informationen über das menschliche Verhalten, um die Absichten zu verstehen und zukünftiges Verhalten vorhersehen zu können.

Business Intelligence (BI)
Der generelle Ausdruck für die Identifizierung, Herkunft und Analyse der Daten.

Call Detail Record (CDR) Analyse
Diese enthält Daten, die die Telekommunikationsunternehmen über die Nutzung von Mobilfunkgesprächen – etwa Zeitpunkt und Dauer der Gespräche – sammeln.

Cassandra
Ein verteiltes Datenbank-Verwaltungssystem für sehr große strukturierte Datenbanken („NoSQL“-Datenbanksystem) auf Open-Source-Basis (Apache).

Clickstream Analytics
Bezeichnet die Analyse der Web-Aktivitäten eines Benutzers per Auswertung seiner Klicks auf einer Website.

Competitive Monitoring
Tabellen, in denen die Aktivitäten der Konkurrenz im Web automatisch gespeichert werden.

Complex Event Processing (CEP)
Ein Prozess, bei dem alle Aktivitäten in den Systemen einer Organisation überwacht und analysiert werden. Bei Bedarf kann sofort in Echtzeit reagiert werden.

Data Aggregation
Das Sammeln von Daten aus unterschiedlichen Quellen für die Erstellung eines Berichts oder für eine Analyse.

Data Analytics
Ein Stück Software, mit dem Informationen aus einem Datensatz gezogen werden. Das Ergebnis kann ein Report, ein Status oder eine Aktion sein, die automatisch gestartet wird.

Data Architecture and Design
Legt dar, wie Unternehmensdaten strukturiert sind. Meist erfolgt das in drei Prozessschritten: Begriffliche Abbildung der Geschäftseinheiten, logische Abbildung der Beziehungen innerhalb der Geschäftseinheit sowie die physikalische Konstruktion eines Systems, das die Tätigkeiten unterstützt.

Data Exhaust
Die Daten, die eine Person bei ihrer Internet-Aktivität "nebenbei" erzeugt.

Data Virtualization
Der Prozess der Abstraktion verschiedener Datenquellen durch eine einzige Zugriffsschicht auf die Daten.

Distributed Object
Ein Stück Software, das es erlaubt, mit verteilten Objekten auf einem anderen Computer zusammenzuarbeiten.

De-Identification
Das Entfernen aller Daten, die eine Person mit einer bestimmten Information verbindet.

Distributed Processing
Die Ausführung eines Prozesses über verschiedene per Netzwerk verbundene Computer hinweg.

Drill
Apache Drill ist eine Open-Source-SQL-Suchmaschine für Hadoop- und NoSQL-Datenmanagement-Systeme.

Hadoop
Ein freies, in Java geschriebenes Framework der Apache Foundation für skalierbare, verteilt arbeitende Software in einem Cluster. Es basiert auf dem bekannten MapReduce-Algorithmus der Google Inc. sowie auf Vorschlägen des Google-Dateisystems.

HANA
SAPs Software-und Hardware-Plattform mit In-Memory-Computing für Echtzeitanalysen und große Transaktionsvolumen.

In-Database Analytics
In-Database Analytics bezeichnet die Integration der Analysemethoden in die Datenbank. Der Vorteil ist, dass die Daten für die Auswertung nicht bewegt werden müssen.

In-Memory Database
Jedes Datenbanksystem, das den Hauptspeicher für die Datenspeicherung benutzt.

In-Memory Data Grid (IMDG)
Die verteilte Datenspeicherung im Hauptspeicher vieler Server für schnellen Zugriff und bessere Skalierbarkeit.

Machine-generated Data
Alle Daten, die automatisch von einem Rechenprozess, einer Applikation oder einer nicht-menschlichen Quelle erzeugt werden.

Map/reduce
Ein Verfahren, bei dem ein großes Problem in kleinere aufgeteilt und an verschiedene Rechner im Netz oder Cluster oder an ein Grid aus unterschiedlichen Computern an verschiedenen Standorten ("map") zur Bearbeitung verteilt wird. Die Ergebnisse werden dann gesammelt und in einem (reduzierten) Report dargestellt. Google hat sein Verfahren unter der Marke "MapReduce" schützen lassen.

Mashup
Dabei werden unterschiedliche Datensätze innerhalb einer Applikation so kombiniert, dass das Ergebnis verbessert wird.

NoSQL
Datenbanken, die nicht relational aufgebaut sind und mit denen sich große Datenvolumina handhaben lassen. Sie benötigen keine festgelegten Tabellenschemata und skalieren horizontal. Beispielsweise ist Apache Cassandra eine NoSQL.

Operational Data Store (ODS)
Darin werden Daten aus unterschiedlichen Quellen gesammelt damit noch weitere Operationen ausgeführt werden können, bevor die Daten in ein Data Warehouse exportiert werden.

Pattern Recognition
Die Klassifizierung von automatisch erkannten Mustern.

Predictive Analytics
Diese Form der Analytics nutzt statistische Funktionen in einem oder mehreren Datensätzen, um Trends oder zukünftige Ereignisse vorherzusagen.

Recommendation Engine
Per Algorithmus werden die Kundenbestellungen einer Website analysiert und sofort passende Zusatzprodukte ausgesucht und angeboten.

Risk Analysis
Die Anwendung statistischer Methoden auf einen oder mehrere Datensätze, um das Risiko eines Projekts, einer Handlung oder Entscheidung abschätzen zu können.

Sentiment Analysis
Dabei werden Einträge von Leuten in sozialen Netzwerken über ein Produkt oder ein Unternehmen statisch ausgewertet.

Variable Pricing
Dabei folgt der Kaufpreis eines Produkts dem Angebot und der Nachfrage. Das erfordert die Echtzeit-Überwachung von Konsum und Lagerbestand.

Parallel Data Analysis
Ein analytisches Problem wird in Teilaufgaben aufgebrochen und die Algorithmen werden auf jede Problemkomponente zeitgleich und parallel angewendet.

Query Anal
In diesem Prozess wird eine Suchanfrage optimiert, um das bestmögliche Ergebnis zu erhalten.

Reference Data
Daten, die ein physikalisch oder virtuell vorhandenes Objekt und seine Eigenschaften beschreiben.