Federation Business Data Lake

EMC stellt flexible Big-Data-Analytics-Plattform vor

24.03.2015 von Bernhard Haluschak
Mit der neu vorgestellten Plattform Federation Business Data Lake will EMC Unternehmen die Analyse von großen Datenmengen erleichtern. Das System beinhaltet Technologien von Pivotal, VMware und hauseigene Informationsinfrastrukturen.

Der Vorteil des integrierten Systems liegt drin, das es schnell und automatisch sogenannte Data Lakes einrichten kann. Die Business Data Lakes von EMC bestehen aus Speicher- und Analysewerkzeugen sowie rieseigen Mengen an strukturierten und unstrukturierten Daten aus verschiedenen Quellen. Die Hauptaufgabe von Federation Business Data Lake ist es, diese Datenmengen zu analysieren und Vorhersagemodelle zu erstellen, um die aktuellen Geschäftsprozesse an die künftigen Entwicklungen anzupassen oder neue Geschäftsmodell zu kreieren.

Glossar zu Big Data und Data Analytics
Predictive Analytics
das Treffen von Prognosen durch die Analyse von Daten. Im Gegensatz zur Analyse historischer Zusammenhängen und Erkenntnissen; auch durch die Analyse von Daten, die möglicherweise urächlich nicht miteinander in Zusammenhang stehen (Quelle: Bitkom)
Open Source
quelloffene Werke, zum Beispiel Software bei der man den Quellcode erhält (Quelle: Bitkom)
Open Data
Konzept zum Zugang zu hoheitlichen Daten zu jedermann, beispielsweise Auskunft über die bei einer Meldestelle gespeicherten Daten über einen Bürger und die Einrichtungen, an die die Daten übermittelt worden sind. (Quelle: Bitkom)
Metadaten
Daten zur Beschreibung von Daten, unter anderem, um Datenmodelle zu entwickeln. (Quelle: Bitkom)
Mahout
wörtlich: Elefantentreiber; hier: eine Apache-Komponente zum Aufbau von Bibliotheken für das Machine Learning MapReduce Verfahren zur Datenverwaltung und Indizierung (Quelle: Bitkom)
Machine Learning
Oberbegriff für die künstliche Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann nach Beendigung der Lernphase verallgemeinern. Das System „erkennt“ Gesetzmäßigkeiten und kann somit auch unbekannte Daten beurteilen. (siehe Wikipedia). (Quelle: Bitkom)
Lustre
Linux-basierendes Betriebssystem für den Betrieb von Cluster-Architekturen (Quelle: Bitkom)
Lambda-Architektur
Eine konstruktiv nutzbare Vorlage für den Entwurf einer Big-Data-Anwendung. Die in der Architektur vorgesehene Modularisierung spiegelt typische Anforderungen an Big-Data-Anwendungen wider und systematisiert sie. (Quelle: Bitkom)
In-Memory
Bei In-Memory werden die Daten nicht physisch auf Datenträger gespeichert und wieder ausgelesen, sondern im Arbeitsspeicher gehalten und dadurch mit sehr hoher Geschwindigkeit verarbeitet. (Quelle: Bitkom)
HANA
Ursprünglich: High-Performance Analytical Appliance; ein von SAP entwickeltes Produkt zum Betrieb von Datenbanken im (sehr großen) Hauptspeicher eines Computersystems (Quelle: Bitkom)
Hadoop
Open-Source-Version des MapReduce-Verfahrens, in verschiedenen Distributionen erhältlich. (Quelle: Bitkom)
Fraud Detection
Erkennung von Betrugsversuchen durch die Analyse von Transaktionen und Verhaltensmustern (Quelle: Bitkom)
Eventual Consistency
Eine Schnittmenge des CAP-Modells hinsichtlich der ereignisbezogenen Konsistenz von Modellen. (Quelle: Bitkom)
Data Science
Datenkunde: die Kenntnis bzw. Anwendung neuer Verfahren zur Arbeit mit Daten und Informationen, z.B. Verwendung semantischer Verfahren oder die Erschließung neuer Datenquellen (Sensordaten) und die Erarbeitung von Mustern oder statistischen Verfahren zur Auswertung solcher Daten. (Quelle: Bitkom)
Data Mining
Anwendung statistischer Methoden auf sehr große Datenmengen, bspw. Im Gegensatz zur manuellen Auswertung über Funktionen eines Tabellenkalkulationsprogrammes (Quelle: Bitkom)
Data Management
Methoden und Verfahren zur Verwaltung von Daten, oft über Metadaten (Daten, die Daten beschreiben) (Quelle: Bitkom)
Customer Analytics
Gewinnung von Erkenntnissen über das Kundenverhalten (überwiegend in Consumer-orientierten Unternehmen), beispielsweise mit dem Ziel der Entwicklung massenindividualisierter Produkte und Dienstleistungen (Quelle: Bitkom)
CEP
Sammelbegriff für Methoden, Techniken und Werkzeuge, um Ereignisse zu verarbeiten, während sie passieren. CEP leitet aus Ereignissen höheres Wissen in Form von komplexen Ereignissen ab, d. h. Situationen, die sich nur als Kombination mehrerer Ereignisse erkennen lassen (vgl. Wikipedia). (Quelle: Bitkom)
Complex Event Processing (CEP)
Complex Event Processing (CEP, Verarbeitung komplexer Ereignisse) ist ein Themenbereich der Informatik, der sich mit der Erkennung, Analyse, Gruppierung und Verarbeitung voneinander abhängiger Ereignisse beschäftigt. (Quelle: Bitkom)
CEPH
ein Dateisystem, das gleichzeitig Objekte, Dateien und Datenblöcke verwalten kann (Quelle: Bitkom)
CAP-Theorem
Laut dem CAP-Theorem kann ein verteiltes System zwei der folgenden Eigenschaften erfüllen, jedoch nicht alle drei: C = Consistency = Konsistenz, A = Availability = Verfügbarkeit, P = Partition Tolerance = Partitionstoleranz (siehe Wikipedia)
Business Intelligence
Gewinnung von Erkenntnissen über Zusammenhänge zwischen Informationen aus polystrukturierten Daten aus unterschiedlichsten Quellen (Quelle: Bitkom)
Broker
Makler/Buchmacher, hier: Rolle des Übermittlers von Daten zwischen Quelle und Anwender Business Analytics Ermittlung von Kennzahlen für Unternehmen, durch die Analyse größerer Datenmengen mit dem Ergebnis neuer Erkenntnisse aufgrund einer breiteren Datenbasis. (Quelle: Bitkom)
Big Data
die Gewinnung neuer Informationen – die in kürzester Zeit sehr vielen Nutzern zur Verfügung stehen müssen – mittels enorm großer Datenbestände aus unterschiedlichsten Quellen, um dadurch schneller wettbewerbskritische Entscheidungen treffen zu können. (Quelle: Bitkom)
Analytics Appliance
vorkonfigurierte oder paketierte Lösungen aus Hardware und Software für die Koordinierung von polystrukturierten Daten, die Ausführung von Analysen und die Präsentation der Erkenntnisse. (Quelle: Bitkom)
Analytics Analyse
Gewinnung von Erkenntnissen durch komplexe Abfragen auf polsystrukturierte Daten, Datenbanken und Data-Warehouses mit spezifischen Abfragesprachen wie SQL oder Pig. (Quelle: Bitkom)

Der Hersteller verspricht mit dieser Technologie, dass betriebsbereite Umgebungen für die Echtzeitanalyse auf Basis von Hadoop in nur sieben Tagen nutzbar sind. Laut Hersteller ist die Analyse-Ebene des Federation-Business-Data-Lake-Modells mittels vBlock-Technologie von VMware virtualisiert. So lässt sich das System für bestimmte Anwendungsszenarien automatisch provisionieren und konfigurieren. Die Storage-Einheit beziehungsweise die Storage-Arrays basiert auf der Scale-out-Speicherproduktserie Isilon von EMC. Die Basis der Analyse-Ebene besteht aus der Big Data Suite von Pivotal. Sie beinhaltet die Big-Data-Analyseplattform PivotalHD mit vorkonfigurierter Integration in Pivotal HAWQ sowie ein MPP-basiertes natives analytisches SQL-Modul für die analytische Verarbeitung von strukturierten Daten in Hadoop. Das ermöglicht die Integration in Analyse-Plattformen wie SAS oder Tableau.

Darüber hinaus hat EMC zwei weitere Business Data Lakes angekündigt. Sie sollen die Hadoop-Distributionen von Cloudera und Hortonworks sowie die Hadoop-Distributionen auf Grundlage der Open Data Platform unterstützen. Nach Angaben von EMC wird der Federation Business Data Lake ab April 2015 verfügbar sein. Zusätzlich offeriert der Hersteller ein umfangreiches Dienstleistungs- und Trainingsprogramm rund um Federation Business Data Lake an.