Datenanalyse

Data Warehouse Appliances - Trends und neue Techniken

26.04.2010 von Hermann Gfaller

Mit speziellen Appliances wurde ein Data Warehouse auch für Kunden mit schmälerem Geldbeutel erschwinglich. Neue Techniken wie Flash-Speicher und In-Memory-Datenbanken dürften für zusätzlichen Schwung sorgen.

Der Trend zum Appliance brachte Bewegung in den einst von Konzernkunden geprägten Data-Warehouse-Markt. Vor allem sanken die Einstiegshürden in eine Technik, die verspricht, Geschäftsmöglichkeiten wie -risiken frühzeitig zu erkennen - oder zumindest das eigene Unternehmen transparenter zu machen. Immer mehr Datenbank- und Hardwarehersteller, aber auch Newcomer nutzen das wachsende Interesse, um den etablierten Data-Warehouse-Anbietern Marktanteile abzujagen und Einsteiger langfristig an die eigene Technik zu binden.

Selbst für gehobene mittelständische Unternehmen war ein Data-Warehouse (DW) lange Zeit schlicht zu aufwändig und zu teuer. Hier hat der US-amerikanische DW-Appliance-Pionier Netezza den Weg mit preiswerten Standardkomponenten geebnet. Tatsächlich verwendet heute kein Hersteller von DW-Appliances mehr Spezialkomponenten als unbedingt nötig. Bei Teradata ist das beispielsweise eine spezielle Kommunikations-Hardware, bei Netezza ein Field Programmable Gate Array (FPGA) zur raschen Verteilung der Daten auf die massiv parallelen Architekturen, mit denen die Appliances arbeiten.

Lesen Sie mehr zum Thema Data Warehouse und Business Intelligence:

Geschwindigkeit gilt als A und O

Günstige Speicher, schnelle CPUs und die Verwendung von Standardkomponenten haben die Einstiegsschwelle ins Data-Warehousing also deutlich gesenkt. Die Appliances haben Analysen nahe an der Echtzeit technisch und wirtschaftlich realisierbar gemacht - selbst mit großen Datenmengen. Allerdings hat sich inzwischen die Datenübertragung zum zeitraubenden Flaschenhals entwickelt. Die Branche behilft sich hier einerseits mit ausgefeilten Komprimierungsverfahren, um die zu übertragenden Datenmengen zu reduzieren, andererseits durch die Integration von immer mehr Analyse-Funktionen in die Datenbank. Das Ziel ist, die Daten dort zu analysieren, wo sie abgelegt sind.

Die IBM-Verantwortlichen verweisen im Zusammenhang mit ihren jüngst angekündigten Systemen auf die Option, das Analyse-Gerät direkt neben dem Datenspeicher aufzustellen, um den Weg von datenintensiven Transaktionen zu verkürzen. Vor allem bei automatisierten Börsengeschäften käme es auf Millisekunden an.

Scott Gnau, Chefentwickler von Teradata, warnt vor möglichen Problemen bei der Verwendung von In-Memory-Datenbanken.
Foto: Teradata

Als schnellste Variante gilt, die Datenbank komplett im Hauptspeicher zu halten. Diese In-Memory-Datenbanken bringen ihren Nutzern laut Teradatas Chef-Entwickler Scott Gnau allerdings den Nachteil, dass sie zumindest momentan nicht ausreichend mit den Datenbeständen mitwachsen. BI-Spezialist Carsten Bange hält dieses Probleme allerdings für vorübergehend: "Ich sehe keinen Grund, warum es gerade hier keine Entwicklung zu mehr Skalierbarkeit geben soll." Teradata-Manager Gnau weist aber darüber hinaus auf mögliche Persistenzprobleme hin, und stellt die Frage, ob man denn jedes Mal die gesamte Datenbank neu laden wolle, wenn sich wie heute sehr häufig Änderungen ergeben.

Differenzierung auf der Software-Ebene

Bei aller Ähnlichkeit der Basistechnik schnüren die Anbieter meist recht unterschiedlich Lösungen für Data-Warehousing: Die Palette reicht von reinen Datenbank-Maschinen bis hin zu Komplettpaketen von IBM oder Oracle, mit mehreren Systemen, Middleware und Services, die sich sowohl für den operativen (transkationsorientierten) wie auch den analytischen Betrieb eignen sollen. Darüber hinaus ließe sich die jeweilige Datenbank theoretisch als proprietär bezeichnen: Zwar setzen die Anbieter allesamt auf die Abfragesprache SQL, allerdings werden die Daten nicht zeilenweise, sondern spaltenweise abgelegt und zudem anders organisiert.

Diese Art des Datenbankeinsatzes entfachte zuletzt eine Diskussion darüber, ob es sich dabei noch um relationale Systeme im herkömmlichen Sinn handelt. Von Bedeutung ist diese Auseinandersetzung vor allem, weil klassische Datenbank-Anbieter wie IBM, Oracle oder Microsoft darauf beharren, ihre General-Purpose-Datenbanktechnik auch für Data-Warehousing einsetzen zu können. Dafür spricht, dass zunehmend Transaktions-orientierte Daten in DWs eingebunden werden und so ein Mixed-Workload entsteht. Gartner-Group-Analyst Donald Feinberg spekuliert sogar, dass klassische OLTP-Datenbanken überflüssig werden könnten, wenn deren Aufgaben in einer Umgebung erledigt werden, die sich auch für Data-Warehousing nutzen lässt. Schließlich gehört es zu den erklärten Zielen der Datenbanker, möglichst nur eine Datenbank als einzige "Quelle der Wahrheit" zu bieten. Ausgelagert würden Datenkopien dann auf zeitlich begrenzte Projekt-Datamarts, wie das etwa Ebay mit dem so genannten Sandbox-Verfahren in einer privaten Cloud realisiert.

In diesem Sinne räumt Marktführer Teradata zwar ein, dass seine für analytische Zwecke optimierte Datenbank etwa IBMs DB2 im OLTP-Betrieb klar unterlegen ist, sobald jedoch die Auswertung der Informationen im Vordergrund stehe, könne man selbst im Mixed Workload mithalten - solange sich die schreibenden Aufgaben gegenüber den Lesezugriffen in Grenzen halten. Bei reinem Data-Warehousing dagegen sei man klar überlegen.

Interview: Teradata zu den Technik-Trends im Geschäft mit Data-Warehouse-Appliances

Stephen Brobst, Technologie-Chef von Teradata: "Wir fokussieren uns auf analytischen Workload, nicht auf OLTP."
Foto: Teradata

Data-Warehouses übernehmen zunehmend operative Aufgaben, das Marketing möchte endlich soziale Netzwerke nach Chancen und Risiken durchforsten, bald spülen Sensoren gewaltige Datenmengen ins System und die Anwenderunternehmen möchten immer früher Entwicklungen voraussehen können. Teradatas Technologie-Chef Stephen Brobst berichtet, wie Appliances die wachsenden Ansprüche erfüllen können.

CW: Der Anbieter Netezza hat vor ein paar Jahren offenbar einen Boom für Data-Warehouse-Appliances ausgelöst …

BROBST: Nein, wir hatten schon lange vorher Appliances. Sie hießen nur nicht so. Wir schufen mit unserem Enterprise Data Warehouse eine allgemeine Lösung, Netezza bedient mit seinem System lediglich - wenn auch erfolgreich - eine Low-end-Nische. Mein Kompliment für das gute Marketing.

CW: Experten loben vor allem Netezzas Schnelligkeit und das Komprimierungsverfahren …

BROBST: Über geeignete Komprimierungsmechanismen verfügen auch alle anderen wesentlichen Player, bei Netezza kamen sie erst im zweiten Schritt dazu. Das Besondere ist dort das Field Programmable Gate Array (FPGA), das die Daten besonders rasch verteilt. Entscheidend für den kommerziellen Erfolg war aber der günstige Preis je Terabyte Speicherplatz, der durch den Verwendung von preiswerten Festplatten mit hoher Kapazität erreicht wurde. Die Verwendung dieser Festplatten geht aber auch auf Kosten der Leistung im Zusammenhang mit Mixed Workload, etwa wenn während des Beladens des Data-Warehouses gleichzeitig viele Adhoc-Anfragen bedient werden müssen. Außerdem können diese Appliances nicht mehr als eine Applikation auf einmal bedienen. Damit zielen diese Maschinen auf den Markt für Datamarts, und nicht wirklich auf den für Data-Warehouses.

CW: Das klingt so, als sollte Teradata Netezza als eine Art Einstiegsdroge aufkaufen?

BROBST: Nein, eher werden wir sie verdrängen. Schließlich bieten wir für den Einstieg längst ein Datamart-Appliance an. Das ist meines Erachtens auch die Liga von Oracles Exadata-Appliance.

CW: Sie differenzieren die Produktpalette zunehmend für verschiedene Einsatzbereiche. Es gibt inzwischen fünf, wenn man die reine Software-Edition mitzählt, sogar sechs Produktreihen. Ist das Teradatas Weg, mit dem als schwierig geltenden Thema eines Mixed Workloads umzugehen?

BROBST: Es gibt mehrere Plattformen, die wir dafür anbieten, aber am besten fährt der Anwender mit unserem Flaggschiff, dem Enterprise Data Warehouse mit seinem ausgereiften Workload-Management, und weil man dort Mixed Workload auf ein und denselben Daten verarbeiten kann.

CW: Die IBM behauptet, DB2 sei als General-Purpose-Datenbank am besten für Mixed Workload geeignet, während die Teradata-Datenbank für Warehousing optimiert ist. Stimmen Sie dem zu?

BROBST: Richtig, wir fokussieren uns auf analytischen Workload, nicht auf OLTP. Wenn wir von Mixed Workload sprechen, meinen wir operationelle Business Intelligence (BI) mit schnellem In- und Output, aber es wird bei BI generell deutlich mehr gelesen als geschrieben. Für die schreibintensiven OLTP-Aufgaben ist DB2 weit besser, aber das hat nichts mit Analyse zu tun.

CW: Sie haben jüngst Ihre Solid-State-Maschine freigegeben. Diese Technik steht von der Geschwindigkeit her zwischen herkömmlichen Festplatten und In-Memory-Datenbanken. Deutet das nicht darauf hin, dass Flash nur einen Brückentechnik darstellt?

BROBST: Dieses Argument höre ich seit langem. Aber In-Memory-Datenbanken haben ein Skalierungsproblem, das es bei SSD-Geräten nicht gibt. Allerdings verwenden wir die Technik gemeinsam mit SAP und Business Objects.

CW: Im Zusammenhang mit neuen Data-Warehouse-Techniken wird immer wieder Googles MapReduce-Framework genannt, das definitiv nicht relational ist.

BROBST: Ja, Google verwendet dieses Verfahren recht erfolgreich, aber das ist keine Datenbank, sondern ein Programmier-Framework für mehrere, gleichzeitige und unabhängige Berechnungen mit großen Datenmengen in Clustern. Dafür braucht man technisch versierte Programmierer. Für den klassischen Geschäftsanwender von DW eignet sich das Verfahren nur in Einzelfällen. Wir haben Kunden im Dotcom-Umfeld, denen wir eine Kombination davon mit der Teradata-Datenbank anbieten. Wir verwenden das Verfahren für unstrukturierte Daten, bei Ebay zum Beispiel für die Analyse von Content und Fotos.

CW: Bei der Integration von analytischen Funktionen und unstrukturierten Daten spricht die IBM von Plugins oder Datablades, Oracle eher von Store Procedures. Wie tief kann die Integration bei Teradata sein, die an dieser Stelle vor allem mit Partnern wie SAS zusammenarbeitet?

BROBST: Wir integrieren keine Suchmechanismen wie etwa die IBM mit ihren Text-Tools, sondern konzentrieren uns auf analytische Aufgaben. Ein Beispiel aus dem Bereich sozialer Netze: Es geht uns weniger darum, bestimmte Statements zu einem Produkt zu finden, sondern zu analysieren, wie diese Statements emotional besetzt sind. Wir sammeln die einschlägigen Beiträge, formen sie zu strukturierten Daten, binden sie dann in die Datawarehouse-Datenbank ein und analysieren sie dort.

CW: Was sind die wichtigsten Trends im DW-Umfeld für die kommenden Jahre?

BROBST: Massendaten. Ich spreche hier nicht von sozialen Netzen, sondern über Daten von Sensoren. Am bekanntesten sind hier sicher die Verwaltung und Verfolgung von Funketiketten (RFIDs), aber im Grunde lässt sich fast alles messen und auswerten. Hier geht es um ungeheure Mengen von Daten, auf die wir uns derzeit vorbereiten.

Produkte: Teradata beschleunigt Analysen mit Flash-Speichern

Foto: Teradata

Auf seiner Hausmesse "Universe" hat Teradata seine im vergangenen Herbst angekündigte "Extreme Performance Appliance 4555" freigegeben. Das System kann als Gegenstück zur "Extreme Data Appliance 1550" gelten. Während das ältere Gerät für hohe Datenvolumen bis 50 Petabyte ausgelegt ist, hat der Hersteller die neue Maschine mit Flash-Speichern auf Leistung getrimmt. So lassen sich die Daten rund 150-mal schneller laden als von herkömmlichen Festplatten. Die Verarbeitung ist damit zwar immer noch langsamer als bei In-Memory-Datenbanken, dafür skaliert die Datenbank wie ein herkömmliches System, insgesamt bis zu 140 Terabyte. Laut Teradatas Entwicklungs-Chef Scott Gnau lassen sich damit auch komplexe Analysen in weniger als einer Sekunde bewältigen. Wichtig ist eine solche Geschwindigkeit in Märkten mit sich rasch ändernden Angeboten wie an der Börse, beim E-Commerce, im Transportwesen oder bei der Telekommunikation.

IBM stellt Analyse-Lösungen vor: Unmittelbar vor Teradata hat IBM seine Data-Warehous-Appliance-Lösung vorgestellt. Big Blue bezeichnet seine "pureScale"-Reihe als optimiertes Analyse-System für große Datenmengen. Dass der Hersteller den Begriff Data-Warehouse-Appliance vermeidet hat nicht nur mit Marketing zu tun, sondern auch damit, dass in der pureScale-Serie auch Systeme für hohe OLTP-Lasten angeboten werden. So gelten die beiden neuen "Smart-Analytics"-Systeme "9600" auf der z-Mainframe-Architektur und "5600" auf x86-Basis als Ergänzung des für hohe Transaktionslast konzipierten "pureScale Application System 7600" mit Power7-Technik. Mit dieser Kombination sollen sich gleichermaßen analytische und transaktionale Aufgaben erledigen lassen.

IBM hebt die hohe und funktionsreiche Integration der Systeme hervor. So wurden nicht nur Server, Speicher, Software und Services auf einander abgestimmt, sondern auch Cognos- und InfoSphere-Warehouse-Eigenschaften sowie Reporting, Analyse und Dashbords. Durch die Integration entsprechender Datenbank-Plugins können Anwender zudem neben strukturieren auch unstrukturierte Daten aus E-Mails oder Texten integrieren. Ein weiterer Grund für die Leistung der Lösungen liege darin begründet, dass die Daten in der Datenbank analysiert werden, in der sie liegen. Aufgrund ihrer Schnelligkeit empfiehlt IBM die Lösung für den Einsatz an Börsen, wo oft hunderte von Geschäften pro Sekunde über ein System abgewickelt werden.