In-Memory-Computing

Sechs Bibliotheken im Arbeitsspeicher

10.04.2013 von Volker Grappendorf

In-Memory-Technologie hat das Potenzial, ein neues Computing-Zeitalter einzuleiten. Die Beherrschung von Big Data lässt die Vision vom Realtime Enterprise zru Realität werden.

Sicherlich haben auch Sie einige PDFs auf Ihrem Rechner, womöglich eine Sammlung an Büchern und anderen Dokumenten. Jetzt stellen Sie sich vor, Sie laden all diese Bücher, vielleicht einige hundert Megabyte oder ein paar Gigabyte, in Ihren Arbeitsspeicher, damit diese quasi ohne Verzögerung abrufbar und durchsuchbar sind. Und jetzt stellen Sie sich vor, Sie könnten das Gleiche mit allen digitalisierten Büchern der gesamten US-amerikanischen Kongressbibliothek mit der Größe von 10 Terabyte machen - und das alles in weniger als drei Sekunden. Dabei hätten Sie genug freien Speicher, um noch fünf weitere Bibliotheken zu laden. Das alles macht In-Memory möglich und damit auch die Nutzung von Big Data und Datenbanken aus dem Hauptspeicher heraus.

In der heutigen Zeit ist es besonders interessant zu beobachten, dass In-Memory-Technologien, die schon seit Jahren auf dem Markt sind, immer noch aktiv in Unternehmen zum Einsatz kommen. Gleichzeitig werden mit großer Dynamik neue In-Memory-Verfahren entwickelt und getestet. Aktuell ist besonders SAPs HANA im Gespräch.

Bei In-Memory sind besonders die Analysemöglichkeiten interessant, bei denen das Problem für die Weiterverarbeitung nicht in kleinere Pakete aufgeteilt werden muss, um diese auf mehrere kleine Cluster zu verteilen. Wenn ein einziger großer Arbeitsspeicher zur Verfügung steht, lassen sich bestimmte Beziehungen viel schneller und deutlicher erkennen und herstellen. Zum Beispiel bei der Analyse von Social Media-Daten, Betrugserkennung oder wissenschaftlichen Problemstellungen wie den kosmologischen Berechnungen von Stephen Hawking an der Universität Cambridge.

Der Einsatz eines einzigen In-Memory-Systems erleichtert die Arbeit von Wissenschaftlern und Unternehmen erheblich, entfallen doch die physikalisch gesetzten Grenzen der Arbeitsspeicher-Limitierung. Bildlich gesprochen lässt sich der gesamte Wald erkennen und nicht nur einzelne Bäume. Dieser Ansatz wird "Befreiung von kleinen Technologien" genannt, wenn es um In-Memory geht. Es fallen Dinge weg wie die Pflege und Wartung von Datenbankindizes, Aggregation und die Aufbereitung der Daten zur Weiterverarbeitung. Allein dieser letzte Punkt sorgt bereits dafür, dass die vielfältigen Möglichkeiten zur Betrachtung der Gesamtheit der Daten in jeglicher Konstellation begrenzt sind, da sie vorselektiert und geordnet werden müssen. Es wird sozusagen die Anzahl der Antworten eingeschränkt, die möglich wären, ebenso die Vielfältigkeit der Fragen, die gestellt werden könnten.

In sieben Schritten zum Big-Data-Erfolg
Teil- oder unstrukturierte Daten in großer Menge erfolgreich analysieren können - das ist das Ziel von Big-Data-Projekten. Aber welcher Weg führt dorhin?

1. Die jeweiligen Ziele definieren
Die Anzahl der möglichen Big-Data-Analysen ist Legion. Im ersten Schritt muss also geklärt werden: Was möchten Sie erreichen? Was bringt Ihnen die Auswertung? Möchten Sie mehr Kunden ansprechen, Ihren Umsatz steigern oder neue Geschäftsfelder erschließen? Und welche Ziele sind überhaupt erreichbar?

2. Die Datenquellen identifizieren
Dann müssen die verfügbaren Datenquellen analysiert werden: Welche sind wichtig? Wie und in welcher Form lässt sich auf die benötigten Daten zugreifen? Meist ist es sinnvoll, sich zunächst auf ausgewählte Quellen zu konzentrieren. Hier schon sind Datenschutzaspekte zu berücksichtigen. Manche Daten dürfen gar nicht oder nur unter bestimmten Voraussetzungen gespeichert und analysiert werden.

3. Mit IT- und anderen Bereichen vernetzen
Die IT sollte frühzeitig eingebunden werden. Um maximalen Nutzen aus den Auswertungen zu ziehen, sind auch andere Fachbereiche zu involvieren. Und spätestens in dieser Phase sollte das Management einbezogen werden, das breite Unterstützung garantiert.

4. Performance und Verfügbarkeit klären
Die Erwartungen bezüglich Performance und Verfügbarkeit müssen so früh wie möglich dingfest gemacht werden. Dabei spielen Themen wie Analyse-Latenzzeit, Auswertungen in Echtzeit und In-Memory-Technik eine wichtige Rolle.

5. Die Ergebnisse in Prozesse einbinden
Erfolgreiche Big-Data-Analytics-Projekte binden die Analysen und deren Ergebnisse in die Geschäftsprozesse ein. Nur so führen die gewonnenen Erkenntnisse zu einer Verbesserung.

6. Big Data in Analysestrukturen einfügen
Big-Data-Analytics ersetzen nicht zwingend vorhandene Analysen, beispielsweise Data Warehouses. Oft sind sie vielmehr eine Ergänzung. Folglich sollten sie in vorhandene BI-Architekturen oder -Landschaften integriert werden.

7. Komplexität und Dynamik abschätzen
Welche Daten mit welchem Volumen kurz- und mittelfristig verfügbar sein werden, ist im Vorfeld schwer abschätzbar. Deshalb gilt es, die Einbindung neuer Datenquellen oder zusätzlicher Analysen einzukalkulieren, um einen nachhaltigen Erfolg des Projekts zu gewährleisten.

Nutzen und Möglichkeiten von Big Data

Besonders die Wissenschaft, die solche In-Memory-Technologien schon seit Jahren verwendet, kann als Vorreiter für marktwirtschaftliche Unternehmen betrachtet werden, bei denen diese Möglichkeiten erst seit einigen wenigen Jahren zum Einsatz kommen. Zudem wächst die Anzahl der analytischen Verfahren so schnell, dass wir uns langsam aber sicher dem annähern, was unser Gehirn zu leisten in der Lage ist, wenn es um Verknüpfungen und das Bilden von Zusammenhängen geht. Dabei ist vor allem die Visualisierung von Abhängigkeiten und Verbindungen ein wesentliches Element, das Analysten hilft, Zusammenhänge sowie wiederkehrende Muster zu erkennen und - einfach gesagt - echten Nutzen aus Big Data zu ziehen.

Im Gegensatz dazu sind Zusammenhänge mittels Spreadsheets oder traditioneller Reports nicht so leicht erkennbar. Einige Firmen, die sich mit dem Thema beschäftigen, entwickelten zuletzt beeindruckende Visualisierungen und interaktive, assoziative Technologien wie TIBCO spotfire oder QlikTech. Diese erlauben es, schnell Fragen zu stellen und basierend auf In-Memory-Technologie sofort Antworten darauf zu erhalten, oder wie Tableu die Daten anschaulich zu visualisieren.

Markt für Big Data in Deutschland wächst
2013 steht ganz im Zeichen von Big Data - da sind sich die Experten von Gartner, BARC und Bitkom einig. Immer mehr Anwenderunternehmen nehmen demnach Geld in die Hand und wollen aus ihren Daten Kapital schlagen.

Grenzenloser Arbeitsspeicher

Unzureichende Größe kann ein einschränkender Faktor sein, und es gilt dabei vor allem den Anwendungszweck im Blick zu behalten. Laptops haben heute beispielsweise mehrere Gigabyte Arbeitsspeicher und genügen so selbst rechenintensivsten Anforderungen wie Videoschnitt oder -encodierung. Wenn man jedoch Big Data analysieren und ein Gesamtbild sowie die Zusammenhänge erkennen will, reicht der Speicher bei weitem nicht aus.

Das Projekt "Twitter Heartbeat", das SGI zusammen mit der Universität Illinois, USA, durchgeführt hat, ist eines dieser Beispiele für Speicherintensität. Hier kam das Big Brain-System UV2 zum Einsatz, um alle weltweiten Tweets zu einem bestimmten Thema nach Tonalität und Intensität zu analysieren und auf einer Weltkarte in Form einer Heatmap darzustellen. Somit konnten zum Beispiel bei den US-Präsidentschaftswahlen die verschiedenen politischen Lager der Bundesstaaten und deren Fortschritte im Laufe des Wahltags in Echtzeit visualisiert werden. Diese ressourcenhungrige Applikation war vor allem auf eins angewiesen: einen riesigen In-Memory-Speicher von 64 Terabyte - das 16.000-Fache eines guten handelsüblichen Laptops. Nur mittels In-Memory können solche Berechnungen und Analysen nativ im System vorgenommen werden, ohne Sie nachher im System zusammenführen und abgleichen zu müssen.

Perfektes Zusammenspiel - In-Memory und Scale-Out

Eine andere Option für solche Projekte ist der Einsatz von Scale-Out-Technologien und Clustern, die jedoch dafür sorgen, dass viele Systeme verbunden und verwaltet werden müssen. Das Limit für den Hauptspeicher ist auf einige Terabyte begrenzt, folglich muss die zu verarbeitende Aufgabe in Arbeitspakete auf das Gesamtsystem aufgeteilt werden. Es gibt interessante Projekte, die NoSQL und Hadoop nutzen, und für einen ersten Überblick über die vorhandenen Daten oder einfache Auswertungen ist Scale-Out ein guter Anfang. Die besten Ergebnisse erhalten Forschung und Industrie aber mit einer Kombination aus In-Memory- und Scale-Out-Auswertungen im Petabyte-Bereich.

Quo vadis, Big Data?

Einer der aufkommenden Trends im Umgang mit Big Data ist neben den Analyseeigenschaften die direkte Verarbeitung und Transaktion beispielsweise im Finanzsektor. Applikationen greifen direkt auf Big Data zu, ohne dass die Daten aufbereitet werden müssen. Bankgeschäfte und Finanztransaktionen können dann genauso einfach vonstatten gehen wie heute mit relationalen Datenbanken. Der Einsatz solcher Technologien in Echtzeit ist essenziell in einer Welt, in der sich alles auf mobile Geräte verlagert. Dabei wird die Bandbreite mitwachsen müssen, um die auszuwertenden Daten transferieren zu können. Heutzutage geht es beispielsweise deutlich schneller, 20 Terabyte von München nach Hamburg auf Festplatten in einem Flugzeug zu versenden als auf digitalem Wege.

Ein mittelfristiger Trend ist die Interaktion mit Big Data mittels Gesten und Sprachsteuerung. Diese Eingabemethoden werden die Tastatur-Maus-Kombination ablösen sowie Probleme und Informationen in einer weitaus umfassenderen Größenordnung greifbarer machen als heute. Daten werden leichter zu filtern und die Ergebnisse besser sein, angefordert durch ein einfaches generisches Sprachkommando oder eine Wischgeste. Apple hat beispielsweise mit Siri und natürlichen Fingergesten gezeigt wie erfolgreich diese Art von Interaktion sein kann.

Der Drucker aus dem Drucker

Zusammenfassend lassen sich die Möglichkeiten, die Big Data-Analysen ermöglichen, kaum alle aufzählen. 3D-Drucker könnten hier eine industrielle Revolution ins Rollen bringen, da Bauteile und ganze Gegenstände aus dem Drucker kommen werden - auch Drucker selbst. Durch die Entwicklung von neuen Materialien und Einsatzzwecken für die gedruckten Komponenten wird sich die produzierende Industrie im Grundsatz verändern.

Die Infrastruktur dahinter - sowohl aus logistischer, aber vor allem aus Informationssicht - wird dabei eine zentrale Rolle spielen. Handelsketten für Bürobedarf oder Baumärkte könnten zu den Fabriken der Zukunft werden, indem die Ware vor Ort gedruckt und auf Kundenwunsch sogar personalisiert wird. Dazu ist die Verarbeitung von riesigen Datenmengen sowie ihre Bereitstellung notwendig. Die benötigte Rechenpower dafür wird immens sein und das übersteigen, was heute erhältlich ist. Innovation darf und wird sich jedoch nicht von Hardwarelimitierungen einschränken lassen. (hv)