Ausfallsicherheit lässt sich planen

So sichern Unternehmen ihre geschäftskritischen IT-Systeme

22.10.2018 von Bernd Hanstein

Jedes Rechenzentrum kann theoretisch einmal ausfallen. Eine systematische Planung hilft dabei, Komponenten wie Strom, Kühlung oder das Monitoring vor einem Ausfall zu schützen. Was IT-Verantwortliche bei der Realisierung von ausfallsicheren Rechenzentren beachten sollten, zeigt der folgende Beitrag.

Wer richtig plant, kann seine IT-Systeme vor Ausfällen schützen.
Foto: Connect world - shutterstock.com

Die Verfügbarkeit einer IT-Umgebung lässt sich gemäß der amerikanischen Beratungsgesellschaft Uptime Institute in die vier Verfügbarkeitsklassen Tier 1 bis Tier 4 einstufen. Die niedrigste Tier 1-Stufe erlaubt eine jährliche Ausfallzeit von rund 29 Stunden und kommt ohne Redundanzen für die Energie- und Kälteverteilung aus. Am anderen Ende der Skala erlaubt die Tier 4-Klassifizierung nur 0,4 Stunden Ausfallzeit im Jahr. Hier sind Versorgungswege mehrfach doppelt ausgelegt und eine Wartung ist im laufenden Betrieb möglich, ohne dass es zu einem IT-Stillstand kommt.

In Europa orientieren sich Unternehmen heute an der DIN EN 50600. Diese Norm macht mit einem ganzheitlichen Ansatz umfassende Vorgaben für die Planung, den Neubau und den Betrieb eines Rechenzentrums. Die dort definierte höchste Verfügbarkeitsklasse 4 (VK 4) gibt keine konkreten quantitativen Angaben zu Ausfallzeiten, sondern macht konzeptionelle Vorgaben für eine „sehr hohe Verfügbarkeit“. So sieht die VK 4 eine Auslegung mit Systemredundanzen vor, schlägt also doppelte Versorgungspfade vor, jedoch nur ein Kälteversorgungpfad. Eine weitere Klassifizierung zur Ausfallsicherheit kommt vom Bundesamt für Sicherheit in der Informationstechnik (BSI), das die VK 4 mit 99,999 Prozent definiert, was eine Ausfallzeit von 26 Sekunden im Monat bzw. 6 Minuten im Jahr erlaubt.

Ausfallsicherheit – viel hilft viel

Den Anforderungen einer hohen Ausfallsicherheit begegnen IT-Verantwortliche über das Konzept einer redundant ausgelegten Infrastruktur. Im Bereich der IT bedeutet Redundanz, dass funktional vergleichbare Ressourcen doppelt vorgehalten werden. Es werden also Überkapazitäten geschaffen, um einen Hardware-Ausfall ausgleichen zu können. Die einfachste Form ist die N+1-Redundanz. Hier wird zusätzlich zu den benötigten Einheiten eine weitere Komponente bereitgestellt – also die benötige Einheit N (=Need) plus eins. Fällt in einer solchen Architektur eine Komponente aus, übernimmt die Standby-Einheit. Ausgehend von diesen theoretischen Überlegungen erfolgt die Optimierung der Ausfallsicherheit auf Hardware-Ebene über die Gewerke Strom, Kühlung und Monitoring.

Mit A/B-Einspeisung die Stromversorgung sichern

Die Energieversorgung zu sichern, ist eine zentrale Aufgabe beim Betrieb von Rechenzentren. Netzschwankungen und kurzzeitige Ausfälle werden durch batteriegepufferte USV-Anlagen abgesichert. Arbeitet die USV mit einer modularen Architektur, muss die Gesamtanlage nicht vollständig redundant ausgelegt werden. Vielmehr können ein oder zwei USV-Module dafür vorgesehen werden, um den Ausfall eines anderen Moduls aufzufangen. Der Vorteil sind geringe Kosten, da weniger Standby-Einheiten benötigt werden. Dies lässt sich um das 2N-Konzept erweitern: Hier speisen zwei unterschiedliche Netzzuleitungen die USV-Systeme. Diese sogenannte A/B-Einspeisung sorgt dafür, dass die Energieversorgung immer über eine Zuleitung gesichert wird. Bei höchster Ausfallsicherheit werden die einzelnen Energiepfade bis auf Ebene der IT-Racks redundant ausgelegt. Ein automatischer Transferschalter (STS - Static Transfer Switch) schaltet die jeweils aktive Energiequelle automatisch auf den Strompfad, sodass zu jeder Zeit die Stromversorgung gesichert ist.

Das könnte Sie auch interessieren:

Wie Data-Center-Betreiber Ausfälle vermeiden

In fünf Schritten zum Next Generation Data Center

IT-Kühlung gegen Stromspitzen schützen

Eine weitere kritische Komponente im Rechenzentrum sind die Kühlsysteme: Fällt die Kälteerzeugung aus, besteht die Gefahr einer Überhitzung und Beschädigung der Server. Wird höchste Ausfallsicherheit benötigt, sollte die IT-Kühlung um eine USV-Anlage ergänzt werden, um Stromspitzen und Schwankungen im Stromnetz auszugleichen. Der Fachbegriff für eine unterbrechungsfreie IT-Kühlung: „Continuous cooling“. Darüber hinaus wird bei Kühlsystemen üblicherweise keine A/B-Absicherung der Energieversorgung verwendet. Auch werden keine doppelten Wasserkreise installiert.

Für eine Notkühlung kann es unter Umständen genügen, die Türen der IT-Racks über eine Automatik zu öffnen, um so einen Hitzestau zu verhindern. Letztlich geht es aber bei einem Ausfall der Kühlung primär darum, die Server schnell und ohne Datenverlust herunterzufahren, um die Hardware vor Folgeschäden zu schützen.

Herausforderungen 2018: Server, Virtualisierung und Datacenter

Heinz-Jörg Robert, Axians
"Der Weg zu einem einheitlichen Hybrid-Cloud-Betriebsmodell wird die Agenda der IT-Abteilungen 2018 dominieren."

Uwe Müller, Cisco
"Die Verwaltung von hybriden Umgebungen erfordert Management-Systeme, die in der Lage sind, multiple Clouds und verschiedene Technologien unter eine einheitliche Oberfläche zu stellen.“

Peter Dümig, Dell EMC
"Ein zentraler Trend sind hyperkonvergente Infrastruktur-Lösungen. Hier beobachten wir ein starkes Wachstum und großes Interesse an solchen Lösungen als Plattform für Virtualisierung und Software Defined Storage (SDS) in allen Ausprägungen."

Michael Homborg, Fujitsu
„In den Bereichen Server, Server-Virtualisierung und Datacenter setzen sich 2018 insbesondere drei Trends fort: Software-Defined Datacenter (SDDC), die Implementierung von modularen Servern sowie der Einsatz von OpenStack als universeller Cloud-Plattform.“

Stefan Weber, HPE
„Hybride IT-Infrastrukturen umfassen nicht mehr nur das lokale Rechenzentrum und verschiedene Clouds, sondern zunehmend auch IT außerhalb der Rechenzentren, sprich: Edge Computing direkt am Ort der Datenentstehung, in Fabriken, Stadien oder Einkaufszentren. Durch die Verzahnung von verschiedenen Formen von lokaler IT und Clouds steigt aber die Komplexität."

Ingolf Wittmann, IBM
"Aktuelle und kurzfristige Themen sind Edge Computing, Persistent Memory und Docker. In Zeiten von IoT und Industrie 4.0 fallen unglaublich viele Daten von Sensoren und Geräten an, welche in Echtzeit verarbeitet werden müssen. "

Dieter Stehle, Lenovo
„2018 werden sich IT-Verantwortliche im Bereich Server bzw. Server-Virtualisierung ganz stark mit schlüsselfertigen Lösungen auseinander setzen. Die Modularität und Skalierbarkeit hyperkonvergenter Lösungen gewinnt künftig eine immer stärkere Bedeutung. Im Bereich Datacenter spielen 2018 unserer Ansicht nach die Hybrid Cloud sowie As-a-Service Angebote und Managed Service Provider eine ganz wichtige Rolle."

Michael Haderer, Thomas Krenn
„Allgemeine IT-Trends wie Machine Learning, IoT, und Industrie 4.0 bestimmen 2018 auch die Trends in der Serverlandschaft. Dafür müssen schnell wachsende Datenmengen sowohl gespeichert als auch analysiert werden."

Energieversorgung für das Monitoring beachten

Der dritte Aspekt auf Hardware-Ebene ist das Monitoring. Das zur Überwachung der Infrastruktur verwendete Monitoring-System sollte über eine redundante Stromversorgung gesichert werden. So ist es möglich, zusätzlich zu einem regulären Stromkreis das System über PoE (Power over Ethernet) abzusichern. Höchste Sicherheit bietet eine vollständig gespiegelte Monitoring-Plattform, die dann zum Beispiel als Monitor A und Monitor B Instanz arbeitet.

Kann man den Totalausfall absichern?

Für eine abschließende Risikobewertung sollten Unternehmen die drei Gewerke Strom, Kühlung und Monitoring im Detail analysieren. Um potenzielle Schwachpunkte zu entdecken und konkrete Angaben für die Risikobewertung zu erhalten, werden verschiedene Szenarien gedanklich durchgespielt. Hier hilft die Fragestellung „Was passiert, wenn...“. Mögliche Szenarien könnten sein, dass ein Bagger eine Stromleitung kappt, dass ein Chiller wegen einem Hardware-Defekt ausfällt oder dass ein Systemfehler wegen Ausfall des Monitorings mehrere Stunden unbemerkt bleibt. IT-Manager sollten auch die operativen Folgeprozesse und Meldeketten im Detail analysieren. Fällt zum Beispiel die IT-Kühlung aus, bleiben mitunter nur wenige Minuten an Reaktionszeit, bis die Hardware beschädigt wird oder es sogar zu einem Brand kommt. Auch Meldeketten sind zu prüfen und mit Personaleinsatzplänen abzugleichen, damit Administratoren keine Warnmeldungen erhalten, wenn sie in Urlaub oder zu Hause sind. In der Praxis zeigt sich immer wieder, dass diese Meldeketten unsauber definiert sind oder nicht ausreichend aktuell gehalten werden, sodass kritische Warnmeldungen ins Leere laufen könnten.

Welche Art von Hochverfügbarkeit letztlich benötigt wird, muss jede Organisation individuell bestimmen. Bei IT-Anlagen in der Produktion können beispielsweise Wartungsintervalle in der Fabrikhalle auch für den IT-Service genutzt werden. Damit wäre eine Tier 2-Verfügbarkeit mit einer N+1-Redundanz ausreichend. Weiterhin können große Maschinen beim Anfahren zu Stromschwankungen innerhalb der Fabrikhalle führen, sodass zusätzliche USV-Anlagen die IT sowie die Kühlsysteme schützen sollten.

Skalierbares Monitoring für Edge-Infrastrukturen

Darüber hinaus sollten IT-Manager schon heute mit Blick auf künftige IT-Infrastrukturen das Monitoring planen: Dezentral betriebene Edge-Rechenzentren verlangen angepasste Konzepte an Überwachung und Systembetrieb. Hier kann es sinnvoll sein, Cloud-basierende DCIM-Lösungen (Data Center Infrastructure Management) als Service zu nutzen. Der Vorteil: das Monitoring skaliert in gleicher Weise wie die Edge-Infrastruktur. Bei einer dezentralen Edge-Infrastruktur wäre es beispielsweise schnell möglich, über einen zusätzlichen Container eine N+1-Redundanz aufzubauen. Alternativ sind Redundanzen über die modulare Bauform möglich, wenn also eine oder zwei Komponenten als Standby-Modul konzipiert werden – ähnlich wie dies bei USV-Systemen bereits praktiziert wird.

Lesen Sie mehr rund um das Thema Data Center:

Data Center als Schlüssel zum Unternehmenserfolg

Rechenzentren auf dem Mond

So wird Ihr Rechenzentrum modern

Data Center in die Cloud migrieren - das müssen Sie beachten

Data Center im Wandel - IT-Herausforderungen 2018

Fazit

Wer ein Konzept für höchstmögliche Ausfallsicherheit benötigt, betreibt seine Rechenzentren an zwei getrennten, nicht öffentlich erkennbaren Standorten mit Mindestentfernungen und gespiegelten Komponenten. Verwendet ein Unternehmen für seine IT-Infrastruktur überwiegend Standardkomponenten, so lassen sich diese im Fehlerfall schneller austauschen. Damit sinken die Ausfallzeiten und nebenbei wird auch die Komplexität im Rechenzentrum verringert.

Zusätzlich sollte der IT-Betrieb durch ein umfassendes Business Continuity Management abgesichert werden, um ein Konzept zur Weiterführung operativer Geschäftsabläufe zu haben, falls es dennoch zu einem Ausfall kommt. Letztlich muss jedoch jeder verantwortliche Manager für seine Organisation evaluieren, welche Auswirkungen ein IT-Ausfall hat und dementsprechend ein individuelles Konzept für die Ausfallsicherheit realisieren.


So erkennen Sie, ob ein erhöhtes IT-Ausfallrisiko besteht
• Die prinzipiellen Risiken im Rechenzentrum sind nicht definiert; z.B. reichen Laufzeiten der Dieselgeneratoren aus für Notfallmaßnahmen? • Im IT-Betrieb traten vereinzelt Störfälle auf, die sich nicht eindeutig klären ließen.? • Ein Krisenhandbuch für Störfälle ist unvollständig und veraltet; Maßnahmen werden nicht regelmäßig geübt. • Meldeketten für IT-Störungen wurden bislang nicht auf Logik und Durchgängigkeit geprüft. • Die Ausgestaltung von IT-Wartungsverträgen und Verantwortlichkeiten ist in Teilbereichen unklar. • Der Lebenszyklus von Infrastrukturkomponenten wird nicht durchgängig erfasst. • Die IT-Experten sind nicht ausreichend geschult für die Bedienung der Klimageräte.

(hal)