Foto: Connect world - shutterstock.com
Die Verfügbarkeit einer IT-Umgebung lässt sich gemäß der amerikanischen Beratungsgesellschaft Uptime Institute in die vier Verfügbarkeitsklassen Tier 1 bis Tier 4 einstufen. Die niedrigste Tier 1-Stufe erlaubt eine jährliche Ausfallzeit von rund 29 Stunden und kommt ohne Redundanzen für die Energie- und Kälteverteilung aus. Am anderen Ende der Skala erlaubt die Tier 4-Klassifizierung nur 0,4 Stunden Ausfallzeit im Jahr. Hier sind Versorgungswege mehrfach doppelt ausgelegt und eine Wartung ist im laufenden Betrieb möglich, ohne dass es zu einem IT-Stillstand kommt.
In Europa orientieren sich Unternehmen heute an der DIN EN 50600. Diese Norm macht mit einem ganzheitlichen Ansatz umfassende Vorgaben für die Planung, den Neubau und den Betrieb eines Rechenzentrums. Die dort definierte höchste Verfügbarkeitsklasse 4 (VK 4) gibt keine konkreten quantitativen Angaben zu Ausfallzeiten, sondern macht konzeptionelle Vorgaben für eine „sehr hohe Verfügbarkeit“. So sieht die VK 4 eine Auslegung mit Systemredundanzen vor, schlägt also doppelte Versorgungspfade vor, jedoch nur ein Kälteversorgungpfad. Eine weitere Klassifizierung zur Ausfallsicherheit kommt vom Bundesamt für Sicherheit in der Informationstechnik (BSI), das die VK 4 mit 99,999 Prozent definiert, was eine Ausfallzeit von 26 Sekunden im Monat bzw. 6 Minuten im Jahr erlaubt.
Ausfallsicherheit – viel hilft viel
Den Anforderungen einer hohen Ausfallsicherheit begegnen IT-Verantwortliche über das Konzept einer redundant ausgelegten Infrastruktur. Im Bereich der IT bedeutet Redundanz, dass funktional vergleichbare Ressourcen doppelt vorgehalten werden. Es werden also Überkapazitäten geschaffen, um einen Hardware-Ausfall ausgleichen zu können. Die einfachste Form ist die N+1-Redundanz. Hier wird zusätzlich zu den benötigten Einheiten eine weitere Komponente bereitgestellt – also die benötige Einheit N (=Need) plus eins. Fällt in einer solchen Architektur eine Komponente aus, übernimmt die Standby-Einheit. Ausgehend von diesen theoretischen Überlegungen erfolgt die Optimierung der Ausfallsicherheit auf Hardware-Ebene über die Gewerke Strom, Kühlung und Monitoring.
Mit A/B-Einspeisung die Stromversorgung sichern
Die Energieversorgung zu sichern, ist eine zentrale Aufgabe beim Betrieb von Rechenzentren. Netzschwankungen und kurzzeitige Ausfälle werden durch batteriegepufferte USV-Anlagen abgesichert. Arbeitet die USV mit einer modularen Architektur, muss die Gesamtanlage nicht vollständig redundant ausgelegt werden. Vielmehr können ein oder zwei USV-Module dafür vorgesehen werden, um den Ausfall eines anderen Moduls aufzufangen. Der Vorteil sind geringe Kosten, da weniger Standby-Einheiten benötigt werden. Dies lässt sich um das 2N-Konzept erweitern: Hier speisen zwei unterschiedliche Netzzuleitungen die USV-Systeme. Diese sogenannte A/B-Einspeisung sorgt dafür, dass die Energieversorgung immer über eine Zuleitung gesichert wird. Bei höchster Ausfallsicherheit werden die einzelnen Energiepfade bis auf Ebene der IT-Racks redundant ausgelegt. Ein automatischer Transferschalter (STS - Static Transfer Switch) schaltet die jeweils aktive Energiequelle automatisch auf den Strompfad, sodass zu jeder Zeit die Stromversorgung gesichert ist.
Das könnte Sie auch interessieren:
Wie Data-Center-Betreiber Ausfälle vermeiden
In fünf Schritten zum Next Generation Data Center
IT-Kühlung gegen Stromspitzen schützen
Eine weitere kritische Komponente im Rechenzentrum sind die Kühlsysteme: Fällt die Kälteerzeugung aus, besteht die Gefahr einer Überhitzung und Beschädigung der Server. Wird höchste Ausfallsicherheit benötigt, sollte die IT-Kühlung um eine USV-Anlage ergänzt werden, um Stromspitzen und Schwankungen im Stromnetz auszugleichen. Der Fachbegriff für eine unterbrechungsfreie IT-Kühlung: „Continuous cooling“. Darüber hinaus wird bei Kühlsystemen üblicherweise keine A/B-Absicherung der Energieversorgung verwendet. Auch werden keine doppelten Wasserkreise installiert.
Für eine Notkühlung kann es unter Umständen genügen, die Türen der IT-Racks über eine Automatik zu öffnen, um so einen Hitzestau zu verhindern. Letztlich geht es aber bei einem Ausfall der Kühlung primär darum, die Server schnell und ohne Datenverlust herunterzufahren, um die Hardware vor Folgeschäden zu schützen.
Energieversorgung für das Monitoring beachten
Der dritte Aspekt auf Hardware-Ebene ist das Monitoring. Das zur Überwachung der Infrastruktur verwendete Monitoring-System sollte über eine redundante Stromversorgung gesichert werden. So ist es möglich, zusätzlich zu einem regulären Stromkreis das System über PoE (Power over Ethernet) abzusichern. Höchste Sicherheit bietet eine vollständig gespiegelte Monitoring-Plattform, die dann zum Beispiel als Monitor A und Monitor B Instanz arbeitet.
Kann man den Totalausfall absichern?
Für eine abschließende Risikobewertung sollten Unternehmen die drei Gewerke Strom, Kühlung und Monitoring im Detail analysieren. Um potenzielle Schwachpunkte zu entdecken und konkrete Angaben für die Risikobewertung zu erhalten, werden verschiedene Szenarien gedanklich durchgespielt. Hier hilft die Fragestellung „Was passiert, wenn...“. Mögliche Szenarien könnten sein, dass ein Bagger eine Stromleitung kappt, dass ein Chiller wegen einem Hardware-Defekt ausfällt oder dass ein Systemfehler wegen Ausfall des Monitorings mehrere Stunden unbemerkt bleibt. IT-Manager sollten auch die operativen Folgeprozesse und Meldeketten im Detail analysieren. Fällt zum Beispiel die IT-Kühlung aus, bleiben mitunter nur wenige Minuten an Reaktionszeit, bis die Hardware beschädigt wird oder es sogar zu einem Brand kommt. Auch Meldeketten sind zu prüfen und mit Personaleinsatzplänen abzugleichen, damit Administratoren keine Warnmeldungen erhalten, wenn sie in Urlaub oder zu Hause sind. In der Praxis zeigt sich immer wieder, dass diese Meldeketten unsauber definiert sind oder nicht ausreichend aktuell gehalten werden, sodass kritische Warnmeldungen ins Leere laufen könnten.
Welche Art von Hochverfügbarkeit letztlich benötigt wird, muss jede Organisation individuell bestimmen. Bei IT-Anlagen in der Produktion können beispielsweise Wartungsintervalle in der Fabrikhalle auch für den IT-Service genutzt werden. Damit wäre eine Tier 2-Verfügbarkeit mit einer N+1-Redundanz ausreichend. Weiterhin können große Maschinen beim Anfahren zu Stromschwankungen innerhalb der Fabrikhalle führen, sodass zusätzliche USV-Anlagen die IT sowie die Kühlsysteme schützen sollten.
Skalierbares Monitoring für Edge-Infrastrukturen
Darüber hinaus sollten IT-Manager schon heute mit Blick auf künftige IT-Infrastrukturen das Monitoring planen: Dezentral betriebene Edge-Rechenzentren verlangen angepasste Konzepte an Überwachung und Systembetrieb. Hier kann es sinnvoll sein, Cloud-basierende DCIM-Lösungen (Data Center Infrastructure Management) als Service zu nutzen. Der Vorteil: das Monitoring skaliert in gleicher Weise wie die Edge-Infrastruktur. Bei einer dezentralen Edge-Infrastruktur wäre es beispielsweise schnell möglich, über einen zusätzlichen Container eine N+1-Redundanz aufzubauen. Alternativ sind Redundanzen über die modulare Bauform möglich, wenn also eine oder zwei Komponenten als Standby-Modul konzipiert werden – ähnlich wie dies bei USV-Systemen bereits praktiziert wird.
Lesen Sie mehr rund um das Thema Data Center:
Data Center als Schlüssel zum Unternehmenserfolg
So wird Ihr Rechenzentrum modern
Data Center in die Cloud migrieren - das müssen Sie beachten
Data Center im Wandel - IT-Herausforderungen 2018
Fazit
Wer ein Konzept für höchstmögliche Ausfallsicherheit benötigt, betreibt seine Rechenzentren an zwei getrennten, nicht öffentlich erkennbaren Standorten mit Mindestentfernungen und gespiegelten Komponenten. Verwendet ein Unternehmen für seine IT-Infrastruktur überwiegend Standardkomponenten, so lassen sich diese im Fehlerfall schneller austauschen. Damit sinken die Ausfallzeiten und nebenbei wird auch die Komplexität im Rechenzentrum verringert.
Zusätzlich sollte der IT-Betrieb durch ein umfassendes Business Continuity Management abgesichert werden, um ein Konzept zur Weiterführung operativer Geschäftsabläufe zu haben, falls es dennoch zu einem Ausfall kommt. Letztlich muss jedoch jeder verantwortliche Manager für seine Organisation evaluieren, welche Auswirkungen ein IT-Ausfall hat und dementsprechend ein individuelles Konzept für die Ausfallsicherheit realisieren.
So erkennen Sie, ob ein erhöhtes IT-Ausfallrisiko besteht |
• Die prinzipiellen Risiken im Rechenzentrum sind nicht definiert; z.B. reichen Laufzeiten der Dieselgeneratoren aus für Notfallmaßnahmen? |
(hal)