Verfuegbarkeit

Was haben eigentlich die vielen Neunen („9“) zu bedeuten?

Die Neunen geben die Verfuebarkeit eines (definierten) Computer-Systems im Rahmen eines Service-Level-Agreements (SLA) in Prozent an. Den deutschen Begriff Dienstguetevereinbarung (DGV) habe ich im verlinkten Wikipedia-Artikel zum ersten Mal gelesen. Sagt man, dass ein System fuenf Neunen hat, ist damit gemeint, dass es zu 99.999% verfuegbar ist. Die Anzahl der Neunen bestimmt dabei die Verfuegbarkeitsklasse.

Allerdings gibt es bei der Berechnung der Verfuegbarkeit Stolpersteine, die beruecksichtigt werden muessen. Ich greife nur einige wenige heraus.

Geplante Wartungsfenster zaehlen im Normalfall nicht zur Verfuegbarkeit. Natuerlich kann man vertraglich anderes vereinbaren oder den Wartungsvertrag beliebig teuer machen. Wer nur minimale Ausfaelle auch bei Wartungsaufgaben haben moechte, muss entsprechend viel Hardware kaufen, um auch die geplante Nicht-Verfuegbarkeit einzelner Komponenten (wegen Upgrades beispielsweise) abzudecken.

Die Definition des Systems fuer die die Vereinbarung gilt, ist sehr wichtig. Man kann sich leicht vorstellen, dass „laeuft“ eine schlechte Definition ist. Was waere ein Server ohne Netzwerkverbindung? Oder man nimmt die Verfuegbarkeit eines Arbeitsplatzes. Es ist denkbar, dass es relativ (!) leicht ist, eine hohe Verfuegbarkeit des Client-Betriebssystems werktags in der Zeit von 07:00-18:00 Uhr zu vereinbaren. Wenn ein Rechner ausfaellt, stellt man „einfach“ einen Ersatzrechner auf, vorausgesetzt, dass die Einstellungen auf Servern liegen. Aber zu einem Arbeitsplatz gehoert viel mehr, wie beispielsweise das Mailprogramm, der Zugriff auf Datenbanken und auf andere Software, mit der die Arbeit erledigt wird. Vielleicht sogar die Verbindung zum Internet. Immer, wenn eine Komponente nicht zugreifbar ist, laeuft die Zeit und knabbert an den Neunen. Im schlimmsten Fall oder eher im Normalfall fallen Systeme selten gleichzeitig aus.

Im Normalfall gibt es Vereinbarungen für verschiedene Bereiche, die sich auch deutlich voneinander unterscheiden koennen. Eine „nahezu hundertprozentige“ Verfuegbarkeit des Netzwerkes wird ja schon fast vorausgesetzt. Was aber, wenn die Bits nur einzeln durch das Netz purzeln? Dann muss auch noch die Dienstequalitaet vereinbart werden (das ist aber hier nicht Bestandteil).

Ein Jahr im gregorianischen Kalender hat 365,2425 Tage = 365 Tage, 5 Stunden, 49 Minuten, 12 Sekunden = 31.556.952 Sekunden - um die krumme Zahl auszugleichen, haben wir Schaltjahre. Ein „normales Jahr“ hat 365 Tage und somit 31536000 Sekunden, gebraeuchlich ist auch, ein Jahr auf 360 Tage oder 31104000 Sekunden zu reduzieren.

Wenn man in einem „normalen Jahr“ Verfuegbarkeiten definieren moechte und die Systeme sollen rund um die Uhr laufen, dann duerfen die Systeme maximal die folgenden Ausfallzeiten pro Jahr haben.

Verfuegbarkeit 90% ~ Maximaler Ausfall von 3153600 Sekunden ~ 36 Tage, 12 Stunden
Verfuegbarkeit 99% ~ Maximaler Ausfall von 315360 Sekunden ~ 3 Tage, 15 Stunden, 36 Minuten
Verfuegbarkeit 99.9% ~ Maximaler Ausfall von 31536 Sekunden ~ 8 Stunden, 45 Minuten, 36 Sekunden (hier beginnt Hochverfuegbarkeit)
Verfuegbarkeit 99.99% ~ Maximaler Ausfall von 3153.6 Sekunden ~ 52 Minuten, 33.6 Sekunden
Verfuegbarkeit 99.999% ~ Maximaler Ausfall von 315.36 Sekunden ~ 5 Minuten, 15.36 Sekunden
Verfuegbarkeit 99.9999% ~ Maximaler Ausfall von 31.536 Sekunden

Hach, drei Tage Ausfall im Jahr sind ja nicht so schlimm … oder? Was ist denn, wenn die Ausfallzeit nicht über das Jahr verteilt auftritt, sondern direkt am Stück? Es gibt sehr viele Unternehmen, bei denen ein dreitaegiger Stillstand zum Ruin fuehrt, so dass die Firma dicht machen muss.

Ist Euch in dem Zusammenhang mal aufgefallen, wie selbstverstaendlich es fuer uns ist, dass das Telefonnetz „immer“ verfuegbar ist und dass wir Ausfaelle von IT-Systemen als gegeben hinnehmen? Seit alles auf VoIP (Voice over IP) umgestellt wird, sind auch die Zeiten der immerwaehrenden Verfuegbarkeit vorbei.

Ein abschliessendes Wort. Je nach gewuenschtem Verfuegbarkeitsgrad muss die Architektur des Systems ausgewaehlt werden. Dabei reicht die Bandbreite von „Ersatzteile und -geraete verfuegbar halten“ ueber „Hot- und Cold-Standby-Systeme“ bis hin zu Lastverteilung, Ausweichrechenzentren und dergleichen mehr. Wir werden hier sicher noch Loesungen vorstellen.

Zurück zur Uebersicht