Hast du dich mal gefragt wie oft deine Webseite eigentlich ausfällt? Weißt du eigentlich, dass Ausfälle völlig normal und sogar gut sind?
Trotzdem ist es wichtig den Überblick über die Verfügbarkeit deiner Webseite zu behalten und proaktiv bei ungeplanten Ausfällen informiert zu werden. In diesem Artikel zeigen wir wie das geht.

Verfügbarkeit
Definition
Die Verfügbarkeit ist die wichtigste Messgröße deiner Webseite. Sie bildet die Basis für alle weiteren Metriken (wie Performance und Usability). Die Verfügbarkeit gibt an, in Prozent, wie oft deine Webseite verfügbar und in einem ordnungsgemäßen Zustand zur Verfügung steht. Umgekehrt ist das Gegenstück die Ausfallzeit oder Nicht-Verfügbarkeit.
Ein Beispiel: Deine Webseite fällt niemals aus und ist zu 100% erreichbar und in einem ordnungsgemäßen Zustand. Dann ist die Verfügbarkeit bei 100% und die Ausfallzeit bei 0% oder 0 Minuten. Das ist in der Realität aber unmöglich zu erreichen, darauf gehen wir weiter unten nochmal genauer ein. Fällt deine Webseite immer für 2h im Monat aus, so kommst du bei durchschnittlich 720 Betriebsstunden und 2 Stunden Ausfallzeit auf eine Verfügbarkeit von 718 Stunden, oder 99,7%.
Was heißt in diesem Kontext nun verfügbar und in einem Ordnungsgemäßen Zustand? In der Regel wird eine Webseite als Verfügbar angesehen, wenn sie mit einem HTTP Statuscode 200 antwortet und ggf. noch binnen einer gewissen Latenz. So werden Zeitpunkte ausgeschlossen in denen du zwar eine Antwort von deiner Webseite bekommst, diese aber aus Nutzersicht wertlos ist, weil sie entweder einen Fehler beinhaltet oder zu langsam geladen hat. Auf das genaue Messverfahren gehen wir weiter unten noch ein.
Exkurs: Definition HTTP Status Codes
Wenn ein Benutzer eine Webseite aufruft, werden neben der visuellen Information noch einige technische Metadaten mitgeliefert. So bekommst du zum Beispiel ein “404 – Diese Seite kann nicht gefunden werden” als Text auf deiner Webseite angezeigt. Dein Browser bekommt den technischen HTTP Status Code “404” ausgeliefert. Neben dem wohl bekanntesten Status Code 404 gibt es aber noch viele Weitere international standardisierte Status Codes (Siehe: https://de.wikipedia.org/wiki/HTTP-Statuscode). Die Status Codes helfen deinem Browser die richtige Einsortierung ob die Webseite nun ordnungsgemäß geantwortet hat und alles in Ordnung ist, oder ob und welchen Fehler es gab.
Wie Ausfälle entstehen
Wie eben beschrieben sind 100% Verfügbarkeit höchst unrealistisch. Das liegt daran, dass für den ordnungsgemäßen Zustand deiner Webseite einige Dinge aufeinander aufbauen und glatt laufen müssen. Hier ein Beispiel:

In diesem stark vereinfachten Beispiel gehen wir davon aus, dass du ein Managed-Hosting für deine WordPress Webseite benutzt und diese selbst konfigurierst. Der Userbereich ist hierbei ausgegraut, weil er für die Verfügbarkeit deiner Webseite keine Rolle spielt. Natürlich benötigt man einen Internetzugang um deine Webseite zu erreichen, aber nur, weil bei einem deiner User das Internet ausgefallen ist, ist deine Webseite nicht gleich auch ausgefallen.
Wenn du mehr dazu wissen willst, welche Komponenten alle benötigt werden damit deine Webseite bei deinem User auf dem Bildschirm oder dem Smartphone angezeigt werden, dann gibt es dafür (bald) einen extra Blogbeitrag.
Damit deine Webseite nun einen HTTP Status Code 200 zurück liefert und in einer gewissen Latenz antwortet, müssen mehrere Komponenten alle gleichzeitig funktionieren und ordnungsgemäß zusammenspielen. Sollte zum Beispiel der Server deines Hosters ausfallen, so ist deine Webseite für alle deine User nicht erreichbar. Das gleiche gilt für das Netzwerk oder eine Fehlkonfiguration auf deiner Seite. So kannst du zum Beispiel durch ein fehlerhaft konfiguriertes Plugin einen HTTP Status Code 500 erzeugen oder die Latenz übermäßig erhöhen.
Warum Ausfälle normal und gut sind
Die 100% Verfügbarkeit ist also aus technischer Sicht unrealistisch. Sie ist aber auch nützlich! Denn wir Menschen sind Gewohnheitstiere und gewöhnen uns auch sehr schnell an ein Komfortlevel. Solltest du nun also 100% Verfügbarkeit erreichen können und dies auch tun, so würden sich deine User daran gewöhnen. Jedoch hast du dann keinen Puffer mehr um potentielle Fehler zu machen (die nun mal passieren und nicht auszuschließen sind) und auch Updates, z.B. an Serverkomponenten sind damit unmöglich.
Dir ist das bestimmt schon mal bei den ganz großen Playern aufgefallen, z.B. Amazon oder auch Netflix haben das gleiche Problem. Ab und zu kannst du beobachten wie die Webseiten kurzzeitig nicht erreichbar sind oder einen Fehler darstellen. Meist hält das nur einige kurze Momente an, bevor alles wieder ordnungsgemäß funktioniert. Aber das ist genau das gleiche Prinzip. Auch hier wird keine 100% Verfügbarkeit angestrebt und auch nicht erreicht.