Es gibt zwei Statustypen in Nagios: SOFT- und HARD-Zustände.
Diese Statustypen sind ein wichtiger Teil der überwachungslogik, da sie zur Ermittlung dienen, wann
Eventhandler ausgeführt und Benachrichtigungen
zuerst versandt werden.
Dieses Dokument beschreibt den Unterschied zwischen SOFT- und HARD-Zuständen, wann sie auftreten und was passiert,
wenn sie auftreten.
Service- und Host-Prüfungswiederholungen
Um falsche Alarme bei vorübergehenden Problemen zu verhindern, erlaubt Ihnen Nagios zu definieren, wie oft ein Service
oder Host (erneut) geprüft werden soll, bevor es als „echtes“ Problem angesehen werden soll. Dies wird durch die
max_check_attempts-Option in den Host- und Service-Definitionen kontrolliert. Zu verstehen, wie Hosts und Services
(erneut) geprüft werden, um festzustellen, ob ein echtes Problem besteht, ist wichtig zum Verstehen, wie Statustypen
arbeiten.
Soft-Zustände
Soft-Zustände treten in den folgenden Situationen auf…
Die folgenden Dinge passieren, wenn bei Hosts oder Services SOFT-Zustandsänderungen auftreten:
SOFT-Zustände werden nur protokolliert, wenn Sie die log_service_retries- oder
die log_host_retries-Option in Ihrer Hauptkonfigurationsdatei aktiviert haben.
Das einzig Wichtige, was bei einem Soft-Zustand passiert, ist die Ausführung von Eventhandlern. Eventhandler zu benutzen,
kann insbesondere dann nützlich sein, wenn Sie versuchen wollen, proaktiv ein Problem zu lösen, bevor es sich in einen
HARD-Zustand verwandelt. Die $HOSTSTATETYPE$- oder
$SERVICESTATETYPE$-Makros werden den Wert “SOFT“ haben, wenn
Eventhandler ausgeführt werden, was es Ihren Eventhandlern erlaubt zu wissen, wann sie fehlerbehebende Aktionen
vornehmen sollen. Mehr Informationen zu Eventhandlern finden Sie hier.
Hard-Zustände
Hard-Zustände treten für Hosts und Services in den folgenden Situationen auf…
Die folgenden Dinge passieren, wenn bei Hosts oder Services HARD-Zustandsänderungen auftreten:
Die $HOSTSTATETYPE$ oder $SERVICESTATETYPE$-Makros werden den Wert “HARD“ haben,
wenn Eventhandler ausgeführt werden, was es Ihren Eventhandlern erlaubt zu wissen, wann sie fehlerbehebende Aktionen
vornehmen sollen. Mehr Informationen zu Eventhandlern finden Sie hier.
Beispiel
Hier ist ein Beispiel, wie Statustypen ermittelt werden, wenn Statusänderungen auftreten und wann Eventhandler ausgeführt
und Benachrichtigungen versandt werden. Die nachfolgende Tabelle zeigt aufeinander folgende Prüfungen eines Service.
Der Service hat einen max_check_attempts-Wert von 3.
| Zeit | Prüfung # | Status | Statustyp | Statuswechsel | Anmerkungen | |
|---|---|---|---|---|---|---|
| 0 | 1 | OK | HARD | Nein | Initialer Zustand des Service | |
| 1 | 1 | CRITICAL | SOFT | Ja | erstes Erkennen eines nicht-OK-Zustandes. Eventhandler wird ausgeführt. | |
| 2 | 2 | WARNING | SOFT | Ja | Service bleibt in einem nicht-OK-Zustand. Eventhandler wird ausgeführt. | |
| 3 | 3 | CRITICAL | HARD | Ja | „max_check_attempts“ wurde erreicht, deshalb geht der Service in einen HARD-Zustand. Eventhandler wird ausgeführt und eine Benachrichtigung versandt. Die Check-Anzahl wird auf 1 zurückgesetzt, sofort nachdem dies passiert. | |
| 4 | 1 | WARNING | HARD | Ja | Service wechselt in einen HARD-WARNING-Status. Eventhandler wird ausgeführt und eine Problembenachrichtigung versandt. | |
| 5 | 1 | WARNING | HARD | Nein | Service stabilisiert sich zu einem HARD-Problemzustand. Abhängig vom Benachrichtigungsintervall für den Service wird ggf. eine weitere Benachrichtigung verschickt. | |
| 6 | 1 | OK | HARD | Ja | Service erfährt eine HARD-Recovery. Eventhandler wird ausgeführt und eine Erholungs-Benachrichtigung wird versandt. | |
| 7 | 1 | OK | HARD | Nein | Service ist weiterhin OK. | |
| 8 | 1 | UNKNOWN | SOFT | Ja | Für den Service wird ein Wechsel zu einem SOFT nicht-OK-Zustand festgestellt. Eventhandler wird ausgeführt. | |
| 9 | 2 | OK | SOFT | Ja | Service erfährt eine SOFT-Recovery. Eventhandler wird ausgeführt, aber keine Benachrichtigung versandt, weil dies kein „echtes“ Problem war. Der Statustyp wird auf HARD gesetzt und die Check-Anzahl auf 1 zurückgesetzt, sofort nachdem dies passiert. | |
| 10 | 1 | OK | HARD | Nein | Service stabilisiert sich zu einem OK-Status. | |