Hoch zu: Inhalt
Siehe auch:
Passive Checks,
Verteilte Überwachung,
Redundante und Failover-Überwachung
Einführung
Nagios unterstützt ein Feature, das die „Frische“ (Freshness) der Host- und Service-Checks überprüft.
Der Zweck der Frische-Prüfung ist es, bei passiven Host- und Service-Prüfungen sicherzustellen, dass diese
regelmäßig von externen Applikationen zur Verfügung gestellt werden.
Frische-Prüfungen sind sinnvoll, wenn Sie sicherstellen wollen, dass passive Prüfungen
so regelmäßig empfangen werden wie Sie das erwarten. Das kann in verteilten
und Failover Überwachungsumgebungen sehr sinnvoll sein.
Wie funktioniert die Frische-Prüfung?
Nagios prüft periodisch die Frische der Ergebnisse für alle Hosts und Services, bei denen Frische-Prüfungen aktiviert sind.
Hinweis: Eine aktive Prüfung wird ausgeführt, selbst wenn aktive Prüfungen programmweit oder auf Host- bzw. Service-spezifischer Basis deaktiviert sind.
Wenn Sie beispielsweise einen Frische-Schwellwert von 60 für einen Ihrer Services haben, wird Nagios diesen Service als abgestanden ansehen, wenn das letzte Prüfergebnis älter als 60 Sekunden ist.
Frische-Prüfungen aktivieren
Was Sie tun müssen, um Frische-Prüfungen zu aktivieren…
Hinweis: Wenn Sie keinen Host- oder Service-spezifischen freshness_threshold-Wert angeben (oder ihn auf Null setzen),
wird Nagios automatisch einen Schwellwert berechnen, der darauf basiert, wie oft Sie den jeweiligen Host- oder Service überwachen.
Ich würde empfehlen, dass Sie explizit einen Frische-Schwellwert angeben, statt dass Nagios einen für Sie auswählt.
Beispiel
Ein Beispiel für einen Service, der eine Frische-Prüfung benötigen könnte, wäre einer, der den Status
Ihrer nächtlichen Backups meldet. Vielleicht haben Sie ein externes Script, welches das Ergebnis des Backup-Jobs an
Nagios meldet, sobald das Backup beendet ist. In diesem Fall werden alle Prüfungen/Ergebnisse für diesen Service
durch eine externe Applikation mit Hilfe von passiven Prüfungen zur Verfügung gestellt.
Um sicherzustellen, dass der Status des Backup-Jobs täglich gemeldet wird, können Sie die Frische-Prüfung
für diesen Service aktivieren. Falls das externe Script das Ergebnis des Backup-Jobs nicht meldet, kann Nagios ein
kritisches Ergebnis imitieren, indem man folgendes tut…
Nachfolgend, wie die Definition für den Service aussehen könnte (einige benötigte Optionen fehlen…)
define service{
host_name backup-server
service_description ArcServe Backup Job
active_checks_enabled 0 ; aktive Prüfungen sind NICHT aktiviert
passive_checks_enabled 1 ; passive Prüfungen sind aktiviert (dadurch werden Ergebnisse gemeldet)
check_freshness 1
freshness_threshold 93600 ; 26 Stunden Schwellwert, nachdem Backups nicht immer zur gleichen Zeit beendet sind
check_command no-backup-report ; dieses Kommando wird nur ausgeführt, wenn der Service als "abgestanden" angesehen wird
...andere Optionen...
}
Beachten Sie, dass aktive Prüfungen für den Service deaktiviert sind. Das ist so, weil die Ergebnisse für
den Service nur durch eine externe Applikation geliefert werden. Die Frische-Prüfung ist aktiviert und der Frische-Schwellwert
ist auf 26 Stunden gesetzt. Das ist ein bisschen mehr als 24 Stunden, weil Backup-Jobs ab und zu länger dauern (abhängig
davon, wie viele Daten zu sichern sind, wie viel Netzwerkverkehr herrscht, usw.). Das no-backup-report-Kommando wird nur
ausgeführt, wenn die Ergebnissse des Service als abgestanden angesehen werden. Die Definition des no-backup-report-Kommandos
könnte wie folgt aussehen…
define command{
command_name no-backup-report
command_line /usr/local/nagios/libexec/check_dummy 2 "CRITICAL: Results of backup job were not reported!"
}
Falls Nagios erkennt, dass das Service-Ergebnis abgestanden ist, wird es das no-backup-report-Kommando als eine aktive
Service-Prüfung ausführen. Das führt dazu, dass das check_dummy-Plugin ausgeführt wird, das einen kritischen Status an Nagios meldet. Der Service wird dann in einen kritischen Zustand gehen (falls das nicht bereits der Fall ist) und wahrscheinlich wird jemand über das Problem informiert.