Translations of this page:

Distributed Monitoring

Vortrag von Thomas Stolle (tom)

  • Gründe für Verteilte Umgebungen.
  • Grundsätzlicher Aufbau und prinzipielle Konfiguration.
  • Vor und Nachteile verschiedener Aufbaustrategien.
  • Szenario bei Ausfall einzelner Systeme

Klassische Überwachung

  • Ein Nagios Server überwacht die komplette Umgebung
  • Geeignet für eine begrenzte Anzahl von Hosts und Services.

Grenzen der klassischen Überwachung

  • Ein Nagios Server kann die hohe Anzahl an Checks nicht mehr bewältigen.

Lösungsansatz

  • Ein Nagios Server pro Land

Vorteile:
- Geringere Last jedes einzelnen Nagios Servers.

Nachteile:
- Kein gemeinsames GUI
- Erhöhter Administrationsaufwand
- Weitere Hardware

Lösung

  • Verteilte Nagios Umgebung

Vorteile:
- Geringere Last jedes einzelnen Nagios Servers. - Gemeinsames GUI

Nachteile:
- Erhöhter Administrationsaufwand
- Weitere Hardware
- Hostchecks werden immer noch zentral ausgeführt

Der verteilte Nagios Server

Aufgaben:
- Alle aktiven Checks für seine Hosts durchführen.
- Alle Ereignisse über send_nsca an den zentralen Server übermitteln (obsess_over_services=1).

Besonderheiten:
- Der verteilte Server benötigt kein WEB Interface.
- Er versendet keine Notifications ( enable_notifications=0 ).

Der zentrale Nagios Server

Aufgaben:
- Alle passiven Checks entgegen nehmen.
- Zentrales WEB Interface zur verfügung stellen.
- Notifications versenden.
- Host Checks aktiv durchführen.

Besonderheiten:
- Der zentrale Server muß keine aktiven Checks durchführen.
- Er muss check_external_commands und accept_passiv_service_checks aktiviert haben.

Strategien

Lokationsgruppen

Vorteile:
- Hierrarchische Struktur auf den verteilten Servern.
- Keine unnötigen Checks bei Ausfall von Parents.

Nachteile:
- Erhöhter Administrationsaufwand.

Systemgruppen

Vorteile:
- Einfache Konfiguration.

Nachteile:
- Hierrarchie erst auf dem zentralen Server.
- Unnötige Checks durch verteilte Systeme.

Ausfall eines verteilten Systems

  • Der verteilte Server führt keine Checks mehr aus.
  • Passive Checks bleiben unbeeinträchtigt.
  • Durch Konfiguration von check_freshness kann ein Check durch den zentralen Server erzwungen werden.
  • Check Intervalle vergrößern um Last zu vermeiden.

Konfigurationsbeispiel:

 define service{
 use                    Zentral_Template
 host_name              host1,host2,host3
 service_description    Backup
 check_period           none
 check_freshness        1
 freshness_threshold    7200
 max_check_attempts     1
 is_volatile            1
 check_command          check_backup
 }

Ausfall des zentralen Systems

  • Es steht kein WEB Interface mehr zur Verfügung.
  • Alle passiven Checks laufen ins leere.
  • Notifications werden nicht mehr versandt.

Schadensbegrenzung:

  • Notifications auf den verteilten Servern aktivieren.
  • WEB Interface aktivieren.

Tips

  • Unbedingt nsca Nagios auf den verteilten Systemen überwachen.
  • Mit hilfe von NRPE lassen sich Konfigurationsänderungen auf dem zentralen Server leicht an die verteilten Systeme übetragen. In diesen Fall unbedingt NRPE überwachen.
  • Bei Verwendung von PerfParse können die verteilten Server in eine zentrale Datenbank schreiben.

Zusammenfassung

FIXME

nagios/howtos/dist_mon.txt · Zuletzt geändert: 2007/08/24 08:11 von steinpoller
CC Attribution-Noncommercial-Share Alike 3.0 Unported
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0