Monitoring počítačové sítě

Last modified by Petr Havlíček on 03.08.2023 12:57

Monitoring počítačové sítě je určen pro sledování stavu počítačové sítě, serverových systémů a služeb. Je určen zejména pro monitoring zařízení ve správě CIT, ale mohou zde být zařazeny i ostatní zařízení a služby v rámci univerzity. Služba zasílá notifikace pomocí elektronické pošty případně se dá nastavit zasílání SMS.

Webové rozhraní je k dispozici na adrese https://monitoring.vsb.cz. Po přihlášení se zobrazí veškeré zařízení a služby, ke kterým máte práva. Seznam osob, kteří mohou zobrazit patřičný objekt jsou oddělené od seznamu osob, kterým jsou zasílány notifikace. Oba seznamy mohou být stejné, ale nemusí.

K dispozici jsou vzdálené kontroly síťových služeb (HTTP, HTTPS, HTTPS Certifikát, SFTP, SSH atd.). Po instalaci agenta (NRPE, NSClient++), lze provádět i lokální kontroly (CPU, RAM, DISK atd.).

Monitorovací server má FQDN nss.vsb.cz a používá IPv4 adresu 158.196.149.136 a IPv6 adresu 2001:718:1001:149::136.
 

Práce s oznámeními

Univerzitní instance řešení Icinga 2 a jeho grafického rozhraní Icinga Web 2 je ve výchozím stavu nastavena takto:

  • kontrola každých 5 minut,
  • v případě problému se kontrola provádí co 1 minutu,
  • po 3 problémových výsledků kontrol se zasílají notifikace o problémů,
  • při přetrvajícím problému se notifikace opakuje každých 24 hodin,
  • notifikace nechodí při varovných stavech, pouze při kritických.

Časové intervaly a počty kontrol se dají případně upravit podle požadavků.

Pro objekty typu host se dá definovat závislost. Například pokud je server připojený do přepínač a má nastavenou závislost na tom přepínači, tak v případě výpadku přepínače nebude zasláno další oznámení ohledně nedostupnosti serveru. Nevýhoda ovšem je, že pokud správce serveru nedostává notifikace z daného přepínače, tak nebude informován o nedostupnosti svého serveru.

Základní akce a stavy v rámci webového rozhraní

  • Manuální kontrola
    • Uživatel si přes tlačítko Check now může nechat provést kontrolu co nejdříve je to možné.
  • Vypnutí notifikací
    • Uživatel může přepínačem Notifications u hosta nebo služby trvale vypnout zasílání notifikací.
    • Pozor: vypnutí notifikací u hosta nevypíná notifikace pro jeho služby!
  • Vypnutí aktivních kontrol
    • Uživatel může přepínačem Active checks u hosta nebo služby trvale vypnout kontrolu stavu.
    • Objekt zůstane v posledním známém stavu a přestane se jeho stav sledovat.
  • V řešení (Acknowledge)
    • Pokud je služba v problémovém stavu, přes tlačítko Acknowledge lze označit službu, že je v řešení.
    • Tento stav vypne opětovné notifikace, ale sleduje stav.
    • Výhoda je, že pokud přejde objekt do stavu OK, tak se opět zapnou notifikace.
  • Plánovaná údržba
    • Uživatel může přes tlačítko Downtimes naplánovat servisní okno.
    • Pokud se nastavuje údržba na hosta, tak se ve aplikuje údržba i na všechny služby.
    • V základu se údržba plánuje na 1 hodinu od současného času.
    • Po dobu údržby se sleduje stav služeb, ale neposílají se notifikace.
    • Po ukončení časového okna se notifikace automaticky opět povolí.
    • Informace o zahájení a ukončení servisního okna chodí pouze u hosta a pouze na e-mail.

Grafické rozhraní umožňuje v prostředním panelu pomocí kláves SHIFT a CTRL(CMD) provést více násobný výběr. Pokud chce použít nějakou z výše uvedených akcí na více objektech najednou, tak nejjednodušší je přes vyhledávaní tyto objekty najít a poté je všechny označit a v pravém panelu zavolat požadovanou akci, nad všemi vybranými.

Nejčastější příklady použití

  • Krátkodobé zásahy na zařízení (aktualizace, restart atd.)
    • Před zahájením prací naplánovat údržbu přes Downtimes.
    • Na zvolené období budou vypnuty notifikace hosta i všech služeb.
    • Všem správcům zařízení dojde oznámení o zahájení a ukončení servisního okna.
  • Neplánovaný dlouhodobý problém (odstávka elektřiny, stěhovaní, malování atd.)
    • Po příchodu oznámení o výpadku použít tlačítko Acknowledge pro vypnutí opakovaných notifikací.
    • Je vhodné do komentáře dopsat důvod nedostupnosti ať se dá s odstupem času dohledat proč je objekt nedostupný.