Monitoring počítačové sítě
Monitoring počítačové sítě je určen pro sledování stavu počítačové sítě, serverových systémů a služeb. Je určen zejména pro monitoring zařízení ve správě CIT, ale mohou zde být zařazeny i ostatní zařízení a služby v rámci univerzity. Služba zasílá notifikace pomocí elektronické pošty případně se dá nastavit zasílání SMS.
Webové rozhraní je k dispozici na adrese https://monitoring.vsb.cz. Po přihlášení se zobrazí veškeré zařízení a služby, ke kterým máte práva. Seznam osob, kteří mohou zobrazit patřičný objekt jsou oddělené od seznamu osob, kterým jsou zasílány notifikace. Oba seznamy mohou být stejné, ale nemusí.
K dispozici jsou vzdálené kontroly síťových služeb (HTTP, HTTPS, HTTPS Certifikát, SFTP, SSH atd.). Po instalaci agenta (NRPE, NSClient++), lze provádět i lokální kontroly (CPU, RAM, DISK atd.).
Monitorovací server má FQDN nss.vsb.cz a používá IPv4 adresu 158.196.149.136 a IPv6 adresu 2001:718:1001:149::136.
Práce s oznámeními
Univerzitní instance řešení Icinga 2 a jeho grafického rozhraní Icinga Web 2 je ve výchozím stavu nastavena takto:
- kontrola každých 5 minut,
- v případě problému se kontrola provádí co 1 minutu,
- po 3 problémových výsledků kontrol se zasílají notifikace o problémů,
- při přetrvajícím problému se notifikace opakuje každých 24 hodin,
- notifikace nechodí při varovných stavech, pouze při kritických.
Časové intervaly a počty kontrol se dají případně upravit podle požadavků.
Pro objekty typu host se dá definovat závislost. Například pokud je server připojený do přepínač a má nastavenou závislost na tom přepínači, tak v případě výpadku přepínače nebude zasláno další oznámení ohledně nedostupnosti serveru. Nevýhoda ovšem je, že pokud správce serveru nedostává notifikace z daného přepínače, tak nebude informován o nedostupnosti svého serveru.
Základní akce a stavy v rámci webového rozhraní
- Manuální kontrola
- Uživatel si přes tlačítko Check now může nechat provést kontrolu co nejdříve je to možné.
- Vypnutí notifikací
- Uživatel může přepínačem Notifications u hosta nebo služby trvale vypnout zasílání notifikací.
- Pozor: vypnutí notifikací u hosta nevypíná notifikace pro jeho služby!
- Vypnutí aktivních kontrol
- Uživatel může přepínačem Active checks u hosta nebo služby trvale vypnout kontrolu stavu.
- Objekt zůstane v posledním známém stavu a přestane se jeho stav sledovat.
- V řešení (Acknowledge)
- Pokud je služba v problémovém stavu, přes tlačítko Acknowledge lze označit službu, že je v řešení.
- Tento stav vypne opětovné notifikace, ale sleduje stav.
- Výhoda je, že pokud přejde objekt do stavu OK, tak se opět zapnou notifikace.
- Plánovaná údržba
- Uživatel může přes tlačítko Downtimes naplánovat servisní okno.
- Pokud se nastavuje údržba na hosta, tak se ve aplikuje údržba i na všechny služby.
- V základu se údržba plánuje na 1 hodinu od současného času.
- Po dobu údržby se sleduje stav služeb, ale neposílají se notifikace.
- Po ukončení časového okna se notifikace automaticky opět povolí.
- Informace o zahájení a ukončení servisního okna chodí pouze u hosta a pouze na e-mail.
Grafické rozhraní umožňuje v prostředním panelu pomocí kláves SHIFT a CTRL(CMD) provést více násobný výběr. Pokud chce použít nějakou z výše uvedených akcí na více objektech najednou, tak nejjednodušší je přes vyhledávaní tyto objekty najít a poté je všechny označit a v pravém panelu zavolat požadovanou akci, nad všemi vybranými.
Nejčastější příklady použití
- Krátkodobé zásahy na zařízení (aktualizace, restart atd.)
- Před zahájením prací naplánovat údržbu přes Downtimes.
- Na zvolené období budou vypnuty notifikace hosta i všech služeb.
- Všem správcům zařízení dojde oznámení o zahájení a ukončení servisního okna.
- Neplánovaný dlouhodobý problém (odstávka elektřiny, stěhovaní, malování atd.)
- Po příchodu oznámení o výpadku použít tlačítko Acknowledge pro vypnutí opakovaných notifikací.
- Je vhodné do komentáře dopsat důvod nedostupnosti ať se dá s odstupem času dohledat proč je objekt nedostupný.