Last modified by Petr Havlíček on 03.08.2023 12:57

From version 1.16
edited by Denisa Wernerová
on 29.08.2017 12:43
Change comment: Changed document parent to [xwiki:tuonet.sluzby-protokoly.WebHome].
To version 2.1
edited by Petr Havlíček
on 03.08.2023 12:57
Change comment: Imported from XAR

Summary

Details

Page properties
Author
... ... @@ -1,1 +1,1 @@
1 -XWiki.wer022
1 +XWiki.hav417
Content
... ... @@ -1,57 +1,60 @@
1 -Monitoring počítačové sítě je určen pro monitorování počítačové sítě, systémů a služeb v síti provozovaných. Je určen zejména pro monitoring prvků ve správě CIT, ale je možno jej využít i pro monitoring systémů a služeb provozovaných v počítačové síti VŠB-TU Ostrava. Upozornění o výpadku nebo obnovení provozu služby jsou zasílány prostřednictvím elektronické pošty, popř. prosednictvím SMS.
1 +Monitoring počítačové sítě je určen pro sledování stavu počítačové sítě, serverových systémů a služeb. Je určen zejména pro monitoring zařízení ve správě CIT, ale mohou zde t zařazeny i ostatní zařízení a služby v rámci univerzity. Služba zasílá notifikace pomocí elektronické pošty případně se dá nastavit zasílání SMS.
2 2  
3 -Webové rozhraní monitoringu je k dispozici na adrese [[https:~~/~~/monitoring.vsb.cz>>url:https://monitoring.vsb.cz]]. Při přístupu přes toto rozhraní, uvidíte veškeré systémy u nichž jste veden jako jeden z kontaktů.
3 +Webové rozhraní je k dispozici na adrese [[https:~~/~~/monitoring.vsb.cz>>url:https://monitoring.vsb.cz]]. Poihlášení se zobrazí veškeré zařízení a služby, ke kterým máte práva. Seznam osob, kteří mohou zobrazit patřičný objekt jsou oddělené od seznamu osob, kterým jsou zasílány notifikace. Oba seznamy mohou být stejné, ale nemusí.
4 4  
5 -Bez instalací na straně monitorovaného systému lze monitorovat všechny běžné síťové služby. Tedy například dostupnost web serveru (HTTP, HTTPS vč. virtuálních web serverů), SMTP, FTP, POP3 atd.
5 +K dispozici jsou vzdále kontroly síťových služeb (HTTP, HTTPS, HTTPS Certifikát, SFTP, SSH atd.). Po instalaci agenta (NRPE, NSClient++), lze provádět i lokální kontroly (CPU, RAM, DISK atd.).
6 6  
7 -Pro monitorování vnitřních stavů systémů (např. volná paměť, obsazenost diskových prostorů, zatížení CPU, počet procesů apod.) je vhodné využít NRPE modul, popř. SNMP server. NRPE modul poskytuje větší možnosti správci monitorovaného systému, větší konfigurovatelnost (např. stanovení kritických hodnot). Při použití SNMP je nutné tyto kritické hodnoty definovat na straně monitorovacího systému. Proto je použití NRPE modulu preferováno. Jeho instalace je poměrně jednoduchá a je dostupná pro Unixové i Windows systémy.
7 +Monitorovací server má FQDN nss.vsb.cz a používá IPv4 adresu 158.196.149.136 a IPv6 adresu 2001:718:1001:149::136.
8 +
8 8  
9 -Monitorovací systém má FQDN nss.vsb.cz a používá IPv4 adresu 158.196.149.136 a IPv6 adresu 2001:718:1001:149::136.
10 -\\
10 +== Práce s oznámeními ==
11 11  
12 -**Unixové systémy**
12 +Univerzitní instance řešení Icinga 2 a jeho grafického rozhraní Icinga Web 2 je ve výchozím stavu nastavena takto:
13 13  
14 -Serverový NRPE modul je dostupný ve většině Linuxových distribucí. Kromě něj si nainstalujte také pluginy (Nagios plugins), které bude spouštět. Instalace, konfigurace a spuštění NRPE trvá obvykle cca 30 minut.
14 +* kontrola každých **5 minut**,
15 +* v případě problému se kontrola provádí co **1 minutu**,
16 +* po **3 problémových výsledků** kontrol se zasílají notifikace o problémů,
17 +* při přetrvajícím problému se notifikace opakuje každých **24 hodin**,
18 +* notifikace nechodí při varovných stavech, pouze při **kritických**.
15 15  
16 -Balíčky v distribucích obvykle nesou jméno //nagios-nrpe-server//, //nagios-nrpe-plugin// a //nagios-plugins-basic// (Debian GNU/Linux a Ubuntu).
20 +Časové intervaly a počty kontrol se dapřípadně upravit podle požadavků.
17 17  
18 -Pokud Vaše distribuce neobsahuje příslušné balíky, můžete si stáhnout zdrojo kódy [[NRPE>>url:http://www.nagios.org/download/addons/]] i [[Nagios plugins>>url:http://www.nagios.org/download/download.php]] z Internetu.
22 +Pro objekty typu host se dá definovat závislost. Například pokud je server připoje do epín a má nastavenou závislost na tom přepínači, tak v případě výpadku přepínače nebude zasláno další oznámení ohledně nedostupnosti serveru. Nevýhoda ovšem je, že pokud správce serveru nedostává notifikace z daného přepínače, tak nebude informován o nedostupnosti svého serveru.
19 19  
20 -Konfigurace souboru nrpe.cfg pak obvykle vypadá např. takto:
21 -
22 -## server_port=5666##
23 - ## allowed_hosts=158.196.149.136##
24 - ## nrpe_user=nrpe##
25 - ## nrpe_group=nrpe##
26 - ## dont_blame_nrpe=0##
27 - ## debug=0##
28 - ## command_timeout=60##
29 - ## command[check_load]=/usr/local/nrpe/check_load -w 2,3,3 -c 6,6,6##
30 - ## command[check_disk_root]=/usr/local/nrpe/check_disk 80 90 /dev/sda1##
31 - ## command[check_disk_log]=/usr/local/nrpe/check_disk 80 90 /dev/sda2##
32 - ## command[check_zombie_procs]=/usr/local/nrpe/check_procs -w 5 -c 10 -s Z##
33 - ## command[check_total_procs]=/usr/local/nrpe/check_procs -w 150 -c 200 ##
24 +=== **Základní akce a stavy v rámci webového rozhraní** ===
34 34  
26 +* **Manuální kontrola**
27 +** Uživatel si přes tlačítko //Check now// může nechat provést kontrolu co nejdříve je to možné.
28 +* **Vypnutí notifikací**
29 +** Uživatel může přepínačem //Notifications// u hosta nebo služby **trvale **vypnout zasílání notifikací.
30 +** (% style="color:#e74c3c" %)Pozor: vypnutí notifikací u hosta nevypíná notifikace pro jeho služby!
31 +* **Vypnutí aktivních kontrol**
32 +** Uživatel může přepínačem //Active checks// u hosta nebo služby **trvale **vypnout kontrolu stavu.
33 +** Objekt zůstane v posledním známém stavu a **přestane se jeho stav sledovat**.
34 +* **V řešení (//Acknowledge//)**
35 +** Pokud je služba v problémovém stavu, přes tlačítko //Acknowledge// lze označit službu, že je v řešení.
36 +** Tento stav vypne opětovné notifikace, ale sleduje stav.
37 +** (% style="color:#2ecc71" %)Výhoda je, že pokud přejde objekt do stavu OK, tak se opět zapnou notifikace.
38 +* (% style="color:null" %)**Plánovaná údržba**
39 +** (% style="color:null" %)Uživatel může přes tlačítko //Downtimes// naplánovat servisní okno.
40 +** (% style="color:null" %)Pokud se nastavuje údržba na **hosta**, tak se ve aplikuje údržba i na **všechny služby**.
41 +** V základu se údržba plánuje na **1 hodinu** od současného času.
42 +** Po dobu údržby se sleduje stav služeb, ale neposílají se notifikace.
43 +** Po ukončení časového okna se notifikace automaticky opět povolí.
44 +** Informace o zahájení a ukončení servisního okna chodí pouze u **hosta** a pouze na **e-mail**.
35 35  
36 -**Windows systémy**
46 +(% class="wikigeneratedid" %)
47 +Grafické rozhraní umožňuje v prostředním panelu pomocí kláves //SHIFT a CTRL(CMD)// provést více násobný výběr. Pokud chce použít nějakou z výše uvedených akcí na více objektech najednou, tak nejjednodušší je přes vyhledávaní tyto objekty najít a poté je všechny označit a v pravém panelu zavolat požadovanou akci, nad všemi vybranými.
37 37  
38 -Pro Windows systémy je možno použít program [[NSClient++>>url:http://nsclient.org]]. Konfigurace NSClienta (soubor NSC.ini) vypadá např. takto:
49 +=== ===
39 39  
40 -##[modules]##
41 -## NRPEClient.dll##
42 -##[Settings]##
43 -## allowed_hosts=158.196.149.136##
51 +=== Nejčastější příklady použití ===
44 44  
45 -##[External Alias]##
46 -## alias_cpu=checkCPU warn=80 crit=90 time=5m time=1m time=30s ##
47 -## alias_cpu_ex=checkCPU warn=$ARG1$ crit=$ARG2$ time=5m time=1m time=30s ##
48 -## ... ##
49 -\\
53 +* **Krátkodobé zásahy na zařízení **(aktualizace, restart atd.)
54 +** Před zahájením prací naplánovat údržbu přes** //Downtimes//**//.//
55 +** Na zvolené období budou vypnuty notifikace **hosta i všech služeb**.
56 +** Všem správcům zařízení dojde oznámení o zahájení a ukončení servisního okna.
57 +* **Neplánovaný dlouhodobý problém **(odstávka elektřiny, stěhovaní, malování atd.)
58 +** Po příchodu oznámení o výpadku použít tlačítko **//Acknowledge//** pro vypnutí opakovaných notifikací.
59 +** Je vhodné do komentáře dopsat důvod nedostupnosti ať se dá s odstupem času dohledat proč je objekt nedostupný.
50 50  
51 -**Tipy pro nasazení a běh**
52 -
53 -* Pro monitoring po síti dostupných služeb uvádějte jejich název a neběží-li na std. portech, tak také číslo portu.
54 -* Při žádosti o monitoring interních služeb prostřednictvím NRPE uvádějte jejich aliasy, tj. jména uváděná v hranatých závorkách.
55 -* Při odladění monitoringu je často vhodné zapnout debug mód (debug=1), který správce informuje o všech problémech při běhu. Pro běžnou činnost jej lze bez obav vypnout.
56 -* Chcete-li provozovat např. HTTP prostřednictvím IPv4 a IPv6, tak si nechte monitorovat tuto službu prostřednictvím obou protokolů. Tento způsob monitoringu je doporučen.
57 -* Chcete-li monitorovat svůj systém, spojte se prosím [[správcem monitorovacího systému>>url:http://profily.vsb.cz/pus75]], se kterým se dohodnete na dalším postupu.