Zabbix; 2001’den bu yana geliştirilen, kurumsal altyapı izleme için olgun ve özellik-zengin açık-kaynak çözümdür. Tek bir kurulum binlerce host’u, sunucudan ağ ekipmanına, ortam sensöründen iş uygulamasına kadar izleyebilir. Türkiye’de telekom, kamu, finans ve enerji sektörlerindeki büyük operasyon merkezlerinin neredeyse tamamında Zabbix temel izleme aracı olarak kullanılmaktadır.
Modern bulut-yerel Prometheus + Grafana yığınının aksine, Zabbix tek bir bütün olarak gelir: veri toplama (agent + agentless), veritabanı, trigger motoru, bildirim sistemi ve web UI. Bu, “hızlı kur, kullan” yaklaşımı isteyen kurumlar için ciddi bir avantaj.
Mono’nun yaklaşımı
Mono ekibi Zabbix’i 1500+ host’lu kurumsal kurulumlardan, KOBİ ölçeklerine kadar yöneter. Standart kararlarımız:
- Versiyon: Zabbix 7.0 LTS veya 7.4 (yeni).
- Veritabanı: TimescaleDB (PostgreSQL extension’ı) zorunlu — büyük history tabloları için sıkıştırma + partition.
- Topology: Tek server + 2-3 proxy (uzak veri merkezi/şube’lerden veri toplama). Federe edilmiş topolojide proxy’ler şart.
- Auto-registration: Yeni Linux/Windows host bir Ansible ile kurulurken Zabbix-agent kurulur ve otomatik kaydolur.
- Templates: Mono’nun custom template kütüphanesi: web app, DB cluster, K8s node, iş süreçleri.
- Alarm route’ları: Severity’e göre PagerDuty/Slack/E-mail; rate-limit ile spam kontrolü.
- Dashboards: Hem Zabbix native hem Grafana (zabbix-datasource plugin) — operatörler kendi dashboard’larını yapsın.
Tipik üretim mimarisi
- Zabbix server (HA: 2 node + Pacemaker veya
Zabbix HA cluster6.0+). - TimescaleDB primary + replica.
- Zabbix proxy’ler uzak lokasyonlarda (ek + şube + cloud bölge).
- Zabbix agent2 (Linux/Windows host’larda); ağ ekipmanı SNMP üzerinden.
- Bildirimler: Slack webhook + PagerDuty + e-mail; iş saatleri dışı escalation.
Yaygın sorunlar ve çözümler
- Yavaş web UI: History/trend tablo boyutu. TimescaleDB sıkıştırması + housekeeper ayarı.
- Trigger expression yavaş: Kompleks
evalifadeleri. Calculated item’a taşıyın; trigger basitlast() > Xkalsın. - Discovery patlaması: LLD (Low-level discovery) sürekli yeniden eşliyor. Filtre regex’lerini sıkılaştırın.
- Notification fırtınası: Maintenance, dependency ve trigger expression’da minimum süre filtreleri.
- Yüksek IOPS: History sync workers + cache config; SSD zorunlu.
İlgili hizmetlerimiz
Sıkça sorulan sorular
Zabbix mi Prometheus mu?
Veritabanı için ne kullanmalı?
Auto-discovery ne kadar etkili?
Çok sayıda alarmla nasıl başa çıkılır?
last() and avg(5m)). Bizim de blog’umuzda yazdığımız üzere SLO temelli alarm tasarımına geçmek olası.