Bağlam
Müşteri 11 ilde elektrik dağıtım hizmeti veriyor. Her il müdürlüğü farklı izleme aracı (Nagios, PRTG, lokal Zabbix) kullanıyor; merkezde olay görünürlüğü zayıf. SCADA verileri ile IT izleme verileri ayrı yığınlarda; arıza analizi manuel.
Yaklaşım
- Birleşik mimari — il bazında Zabbix proxy, merkez Zabbix Enterprise + TimescaleDB.
- SCADA → IT köprüsü — MQTT broker (Mosquitto) üzerinden trafo telemetrisi Zabbix’e.
- Loglar — Loki ile merkezîleştirme; il bazında retention politikası.
- Metric’ler — VictoriaMetrics + Grafana; uzun dönem retention için downsampling.
- Alarm yönlendirme — Karma (Alertmanager UI) + il bazında on-call tablosu.
Çözüm ana hatları
- Veri katmanı: Zabbix + TimescaleDB (12 ay full, 5 yıl downsampled).
- Log katmanı: Loki + S3 uyumlu Garage (90 gün hot, 5 yıl cold).
- Metric katmanı: VictoriaMetrics cluster (3 node).
- Görselleştirme: Grafana 11; il bazında 28 dashboard + merkez “operasyon panosu”.
- Alarmlar: Alertmanager; SLO ihlali → otomatik il müdürlüğü çağrı.
Sonuç
MTTD %72 iyileşti; trafo arızası otomatik tespit + uyarı 8 saniye. Merkez operasyon ekibi artık tek panoda 11 ili izliyor. SCADA + IT verisi tek bir korelasyon görünümünde; arıza kök neden analizi (RCA) süresi 4 saatten 35 dakikaya indi.