Bağlam
Müşteri, ödeme + KYC + cüzdan servisleri sunan fintech şirketi. Üretim ortamında 120+ statik threshold alarmı vardı; her hafta 200+ uyarı tetikleniyor, %78’i ya yanlış pozitif ya da harekete geçilmiyor. On-call mühendisler “alarm yorgunluğu” şikayet ediyordu; gerçek olaylar gürültüde kayboluyordu.
Yaklaşım
- Servis kritiklik haritası — 14 core servis için kullanıcı-yolculuğu temelli SLI seçimi.
- SLO tanımı — her servis için availability + latency SLO (örnek: ödeme p99 < 800ms %99,9).
- Error budget — multi-window multi-burn-rate alarm pattern (Google SRE Book yaklaşımı).
- Alarm temizliği — 120 statik alarm → 14 SLO-temelli + 8 kara-kutu canlılık.
- On-call rotasyonu — Grafana On-Call (Oncall) ile yapısal rotasyon + escalation policy.
Çözüm ana hatları
- Metrik kaynağı: Prometheus + Mimir uzun-vadeli depolama.
- SLO tanımı: Sloth ile generative-record (Prometheus rules).
- Görselleştirme: Grafana SLO dashboard’ları + error-budget burn down.
- Alarm: Alertmanager + Grafana On-Call; kritik servis 30s burn → on-call.
- Postmortem: Her olay için blameless postmortem template; zamanlama 5 iş günü.
Sonuç
Haftalık alarm sayısı 200+ → 38. On-call başına gece çağrısı 5 → 0,4. Tüm core servisler %99,9 SLO tutturdu. En önemli kazanım: gerçek olaylar artık gürültüde kaybolmuyor; ekip “alarm yorgunluğu” yerine “kontrollü öncelik” kültürüne geçti.