İçeriğe geç
Vaka çalışması

Fintech için SLO temelli uyarı sistemi

Threshold tabanlı alarm gürültüsünden SLO + error budget temelli uyarı sistemine geçiş; uyarı yorgunluğu %80 azaldı.

Müşteri Anonim Fintech
Sektör Bankacılık & Finans
Süre 4 ay
Yıl 2025

Bağlam

Müşteri, ödeme + KYC + cüzdan servisleri sunan fintech şirketi. Üretim ortamında 120+ statik threshold alarmı vardı; her hafta 200+ uyarı tetikleniyor, %78’i ya yanlış pozitif ya da harekete geçilmiyor. On-call mühendisler “alarm yorgunluğu” şikayet ediyordu; gerçek olaylar gürültüde kayboluyordu.

Yaklaşım

  1. Servis kritiklik haritası — 14 core servis için kullanıcı-yolculuğu temelli SLI seçimi.
  2. SLO tanımı — her servis için availability + latency SLO (örnek: ödeme p99 < 800ms %99,9).
  3. Error budget — multi-window multi-burn-rate alarm pattern (Google SRE Book yaklaşımı).
  4. Alarm temizliği — 120 statik alarm → 14 SLO-temelli + 8 kara-kutu canlılık.
  5. On-call rotasyonu — Grafana On-Call (Oncall) ile yapısal rotasyon + escalation policy.

Çözüm ana hatları

  • Metrik kaynağı: Prometheus + Mimir uzun-vadeli depolama.
  • SLO tanımı: Sloth ile generative-record (Prometheus rules).
  • Görselleştirme: Grafana SLO dashboard’ları + error-budget burn down.
  • Alarm: Alertmanager + Grafana On-Call; kritik servis 30s burn → on-call.
  • Postmortem: Her olay için blameless postmortem template; zamanlama 5 iş günü.

Sonuç

Haftalık alarm sayısı 200+ → 38. On-call başına gece çağrısı 5 → 0,4. Tüm core servisler %99,9 SLO tutturdu. En önemli kazanım: gerçek olaylar artık gürültüde kaybolmuyor; ekip “alarm yorgunluğu” yerine “kontrollü öncelik” kültürüne geçti.

%80

Uyarı yorgunluğunda azalma

5 → 0,4

On-call başına gece çağrısı (haftalık ort.)

%99,9

Tüm core servislerde tutturulan SLO

Bir sonraki dönüşümü birlikte planlayalım.

Ekibimiz teknik gereksinimlerinizi anlamak ve hızlıca prototip çıkarmak için hazır.