Bağlam
Müşterinin Black Friday gibi sezonluk yoğunluklarda kapasitesi tıkanıyor, üstelik tek bölgede yaşanan bir kesinti tüm hizmeti durdurabiliyordu. Mevcut altyapı çoğunlukla manuel yönetiliyor, kod-olarak-altyapı seviyesi düşüktü.
Yaklaşım
Hedef: 6 ay içinde aktif-aktif iki bölgeye geçiş, kesintisiz. Tüm kaynaklar Terraform’a alındı, dağıtım hattı GitOps üzerine kuruldu. Stateful servisler için global replikasyon stratejisi tasarlandı.
Çözümün ana hatları
- Trafik yönetimi. Cloudflare Load Balancer + sağlık-tabanlı failover; latency-temelli bölge seçimi.
- Veri. PostgreSQL için bölgeler arası mantıksal replikasyon, çakışma tespiti için event sourcing katmanı.
- Cache. Bölge başına Redis cluster, key-affinity ile kullanıcı bazlı route’lama.
- Gözlemlenebilirlik. OpenTelemetry, bölge etiketli metrik ve trace; Grafana üzerinde tek-pencere dashboard.
- Felaket testleri. GameDay tatbikatları ile RTO/RPO doğrulandı.
Sonuç
Black Friday döneminde rekor trafiğin %63’ü ikinci bölgeden karşılandı; ana bölgede yaşanan kontrollü bir kesinti senaryosunda hizmet 4 dakikada toparlandı. Aylık bulut harcaması, doğru-büyütme ve rezervasyon stratejileriyle %32 azaldı.