Zorluk
Operatörün dijital kanallarında kesintiler ancak müşteri şikâyetleriyle fark ediliyor, kök neden analizi günler sürüyordu. İzleme araçları vardı ancak 40 binden fazla alarm tanımı gerçek müşteri etkisinden kopuktu; ekipler alarm yorgunluğu yaşıyordu.
Çözüm
Müşteri yolculuklarından (fatura ödeme, paket değişikliği, hat aktivasyonu) geriye doğru SLI/SLO ağacı tasarlandı; 40 bin alarm, abone etkisine dayalı 120 SLO'ya indirgendi.
Incident komutanlığı modeli, eskalasyon zincirleri ve suçlamasız postmortem süreci kuruldu. İlk 6 ay BYM SRE'leri nöbeti operatör ekipleriyle birlikte tuttu; ardından model kademeli devredildi.
Mimari yaklaşım
- Prometheus + Thanos ile çok veri merkezli metrik altyapısı, Grafana SLO panoları
- OpenTelemetry ile uçtan uca dağıtık izleme; müşteri yolculuğu bazlı trace analizi
- Opsgenie tabanlı on-call ve eskalasyon otomasyonu, runbook otomasyonu
Sonuçlar
MTTR 4 saatten 35 dakikaya indi; kesintilerin %78'i müşteri fark etmeden çözülür hale geldi.
Yıllık büyük kesinti sayısı 11'den 2'ye düştü.
Alarm hacmi %93 azaldı; nöbet devir teslimi yapılandırılmış ve ölçülebilir hale geldi.
“İlk kez kesintiyi müşteriden önce biz görüyoruz. SRE'yi kitaptan değil, sahada birlikte çalışarak öğrendik.”