İçeriğe geç

SLO tabanlı işletim modeliyle MTTR'ın 4 saatten 35 dakikaya inmesi

Ulusal telekom operatörü9 ay + sürekli işletim12 mühendis
35 dk
Ortalama MTTR (önce: 4 saat)
%82
Büyük kesinti sayısında azalma
120+
Tanımlı SLO
7/24
Ortak nöbet modeli

Zorluk

Operatörün dijital kanallarında kesintiler ancak müşteri şikâyetleriyle fark ediliyor, kök neden analizi günler sürüyordu. İzleme araçları vardı ancak 40 binden fazla alarm tanımı gerçek müşteri etkisinden kopuktu; ekipler alarm yorgunluğu yaşıyordu.

Çözüm

Müşteri yolculuklarından (fatura ödeme, paket değişikliği, hat aktivasyonu) geriye doğru SLI/SLO ağacı tasarlandı; 40 bin alarm, abone etkisine dayalı 120 SLO'ya indirgendi.

Incident komutanlığı modeli, eskalasyon zincirleri ve suçlamasız postmortem süreci kuruldu. İlk 6 ay BYM SRE'leri nöbeti operatör ekipleriyle birlikte tuttu; ardından model kademeli devredildi.

Mimari yaklaşım

  • Prometheus + Thanos ile çok veri merkezli metrik altyapısı, Grafana SLO panoları
  • OpenTelemetry ile uçtan uca dağıtık izleme; müşteri yolculuğu bazlı trace analizi
  • Opsgenie tabanlı on-call ve eskalasyon otomasyonu, runbook otomasyonu

Sonuçlar

MTTR 4 saatten 35 dakikaya indi; kesintilerin %78'i müşteri fark etmeden çözülür hale geldi.

Yıllık büyük kesinti sayısı 11'den 2'ye düştü.

Alarm hacmi %93 azaldı; nöbet devir teslimi yapılandırılmış ve ölçülebilir hale geldi.

İlk kez kesintiyi müşteriden önce biz görüyoruz. SRE'yi kitaptan değil, sahada birlikte çalışarak öğrendik.
Şebeke ve BT Operasyonları DirektörüMüşteri operasyon lideri

Altyapınızı bir sonraki seviyeye taşıyalım

30 dakikalık keşif görüşmesinde mevcut durumunuzu dinliyor, benzer kurumlarda neyin işe yaradığını paylaşıyor ve somut bir ilk adım öneriyoruz. Satış sunumu yok; mühendis mühendise bir sohbet var.