Sunucu izleme araçları yüzlerce metrik toplar. Ama hepsine alarm kurarsanız 'alarm yorgunluğu' başlar ve gerçek sorunları kaçırırsınız. Öncelik altın metriklere verilmeli.
Dört altın metrik
- Gecikme (Latency) — istekler ne kadar sürüyor
- Trafik (Traffic) — ne kadar yük geliyor
- Hata oranı (Errors) — başarısız isteklerin yüzdesi
- Doygunluk (Saturation) — kaynaklar ne kadar dolu (CPU, RAM, Disk I/O)
Alarm kuralları
Her metriğe değil, kullanıcı deneyimine etki eden durumlara alarm kurun. Örneğin CPU %90 alarm değil, 'P95 gecikmesi 2 saniyenin üzerine çıkarsa' alarmı. Kullanıcı hissedecek mi? Cevabı evetse alarm koyun.
Araç önerileri
Kurumsal ölçekte Datadog, Dynatrace, New Relic öne çıkıyor. Açık kaynak tarafında Prometheus + Grafana + Alertmanager üçlüsü endüstri standardı. Zabbix ve Nagios, altyapı odaklı klasik izleme için hâlâ iyi seçenekler.
Okumaya devam edin