Код IT
← Каталог

Логирование, мониторинг и наблюдаемость систем — Принципы эффективного алертинга

Фрагмент из «Логирование, мониторинг и наблюдаемость систем»: Принципы эффективного алертинга.

yaml infra-securityencyclopedia8-04-devops-ci-cd-19 embed URL статья в энциклопедии
YAML main.yaml
# Хорошо: алерт на симптом (пользовательский опыт)
- alert: HighUserFacingErrorRate
  expr: |
    sum(rate(http_requests_total{status=~"5..", layer="api_gateway"}[5m]))
    /
    sum(rate(http_requests_total{layer="api_gateway"}[5m]))
    > 0.01
  for: 5m
  labels:
    severity: critical
    team: platform
  annotations:
    summary: "Более 1% пользовательских запросов завершаются ошибкой"
    runbook: "https://wiki.company.com/runbooks/high-error-rate"
    dashboard: "https://grafana.company.com/d/errors-overview"
# Хорошо: алерт на симптом (пользовательский опыт)
- alert: HighUserFacingErrorRate
  expr: |
    sum(rate(http_requests_total{status=~"5..", layer="api_gateway"}[5m]))
    /
    sum(rate(http_requests_total{layer="api_gateway"}[5m]))
    > 0.01
  for: 5m
  labels:
    severity: critical
    team: platform
  annotations:
    summary: "Более 1% пользовательских запросов завершаются ошибкой"
    runbook: "https://wiki.company.com/runbooks/high-error-rate"
    dashboard: "https://grafana.company.com/d/errors-overview"