Код IT
← Каталог

Логирование, мониторинг и наблюдаемость систем — Принципы эффективного алертинга

Фрагмент из «Логирование, мониторинг и наблюдаемость систем»: Принципы эффективного алертинга.

yaml infra-securityencyclopedia8-04-devops-ci-cd-19 embed URL статья в энциклопедии
YAML main.yaml
groups:
  - name: escalation_policy
    rules:
      # Страница - немедленная реакция (будит инженера ночью)
      - alert: ServiceCompletelyDown
        expr: sum(up{job=~"critical-.*"}) == 0
        for: 2m
        labels:
          severity: page
          notify: pagerduty-oncall
      
      # Тикет - реакция в рабочее время
      - alert: ServiceDegraded
        expr: |
          sum(rate(http_requests_total{status=~"5.."}[15m]))
          / sum(rate(http_requests_total[15m]))
          > 0.05
        for: 15m
        labels:
          severity: ticket
          notify: jira-platform-team
      
      # Информационный - только запись в дашборд
      - alert: ResourceTrendWarning
        expr: predict_linear(node_filesystem_free_bytes[6h], 24*3600) < 0
        for: 1h
        labels:
          severity: info
          notify: slack-infra-warnings
groups:
  - name: escalation_policy
    rules:
      # Страница - немедленная реакция (будит инженера ночью)
      - alert: ServiceCompletelyDown
        expr: sum(up{job=~"critical-.*"}) == 0
        for: 2m
        labels:
          severity: page
          notify: pagerduty-oncall
      
      # Тикет - реакция в рабочее время
      - alert: ServiceDegraded
        expr: |
          sum(rate(http_requests_total{status=~"5.."}[15m]))
          / sum(rate(http_requests_total[15m]))
          > 0.05
        for: 15m
        labels:
          severity: ticket
          notify: jira-platform-team
      
      # Информационный - только запись в дашборд
      - alert: ResourceTrendWarning
        expr: predict_linear(node_filesystem_free_bytes[6h], 24*3600) < 0
        for: 1h
        labels:
          severity: info
          notify: slack-infra-warnings