Health checks: liveness и readiness пробы

anton_k8s · Сообщение **anton_k8s** » 01 июн 2026, 16:51

Deployment из четвертой главы следит, чтобы реплик было ровно столько, сколько вы попросили. Проблема в том, что по умолчанию Kubernetes считает под здоровым, пока жив процесс в контейнере. Сервис, зависший в дедлоке, с точки зрения kubelet ничем не отличается от рабочего, и трафик на него продолжает идти. Пробы закрывают этот разрыв: они объясняют кластеру, как отличить живое приложение от мертвого и готовое к трафику от еще прогревающегося.

Три вида проб:

livenessProbe отвечает на вопрос "жив ли процесс". Если проверка проваливается несколько раз подряд, kubelet перезапускает контейнер. readinessProbe отвечает на вопрос "готов ли под принимать трафик". Пока она красная, под исключен из эндпоинтов Service (глава 5), но контейнер никто не трогает. startupProbe придумана для медленно стартующих приложений: пока она не пройдет, две остальные пробы не запускаются вовсе.

Механизм проверки у всех трех общий, на выбор: httpGet (запрос на порт контейнера, успех при ответе 200-399), tcpSocket (достаточно открыть соединение), exec (команда внутри контейнера, успех при коде возврата 0) и grpc для сервисов со стандартным grpc.health.v1.Health (стабильно с Kubernetes 1.27).

Подключаем к Deployment:

Код: Выделить всё

apiVersion: apps/v1
kind: Deployment
metadata:
  name: orders-api
spec:
  replicas: 3
  selector:
    matchLabels:
      app: orders-api
  template:
    metadata:
      labels:
        app: orders-api
    spec:
      containers:
      - name: app
        image: orders-api:1.8.2
        ports:
        - containerPort: 8080
        livenessProbe:
          httpGet:
            path: /healthz
            port: 8080
          periodSeconds: 10
          timeoutSeconds: 3
          failureThreshold: 3
        readinessProbe:
          httpGet:
            path: /ready
            port: 8080
          periodSeconds: 5
          timeoutSeconds: 3
          failureThreshold: 2

Параметры: periodSeconds задает частоту опроса, по умолчанию 10 секунд. timeoutSeconds, то есть ожидание ответа, по умолчанию всего 1 секунда, и это частая причина ложных срабатываний. failureThreshold определяет, сколько провалов подряд считать отказом, по умолчанию 3. Есть еще successThreshold (для readiness можно требовать несколько успехов подряд, для liveness и startup он всегда 1) и initialDelaySeconds, пауза перед первой проверкой.

Эндпоинты в примере разные, и это принципиально. /healthz для liveness отвечает только за сам процесс: запрос дошел до обработчика, значит процесс жив. Никаких проверок базы или внешних API там быть не должно. Если liveness ходит в PostgreSQL и база легла, kubelet примется перезапускать все поды по кругу. Базе от этого легче не станет, а у вас вместо одной проблемы будет две. /ready, наоборот, может смотреть глубже: есть ли соединение с базой, прогрет ли кэш, применились ли миграции.

Медленный старт и воркеры без HTTP:

Приложению на JVM или сервису с прогревом кэша за десять секунд не подняться. Для таких случаев startupProbe:

Код: Выделить всё

        startupProbe:
          httpGet:
            path: /healthz
            port: 8080
          periodSeconds: 5
          failureThreshold: 30

Здесь на запуск дается до 150 секунд (30 попыток по 5 секунд). Как только проба прошла, включаются обычные liveness и readiness. Это честнее, чем initialDelaySeconds: 120, потому что быстрый старт не наказывается лишним ожиданием.

У фонового воркера может вообще не быть HTTP порта. Выручает exec и прием с heartbeat файлом: процесс периодически обновляет файл, а проба проверяет его свежесть.

Код: Выделить всё

        livenessProbe:
          exec:
            command: ["sh", "-c", "find /tmp/heartbeat -mmin -1 | grep -q ."]
          periodSeconds: 30
          timeoutSeconds: 5

За пробами удобно следить через события пода:

Код: Выделить всё

kubectl describe pod orders-api-6f7c9d4b58-x2m4p
kubectl get pods -l app=orders-api -w

Провалы liveness видны в Events как Unhealthy, и растет счетчик RESTARTS. Провалы readiness контейнер не трогают, но колонка READY показывает 0/1, и трафик на под не идет.

Типичные грабли:

Внешние зависимости в liveness, про это уже было выше, но наступают на эти грабли постоянно. Дефолтный timeoutSeconds в 1 секунду: под нагрузкой пауза GC или медленный диск съедают ее целиком, и начинаются рестарты на ровном месте, ставьте 3-5 секунд. Один эндпоинт на обе пробы: работает до первого случая, когда под надо вывести из-под трафика, не убивая его. Readiness, завязанная на общую зависимость, способна уронить сервис целиком: база моргнула на десять секунд, все поды разом выпали из эндпоинтов, и пользователи получили полный отказ вместо ошибок на части запросов. И последнее: проба должна быть дешевой. healthz, который дергает три соседних сервиса и пишет подробные логи, при опросе раз в 5 секунд с каждой реплики сам превращается в источник нагрузки.

Итог:

liveness перезапускает зависшее, readiness управляет трафиком, startup дает время на разгон. Liveness смотрит только на сам процесс, readiness может проверять зависимости, но осознанно. Частые рестарты из-за проваленной liveness выглядят в kubectl get pods как CrashLoopBackOff, и в следующей главе про отладку разберем, как отличить такой случай от пода, который не стартует по другим причинам.

patton1941 · Сообщение **patton1941** » 05 июн 2026, 03:20

anton_k8s писал(а):Никаких проверок базы или внешних API там быть не должно

а как тогда поймать деградацию? у нас liveness как раз пингует постгрес, живем так года полтора и вроде норм. получается правильный путь это алерты из прометеуса, а кубер пусть смотрит только за процессом? страшновато убирать, вдруг зависшие коннекты к базе перестанем ловить

chimps · Сообщение **chimps** » 08 июн 2026, 12:11

для спринговиков подсказка: в boot начиная с 2.3 есть готовые /actuator/health/liveness и /actuator/health/readiness, в кубере они включаются сами, локально через management.endpoint.health.probes.enabled=true. месяц назад выкинул самописный healthz в пользу этих, полет нормальный

Martti · Сообщение **Martti** » 10 июн 2026, 05:40

а если у меня gunicorn с парой sync воркеров? во время долгого запроса он на healthz не ответит, и кубер его прибьет получается. повышать failureThreshold или это лечится только переходом на gthread/async?

machismo · Сообщение **machismo** » 11 июн 2026, 13:38

спасибо за трюк с heartbeat файлом. селери воркеры у нас висли молча по ночам, до утра никто не замечал. прикрутил такую пробу, за две недели два честных авторестарта вместо утреннего разбора полетов руками

Health checks: liveness и readiness пробы

Health checks: liveness и readiness пробы

Re: Health checks: liveness и readiness пробы

Re: Health checks: liveness и readiness пробы

Re: Health checks: liveness и readiness пробы

Re: Health checks: liveness и readiness пробы

Кто сейчас на конференции