Перечитал постмортем как Reddit лёг на 5 часов из-за одного лейбла

Рейтинг: 69.6% · 38 голосов
Docker, Kubernetes, Helm, Terraform, Ansible, GitLab CI, GitHub Actions: автоматизация деплоя, инфраструктура как код, мониторинг и observability.
Ответить
Аватара пользователя
flowstack8602
Сообщения: 4
Зарегистрирован: Пн май 18, 2026 5:40 pm

Перечитал постмортем как Reddit лёг на 5 часов из-за одного лейбла

Сообщение flowstack8602 »

Перечитал постмортем как Reddit лёг на 5+ часов после апгрейда на k8s 1.24. Причина — выпилили node-role лейбл master, а у них на него были завязаны route reflector-ы. Мелочь на бумаге, а положила весь сайт.
👍 ❤️ 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — webproxy2636
Главная мораль этого постмортема даже не в конкретном лейбле, а в том, что у них не было автоматического теста 'а что произойдёт с сетевой связностью, если этот узел потеряет роль'. Это не нишевая ситуация — у нас в кластере тоже была зависимость на annotation beta.kubernetes.io/arch, которую выпилили в 1.18, и мы узнали об этом только когда DaemonSet перестал шедулиться на новые ноды через полго…
Перейти к ответу →
Аватара пользователя
vlad_rust
Сообщения: 25
Зарегистрирован: Пн май 11, 2026 2:07 am

Re: Перечитал постмортем как Reddit лёг на 5 часов из-за одного лейбла

Сообщение vlad_rust »

И ключевой момент: у k8s нет поддерживаемого даунгрейда. Схема и данные мигрируют автоматом при апгрейде, откат только через restore из бэкапа и reload состояния. Вот это и убивает людей в такие ночи.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
natalia2402
Сообщения: 6
Зарегистрирован: Вт май 12, 2026 12:09 am

Re: Перечитал постмортем как Reddit лёг на 5 часов из-за одного лейбла

Сообщение natalia2402 »

Ага. Вывод для себя: читать changelog с deprecations ПЕРЕД мажорным апгрейдом и гонять его на стейдж-кластере один-в-один с продом. Лейблы node-role вообще больная тема при миграциях.
👍3 ❤️ 🔥1 😄1 🤔1
Аватара пользователя
vera_loop
Сообщения: 3
Зарегистрирован: Пт май 22, 2026 6:51 am

Re: Перечитал постмортем как Reddit лёг на 5 часов из-за одного лейбла

Сообщение vera_loop »

Мы после этой истории завели grep по манифестам на deprecated лейблы и API перед каждым апгрейдом. Ещё kubent (kube-no-trouble) неплохо ловит отмирающие API-версии заранее.
👍5 ❤️ 🔥2 😄 🤔3
Аватара пользователя
webproxy2636
Сообщения: 11
Зарегистрирован: Вс май 10, 2026 10:00 pm

Re: Перечитал постмортем как Reddit лёг на 5 часов из-за одного лейбла

Сообщение webproxy2636 »

✔ Лучший ответ — сформирован автоматически
Главная мораль этого постмортема даже не в конкретном лейбле, а в том, что у них не было автоматического теста 'а что произойдёт с сетевой связностью, если этот узел потеряет роль'. Это не нишевая ситуация — у нас в кластере тоже была зависимость на annotation beta.kubernetes.io/arch, которую выпилили в 1.18, и мы узнали об этом только когда DaemonSet перестал шедулиться на новые ноды через полгода. Тест на 'что изменится после апгрейда node labels' надо прогонять в staging с реальным трафиком, а не только синтетикой.
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
ruslan_ml61
Сообщения: 33
Зарегистрирован: Вс май 10, 2026 8:57 pm

Re: Перечитал постмортем как Reddit лёг на 5 часов из-за одного лейбла

Сообщение ruslan_ml61 »

Интересно что в 1.24 убрали именно node-role.kubernetes.io/master в пользу node-role.kubernetes.io/control-plane — это был deprecated ещё с 1.20 и четыре минорных версии предупреждения в release notes. Стандартная история: deprecation warning висит годами, никто не читает changelog до апгрейда. Сейчас для таких вещей настраиваю kube-no-trouble (kubent) в CI перед каждым апгрейдом — он явно кричит какие deprecated API и ресурсы будут сломаны в следующей версии.
👍 ❤️1 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость