Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент
Рейтинг: 52.3% · 11 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент
Пишу по горячим следам, может кого убережет.
Контекст: b2b сервис, юрлицо РФ, живем в Yandex Cloud. Managed PostgreSQL, база 380 гигов. На этапе когда денег было мало, взяли конфиг без реплики, один хост s3-c8-m32. Реплика добавляла к счету примерно 19 тысяч в месяц, решили что переживем, бэкапы же есть.
В прошлый четверг хост умер. Не зона, не облако, просто наш хост. Саппорт честно сказал: восстанавливайтесь из бэкапа или ждите, сроков нет. Подняли новый кластер, накатили бэкап, докатили WAL. На все про все 9 часов, из них часа полтора мы просто тупили и надеялись что хост оживет сам.
Самый жирный клиент (платил около 270к в месяц) ровно в этот день показывал систему своему руководству. Через неделю прислали уведомление о расторжении. Экономия 19к в месяц обошлась в минус 270к в месяц, вот такая арифметика.
Выводы для себя: реплику включили в тот же день, restore теперь гоняем раз в месяц по таймеру, и появился документ где написано сколько стоит час простоя в рублях. Если у вас такого документа нет, вы скорее всего тоже экономите на реплике.
Контекст: b2b сервис, юрлицо РФ, живем в Yandex Cloud. Managed PostgreSQL, база 380 гигов. На этапе когда денег было мало, взяли конфиг без реплики, один хост s3-c8-m32. Реплика добавляла к счету примерно 19 тысяч в месяц, решили что переживем, бэкапы же есть.
В прошлый четверг хост умер. Не зона, не облако, просто наш хост. Саппорт честно сказал: восстанавливайтесь из бэкапа или ждите, сроков нет. Подняли новый кластер, накатили бэкап, докатили WAL. На все про все 9 часов, из них часа полтора мы просто тупили и надеялись что хост оживет сам.
Самый жирный клиент (платил около 270к в месяц) ровно в этот день показывал систему своему руководству. Через неделю прислали уведомление о расторжении. Экономия 19к в месяц обошлась в минус 270к в месяц, вот такая арифметика.
Выводы для себя: реплику включили в тот же день, restore теперь гоняем раз в месяц по таймеру, и появился документ где написано сколько стоит час простоя в рублях. Если у вас такого документа нет, вы скорее всего тоже экономите на реплике.
✔ Лучший ответ сформирован автоматически — leelo
9 часов на 380 гигов это что-то не то. restore упирается в диск и сеть, при 200 мбайт/с база встает за полчаса-час. дальше докатка WAL, но чтобы столько катать, это сколько у вас точка восстановления отставала? подозреваю что большую часть времени съело не копирование, а совещания и поиск человека который умеет. это лечится не репликой, а прогоном сценария руками раз в квартал с секундомером. и к…
- semyon2026
- Сообщения: 14
- Зарегистрирован: 28 май 2026, 18:41
Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент
у меня похожее было на дедике Hetzner, только смешнее. RAID1, я думал я молодец. Оба диска из одной партии, второй посыпался через 16 часов после первого, ребилд не дожил. Восстанавливался из borg со storage box почти сутки, потому что канал до бэкапа был 100 мбит и про это никто не подумал. С тех пор правило: диски в зеркале из разных партий, а скорость восстановления я знаю в гигабайтах в час, а не в ощущениях.
Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент
сейчас вас тут захвалят за реплику, а я позанудствую. реплика спасает от смерти хоста, но не от DROP TABLE и не от кривой миграции. репликация старательно скопирует ваш косяк на второй хост за миллисекунды. так что основа это PITR и регулярный тренировочный restore, а реплика это про скорость failover, не про сохранность. судя по посту вы это понимаете, но формулировка "включили реплику и теперь ок" опасная, кто-то прочитает и успокоится раньше времени
Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент
@rqbyrd, managed значит что они крутят ручки и ставят патчи, а не что у тебя бессмертное железо. SLA на одиночный хост и на кластер с репликой это два разных SLA, на одиночные конфиги там по памяти вообще без гарантий. читать такие вещи надо до того как везешь туда прод, а не в треде после аварии
Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент
✔ Лучший ответ — сформирован автоматически
9 часов на 380 гигов это что-то не то. restore упирается в диск и сеть, при 200 мбайт/с база встает за полчаса-час. дальше докатка WAL, но чтобы столько катать, это сколько у вас точка восстановления отставала? подозреваю что большую часть времени съело не копирование, а совещания и поиск человека который умеет. это лечится не репликой, а прогоном сценария руками раз в квартал с секундомером. и кстати, бэкапы лежали в том же облаке или была копия наружу?
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Переехали с Kubernetes на docker-compose и сэкономили кучу времени — кто ещё так делал?
16 ответов · 1187 просмотров
-
-
- Переехали с AWS на Hetzner — сэкономили 85%, но теперь жалеем о нескольких вещах
9 ответов · 21 просмотров
-
-
- Переехали с AWS на Hetzner, сэкономили 400к в месяц и чуть не потеряли базу
7 ответов · 6 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость