Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Рейтинг: 52.3% · 11 голосов
AWS, Google Cloud Platform, Microsoft Azure, Cloudflare, Hetzner: облачные сервисы, архитектура, serverless, стоимость и миграция в облако.
Ответить
Аватара пользователя
burg0809
Сообщения: 22
Зарегистрирован: 15 май 2026, 01:05

Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Сообщение burg0809 »

Пишу по горячим следам, может кого убережет.

Контекст: b2b сервис, юрлицо РФ, живем в Yandex Cloud. Managed PostgreSQL, база 380 гигов. На этапе когда денег было мало, взяли конфиг без реплики, один хост s3-c8-m32. Реплика добавляла к счету примерно 19 тысяч в месяц, решили что переживем, бэкапы же есть.

В прошлый четверг хост умер. Не зона, не облако, просто наш хост. Саппорт честно сказал: восстанавливайтесь из бэкапа или ждите, сроков нет. Подняли новый кластер, накатили бэкап, докатили WAL. На все про все 9 часов, из них часа полтора мы просто тупили и надеялись что хост оживет сам.

Самый жирный клиент (платил около 270к в месяц) ровно в этот день показывал систему своему руководству. Через неделю прислали уведомление о расторжении. Экономия 19к в месяц обошлась в минус 270к в месяц, вот такая арифметика.

Выводы для себя: реплику включили в тот же день, restore теперь гоняем раз в месяц по таймеру, и появился документ где написано сколько стоит час простоя в рублях. Если у вас такого документа нет, вы скорее всего тоже экономите на реплике.
👍1 ❤️ 🔥1 😄1 🤔1
✔ Лучший ответ сформирован автоматически — leelo
9 часов на 380 гигов это что-то не то. restore упирается в диск и сеть, при 200 мбайт/с база встает за полчаса-час. дальше докатка WAL, но чтобы столько катать, это сколько у вас точка восстановления отставала? подозреваю что большую часть времени съело не копирование, а совещания и поиск человека который умеет. это лечится не репликой, а прогоном сценария руками раз в квартал с секундомером. и к…
Перейти к ответу →
Аватара пользователя
semyon2026
Сообщения: 14
Зарегистрирован: 28 май 2026, 18:41

Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Сообщение semyon2026 »

классика жанра. RTO у всех посчитан, просто у большинства он посчитан после аварии, а не до. ну хоть выводы правильные сделали, обычно после такого просто увольняют админа и живут дальше так же
👍 ❤️2 🔥 😄 🤔
Аватара пользователя
tor2000
Сообщения: 14
Зарегистрирован: 11 май 2026, 18:37

Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Сообщение tor2000 »

у меня похожее было на дедике Hetzner, только смешнее. RAID1, я думал я молодец. Оба диска из одной партии, второй посыпался через 16 часов после первого, ребилд не дожил. Восстанавливался из borg со storage box почти сутки, потому что канал до бэкапа был 100 мбит и про это никто не подумал. С тех пор правило: диски в зеркале из разных партий, а скорость восстановления я знаю в гигабайтах в час, а не в ощущениях.
👍2 ❤️1 🔥 😄 🤔1
Аватара пользователя
omnicrom
Сообщения: 32
Зарегистрирован: 11 май 2026, 07:08

Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Сообщение omnicrom »

сейчас вас тут захвалят за реплику, а я позанудствую. реплика спасает от смерти хоста, но не от DROP TABLE и не от кривой миграции. репликация старательно скопирует ваш косяк на второй хост за миллисекунды. так что основа это PITR и регулярный тренировочный restore, а реплика это про скорость failover, не про сохранность. судя по посту вы это понимаете, но формулировка "включили реплику и теперь ок" опасная, кто-то прочитает и успокоится раньше времени
👍 ❤️ 🔥 😄 🤔1
Аватара пользователя
rqbyrd
Сообщения: 12
Зарегистрирован: 22 май 2026, 09:51

Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Сообщение rqbyrd »

стоп, а managed тогда зачем? я думал весь смысл managed постгреса что яндекс сам такое чинит. за что деньги то?
👍1 ❤️1 🔥 😄1 🤔
Аватара пользователя
kernel2
Сообщения: 30
Зарегистрирован: 20 май 2026, 10:58

Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Сообщение kernel2 »

@rqbyrd, managed значит что они крутят ручки и ставят патчи, а не что у тебя бессмертное железо. SLA на одиночный хост и на кластер с репликой это два разных SLA, на одиночные конфиги там по памяти вообще без гарантий. читать такие вещи надо до того как везешь туда прод, а не в треде после аварии
👍1 ❤️ 🔥1 😄 🤔1
Аватара пользователя
leelo
Сообщения: 18
Зарегистрирован: 19 май 2026, 17:46

Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Сообщение leelo »

✔ Лучший ответ — сформирован автоматически
9 часов на 380 гигов это что-то не то. restore упирается в диск и сеть, при 200 мбайт/с база встает за полчаса-час. дальше докатка WAL, но чтобы столько катать, это сколько у вас точка восстановления отставала? подозреваю что большую часть времени съело не копирование, а совещания и поиск человека который умеет. это лечится не репликой, а прогоном сценария руками раз в квартал с секундомером. и кстати, бэкапы лежали в том же облаке или была копия наружу?
👍1 ❤️3 🔥 😄 🤔
Аватара пользователя
Sdgator
Сообщения: 59
Зарегистрирован: 12 май 2026, 01:12

Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Сообщение Sdgator »

читаю и потею. у нас ровно так же, один хост и вера в лучшее, только база 700 гигов. скинул тред тимлиду, в понедельник видимо включаем реплику. спасибо за честность, такое редко выносят на публику
👍1 ❤️1 🔥 😄 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Облачные платформы»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость