Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

burg0809 · Сообщение **burg0809** » 25 май 2026, 19:30

Пишу по горячим следам, может кого убережет.

Контекст: b2b сервис, юрлицо РФ, живем в Yandex Cloud. Managed PostgreSQL, база 380 гигов. На этапе когда денег было мало, взяли конфиг без реплики, один хост s3-c8-m32. Реплика добавляла к счету примерно 19 тысяч в месяц, решили что переживем, бэкапы же есть.

В прошлый четверг хост умер. Не зона, не облако, просто наш хост. Саппорт честно сказал: восстанавливайтесь из бэкапа или ждите, сроков нет. Подняли новый кластер, накатили бэкап, докатили WAL. На все про все 9 часов, из них часа полтора мы просто тупили и надеялись что хост оживет сам.

Самый жирный клиент (платил около 270к в месяц) ровно в этот день показывал систему своему руководству. Через неделю прислали уведомление о расторжении. Экономия 19к в месяц обошлась в минус 270к в месяц, вот такая арифметика.

Выводы для себя: реплику включили в тот же день, restore теперь гоняем раз в месяц по таймеру, и появился документ где написано сколько стоит час простоя в рублях. Если у вас такого документа нет, вы скорее всего тоже экономите на реплике.

semyon2026 · Сообщение **semyon2026** » 26 май 2026, 00:23

классика жанра. RTO у всех посчитан, просто у большинства он посчитан после аварии, а не до. ну хоть выводы правильные сделали, обычно после такого просто увольняют админа и живут дальше так же

tor2000 · Сообщение **tor2000** » 26 май 2026, 04:04

у меня похожее было на дедике Hetzner, только смешнее. RAID1, я думал я молодец. Оба диска из одной партии, второй посыпался через 16 часов после первого, ребилд не дожил. Восстанавливался из borg со storage box почти сутки, потому что канал до бэкапа был 100 мбит и про это никто не подумал. С тех пор правило: диски в зеркале из разных партий, а скорость восстановления я знаю в гигабайтах в час, а не в ощущениях.

omnicrom · Сообщение **omnicrom** » 26 май 2026, 08:04

сейчас вас тут захвалят за реплику, а я позанудствую. реплика спасает от смерти хоста, но не от DROP TABLE и не от кривой миграции. репликация старательно скопирует ваш косяк на второй хост за миллисекунды. так что основа это PITR и регулярный тренировочный restore, а реплика это про скорость failover, не про сохранность. судя по посту вы это понимаете, но формулировка "включили реплику и теперь ок" опасная, кто-то прочитает и успокоится раньше времени

rqbyrd · Сообщение **rqbyrd** » 26 май 2026, 08:50

стоп, а managed тогда зачем? я думал весь смысл managed постгреса что яндекс сам такое чинит. за что деньги то?

kernel2 · Сообщение **kernel2** » 26 май 2026, 13:36

@rqbyrd, managed значит что они крутят ручки и ставят патчи, а не что у тебя бессмертное железо. SLA на одиночный хост и на кластер с репликой это два разных SLA, на одиночные конфиги там по памяти вообще без гарантий. читать такие вещи надо до того как везешь туда прод, а не в треде после аварии

leelo · Сообщение **leelo** » 26 май 2026, 14:06

9 часов на 380 гигов это что-то не то. restore упирается в диск и сеть, при 200 мбайт/с база встает за полчаса-час. дальше докатка WAL, но чтобы столько катать, это сколько у вас точка восстановления отставала? подозреваю что большую часть времени съело не копирование, а совещания и поиск человека который умеет. это лечится не репликой, а прогоном сценария руками раз в квартал с секундомером. и кстати, бэкапы лежали в том же облаке или была копия наружу?

Sdgator · Сообщение **Sdgator** » 26 май 2026, 15:51

читаю и потею. у нас ровно так же, один хост и вера в лучшее, только база 700 гигов. скинул тред тимлиду, в понедельник видимо включаем реплику. спасибо за честность, такое редко выносят на публику

Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Re: Сэкономили 19к на реплике постгреса, итог: 9 часов даунтайма и минус жирный клиент

Кто сейчас на конференции