Репликация: replicaset, топологии

Рейтинг: 65.7% · 17 голосов

Ответить

1 сообщение • Страница 1 из 1

denis_tnt: Сообщения: 47; Зарегистрирован: 11 май 2026, 05:31

Репликация: replicaset, топологии

Цитата

Сообщение denis_tnt » 31 май 2026, 14:02

Академия › Tarantool: in-memory СУБД и сервер приложений с нуля до продакшена › Глава 30 из 47

Оглавление курса (47)

О чём урок

Репликация в Tarantool - это механизм, при котором несколько экземпляров (instances) работают на копиях одних и тех же баз данных и держат их синхронными. Группа таких экземпляров называется replica set (репликасет). У каждого экземпляра внутри репликасета есть роль: master (доступен на запись) или replica (только чтение). Из ролей складываются топологии: классическая мастер-реплика и мастер-мастер (multi-master). В этом уроке разбираем не столько "как настроить", сколько как это работает внутри - откуда берётся синхронность, почему full mesh, и почему мастер-мастер не панацея.

Механика: WAL, LSN и vclock

Фундамент репликации - это write-ahead log (WAL). Каждое изменение данных (INSERT, UPDATE, DELETE) записывается в WAL как отдельная запись и получает монотонно растущий номер - LSN (log sequence number). Реплика не получает готовые строки; она непрерывно тянет (fetch) и применяет (apply) записи WAL мастера. Репликация в Tarantool row-based: каждый запрос детерминирован и работает с одним кортежем (tuple).

Важная тонкость: вызовы хранимых функций в WAL не пишутся. Пишутся фактические data-change операции, которые эта Lua-функция выполнила. Поэтому возможный недетерминизм Lua (random, время, сеть) не ломает репликацию - реплики применяют уже зафиксированный результат, а не код.

Чтобы понять, кто чьи изменения уже применил, нужны идентификаторы. У всего репликасета есть replica set UUID, у каждого экземпляра - instance UUID (глобально уникальный) и короткий instance ID (уникальный внутри репликасета, целое число). UUID хранится в системном спейсе

Код: Выделить всё

box.space._cluster

. Instance ID нужен, чтобы каждую строку применить ровно один раз - в WAL рядом с LSN пишется ID экземпляра, на котором запись родилась. Это и есть основа multi-master: строки от разных мастеров не перепутаются.

Состояние репликации отражает vclock (vector clock) - вектор "последний применённый LSN по каждому instance ID":

Код: Выделить всё

tarantool> box.info.vclock
---
- {1: 827, 2: 584}
...
-- от instance 1 применено 827 записей, от instance 2 - 584

Когда реплика подключается, она проходит стадии: bootstrap (первичная инициализация всего набора - мастер создаёт checkpoint-файлы и раздаёт их), join (реплика скачивает начальный снимок и регистрируется в _cluster) и follow (бесконечное дочитывание WAL мастера). Статус видно через

Код: Выделить всё

box.info.replication[n].upstream.status

- в норме там

Код: Выделить всё

follow

.

По умолчанию репликация асинхронная: мастер ответил клиенту "ок" сразу после локального коммита, не дожидаясь реплик. Если мастер тут же умрёт, после failover транзакция может "исчезнуть". Синхронную репликацию (per-space, опция is_sync) разбираем в отдельном уроке.

Топологии Tarantool: мастер-реплика и мастер-мастер full mesh

Топологии и роли

Роль задаётся параметром read_only (в декларативном конфиге 3.x -

Код: Выделить всё

database.mode: ro|rw

). Рекомендация: ro для всех, кроме одного экземпляра.

Мастер-реплика. Один пишет, остальные читают. Что меняется на мастере - видно на репликах, обратно - нет. Даёт две выгоды: failover (реплика подхватит, если мастер упал) и балансировку чтения. В 3.x за переключение лидера отвечает

Код: Выделить всё

replication.failover

:

Код: Выделить всё

manual

(лидер задан явно через

Код: Выделить всё

leader

),

Код: Выделить всё

election

(Raft-голосование) или

Код: Выделить всё

supervised

(внешний координатор).

Мастер-мастер (multi-master). Оба экземпляра в режиме rw, оба пишут, изменения видны в обе стороны. Настраивается через

Код: Выделить всё

replication.failover: off

и

Код: Выделить всё

database.mode: rw

для всех. Топология - full mesh: каждый соединён с каждым.

Топология соединений задаётся параметром

Код: Выделить всё

replication

(список адресов). Рекомендованная - full mesh, потому что облегчает failover и гарантирует, что все знают UUID друг друга. Tarantool сам применит каждую строку лишь однажды. Каскад (реплика реплики) не рекомендуется: крайние экземпляры не видят друг друга и не получают записей в _cluster, из-за чего мастер потом откажет им в подключении. Ring (кольцо) поддерживается. Если очень нужен каскад - сначала собирают кольцо (чтобы все обменялись UUID), затем разрывают в нужном месте.

Код: Выделить всё

Топология        Кто пишет      Соединения        Заметка
---------------  -------------  ----------------  ----------------------
master-replica   один master    mesh              рекомендуется
master-master    все instances  full mesh         нужна коммутативность
ring             все/один       кольцо            поддерживается
cascade          -              цепочка           НЕ рекомендуется

Предел: максимум 32 экземпляра в full mesh.

Ключевой код (3.x, декларативный config.yaml)

Фрагмент конфигурации мастер-мастер из двух узлов:

Код: Выделить всё

credentials:
  users:
    replicator:
      password: 'topsecret'
      roles: [replication]

iproto:
  advertise:
    peer:
      login: replicator

replication:
  failover: off

groups:
  group001:
    replicasets:
      replicaset001:
        instances:
          instance001:
            database:
              mode: rw
            iproto:
              listen:
              - uri: '127.0.0.1:3301'
          instance002:
            database:
              mode: rw
            iproto:
              listen:
              - uri: '127.0.0.1:3302'

Проверка, что оба узла пишущие и связь жива:

Код: Выделить всё

-- на каждом узле
box.info.ro            --> false  (узел доступен на запись)
box.info.replication   --> upstream.status: follow
                           downstream.status: follow
box.info.vclock        --> совпадает на обоих узлах

Частые заблуждения и грабли

"Мастер-мастер ускоряет запись." Нет. Запись в любом случае реплицируется на остальных; вы лишь распределяете точки входа. Зато получаете риск конфликтов.
"Можно писать одно и то же на обоих мастерах." Безопасно, только если все изменения коммутативны - результат не зависит от порядка применения. Append-only безопасен. DELETE по TTL обычно тоже. А вот UPDATE с присваиванием или инкрементом не коммутативен и разъедет реплики.
Конфликт дубликата ключа. Если на двух мастерах вставить кортеж с одним primary key, при встрече потоков
Код: Выделить всё
```
upstream.status
```
станет
Код: Выделить всё
```
stopped
```
с ошибкой "Duplicate key exists". Лечится reseed (rebootstrap) отстающей реплики и перезапуском репликации.
Split-brain. Два независимых лидера на запись (например, при ошибочном
Код: Выделить всё
```
synchro_quorum
```
ниже N/2+1) приводят к ошибке
Код: Выделить всё
```
ER_SPLIT_BRAIN
```
и требуют rebootstrap. Защита целостности срабатывает при восстановлении связи.
Каскад "просто чтобы сэкономить трафик". Приводит к проблемам с _cluster UUID и отказам подключения. Используйте mesh.

Превентивно конфликты решают триггером

Код: Выделить всё

before_replace

на спорном спейсе: внутри сравнивают старый и новый кортеж и выбирают победителя (или сливают записи).

Мини-лаба

Поднимите репликасет из двух узлов через
Код: Выделить всё
```
tt
```
(см. конфиг выше). На instance001 создайте спейс и индекс, вставьте пару кортежей. На instance002 выполните
Код: Выделить всё
```
box.space.<name>:select()
```
и убедитесь, что данные приехали. Затем вставьте новые кортежи уже на instance002 и проверьте их на instance001. Сравните
Код: Выделить всё
```
box.info.vclock
```
на обоих узлах - значения должны совпасть. Бонус: остановите instance002, вставьте на instance001 кортеж с ключом 5, отдельно на остановленном instance002 - другой кортеж с ключом 5, запустите обоих и посмотрите, как
Код: Выделить всё
```
upstream.status
```
перейдёт в
Код: Выделить всё
```
stopped
```
.

Контрольные вопросы

Что именно реплика тянет с мастера - готовые строки таблицы или записи WAL? Почему вызовы Lua-функций не реплицируются как код?
Зачем в каждой записи WAL хранится instance ID, и как это связано с возможностью multi-master?
Что показывает
Код: Выделить всё
```
box.info.vclock
```
и как по нему понять, что узлы синхронизированы?
Почему мастер-мастер безопасен для append-only, но опасен для UPDATE-инкремента? Сформулируйте требование коммутативности.

👍3 ❤️2 🔥2 😄 🤔

Ответить

1 сообщение • Страница 1 из 1

← Предыдущая глава
Cartridge (официальный legacy) и миграция на 3.x Следующая глава →
Механика репликации: WAL-стриминг, vclock

Все главы курса «Tarantool: in-memory СУБД и сервер приложений с нуля до продакшена»

Похожие темы

Deployment и ReplicaSet: управляем репликами
4 ответов · 18 просмотров
Синхронная репликация и выборы лидера (Raft)
0 ответов · 0 просмотров

Вернуться в «Tarantool: СУБД и сервер приложений»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей