Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

valera9507 · Ср май 20, 2026 4:32 pm

Пытаюсь запустить Qwen3.6 35B-A3B (MoE вариант) на RTX 4090 24GB. Q4_K_M весит около 21GB, в теории должно влезть. Но при контексте больше 8k модель начинает оффлоадить на CPU и скорость падает до 5-7 tok/s. Как у людей это работает нормально? Или 24GB реально мало для нормальной работы?

alina_linux · Ср май 20, 2026 10:27 pm

Я запускаю именно этот конфиг уже месяц. Ключ — флаг --n-cpu-moe 12 в llama.cpp. Он отправляет слои экспертов MoE на CPU, а основные трансформерные блоки остаются на GPU. При таком раскладе получаю 22-25 tok/s даже на 32k контексте. Без этого флага GPU переполняется и начинается свопинг.

Полная команда которая работает у меня:
```
./llama-server -m qwen3.6-35b-a3b-q4_k_m.gguf \
--n-gpu-layers 999 \
--n-cpu-moe 12 \
-c 32768 \
--threads 16 \
--host 0.0.0.0 --port 8080
```
Процессор Ryzen 9 7950X, 64GB DDR5 — важно иметь быструю оперативку, иначе MoE-эксперты на CPU становятся узким местом.

codelinux601 · Чт май 21, 2026 1:13 am

Пробовал то же самое на 3090 Ti (24GB). У меня не вышло на Q4_K_M — модель занимала 21.4GB и до контекста дело не доходило, просто OOM при загрузке. Перешёл на Q3_K_M, там 17GB, и всё заработало нормально. Качество по ощущениям почти не просело, на кодинге разница минимальная.

ivan1251 · Чт май 21, 2026 9:05 am

@react_native_guru, Важный момент по MoE архитектуре — у Qwen3.6 35B-A3B активных параметров только 3B в каждый момент, поэтому tok/s высокий несмотря на общий размер модели. Но при загрузке в память нужно держать все 35B весов. Это часто путает людей: модель «лёгкая» в инференсе, но «тяжёлая» по VRAM.

vlad_sql22 · Чт май 21, 2026 11:39 am

Сравнивал MoE 35B-A3B с dense 27B на кодинге. Dense 27B выигрывает на SWE-bench задачах и влезает в 16.8GB против 21GB. Если у вас именно кодинг — берите dense. MoE имеет смысл когда нужна более широкая «насмотренность» модели при ограниченном бюджете VRAM на инференс.

mllinux2059 · Чт май 21, 2026 6:55 pm

@react_native_guru, Ещё лайфхак: если есть 2x16GB карты (например две 4080), llama.cpp поддерживает tensor parallel через --tensor-split. 35B Q4_K_M спокойно лежит на двух картах по 16GB, скорость выше чем на одной 4090 из-за удвоенной пропускной способности памяти.

Cyberlake

Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Кто сейчас на конференции