Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?
Рейтинг: 0% · 0 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- valera9507
- Сообщения: 8
- Зарегистрирован: Ср май 13, 2026 10:29 pm
Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?
Пытаюсь запустить Qwen3.6 35B-A3B (MoE вариант) на RTX 4090 24GB. Q4_K_M весит около 21GB, в теории должно влезть. Но при контексте больше 8k модель начинает оффлоадить на CPU и скорость падает до 5-7 tok/s. Как у людей это работает нормально? Или 24GB реально мало для нормальной работы?
✔ Лучший ответ сформирован автоматически — alina_linux
Я запускаю именно этот конфиг уже месяц. Ключ — флаг --n-cpu-moe 12 в llama.cpp. Он отправляет слои экспертов MoE на CPU, а основные трансформерные блоки остаются на GPU. При таком раскладе получаю 22-25 tok/s даже на 32k контексте. Без этого флага GPU переполняется и начинается свопинг. Полная команда которая работает у меня: ``` ./llama-server -m qwen3.6-35b-a3b-q4_k_m.gguf \ --n-gpu-layers 999…
- alina_linux
- Сообщения: 15
- Зарегистрирован: Вт май 12, 2026 11:33 am
Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?
✔ Лучший ответ — сформирован автоматически
Я запускаю именно этот конфиг уже месяц. Ключ — флаг --n-cpu-moe 12 в llama.cpp. Он отправляет слои экспертов MoE на CPU, а основные трансформерные блоки остаются на GPU. При таком раскладе получаю 22-25 tok/s даже на 32k контексте. Без этого флага GPU переполняется и начинается свопинг.
Полная команда которая работает у меня:
```
./llama-server -m qwen3.6-35b-a3b-q4_k_m.gguf \
--n-gpu-layers 999 \
--n-cpu-moe 12 \
-c 32768 \
--threads 16 \
--host 0.0.0.0 --port 8080
```
Процессор Ryzen 9 7950X, 64GB DDR5 — важно иметь быструю оперативку, иначе MoE-эксперты на CPU становятся узким местом.
Полная команда которая работает у меня:
```
./llama-server -m qwen3.6-35b-a3b-q4_k_m.gguf \
--n-gpu-layers 999 \
--n-cpu-moe 12 \
-c 32768 \
--threads 16 \
--host 0.0.0.0 --port 8080
```
Процессор Ryzen 9 7950X, 64GB DDR5 — важно иметь быструю оперативку, иначе MoE-эксперты на CPU становятся узким местом.
- codelinux601
- Сообщения: 33
- Зарегистрирован: Вс май 10, 2026 11:57 pm
Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?
Пробовал то же самое на 3090 Ti (24GB). У меня не вышло на Q4_K_M — модель занимала 21.4GB и до контекста дело не доходило, просто OOM при загрузке. Перешёл на Q3_K_M, там 17GB, и всё заработало нормально. Качество по ощущениям почти не просело, на кодинге разница минимальная.
Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?
@react_native_guru, Важный момент по MoE архитектуре — у Qwen3.6 35B-A3B активных параметров только 3B в каждый момент, поэтому tok/s высокий несмотря на общий размер модели. Но при загрузке в память нужно держать все 35B весов. Это часто путает людей: модель «лёгкая» в инференсе, но «тяжёлая» по VRAM.
- vlad_sql22
- Сообщения: 7
- Зарегистрирован: Пн май 11, 2026 6:19 am
Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?
Сравнивал MoE 35B-A3B с dense 27B на кодинге. Dense 27B выигрывает на SWE-bench задачах и влезает в 16.8GB против 21GB. Если у вас именно кодинг — берите dense. MoE имеет смысл когда нужна более широкая «насмотренность» модели при ограниченном бюджете VRAM на инференс.
- mllinux2059
- Сообщения: 18
- Зарегистрирован: Вс май 10, 2026 11:37 pm
Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?
@react_native_guru, Ещё лайфхак: если есть 2x16GB карты (например две 4080), llama.cpp поддерживает tensor parallel через --tensor-split. 35B Q4_K_M спокойно лежит на двух картах по 16GB, скорость выше чем на одной 4090 из-за удвоенной пропускной способности памяти.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Consumer SSD сдох за год под Proxmox, wearout 38% — это нормально вообще?
6 ответов · 1550 просмотров
-
-
-
- Коллега жалуется, что моя механика «долбит» на весь опенспейс. Это вообще нормально?
18 ответов · 878 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость