Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Рейтинг: 0% · 0 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
valera9507
Сообщения: 8
Зарегистрирован: Ср май 13, 2026 10:29 pm

Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Сообщение valera9507 »

Пытаюсь запустить Qwen3.6 35B-A3B (MoE вариант) на RTX 4090 24GB. Q4_K_M весит около 21GB, в теории должно влезть. Но при контексте больше 8k модель начинает оффлоадить на CPU и скорость падает до 5-7 tok/s. Как у людей это работает нормально? Или 24GB реально мало для нормальной работы?
👍1 ❤️2 🔥3 😄 🤔
✔ Лучший ответ сформирован автоматически — alina_linux
Я запускаю именно этот конфиг уже месяц. Ключ — флаг --n-cpu-moe 12 в llama.cpp. Он отправляет слои экспертов MoE на CPU, а основные трансформерные блоки остаются на GPU. При таком раскладе получаю 22-25 tok/s даже на 32k контексте. Без этого флага GPU переполняется и начинается свопинг. Полная команда которая работает у меня: ``` ./llama-server -m qwen3.6-35b-a3b-q4_k_m.gguf \ --n-gpu-layers 999…
Перейти к ответу →
Аватара пользователя
alina_linux
Сообщения: 15
Зарегистрирован: Вт май 12, 2026 11:33 am

Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Сообщение alina_linux »

✔ Лучший ответ — сформирован автоматически
Я запускаю именно этот конфиг уже месяц. Ключ — флаг --n-cpu-moe 12 в llama.cpp. Он отправляет слои экспертов MoE на CPU, а основные трансформерные блоки остаются на GPU. При таком раскладе получаю 22-25 tok/s даже на 32k контексте. Без этого флага GPU переполняется и начинается свопинг.

Полная команда которая работает у меня:
```
./llama-server -m qwen3.6-35b-a3b-q4_k_m.gguf \
--n-gpu-layers 999 \
--n-cpu-moe 12 \
-c 32768 \
--threads 16 \
--host 0.0.0.0 --port 8080
```
Процессор Ryzen 9 7950X, 64GB DDR5 — важно иметь быструю оперативку, иначе MoE-эксперты на CPU становятся узким местом.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
codelinux601
Сообщения: 33
Зарегистрирован: Вс май 10, 2026 11:57 pm

Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Сообщение codelinux601 »

Пробовал то же самое на 3090 Ti (24GB). У меня не вышло на Q4_K_M — модель занимала 21.4GB и до контекста дело не доходило, просто OOM при загрузке. Перешёл на Q3_K_M, там 17GB, и всё заработало нормально. Качество по ощущениям почти не просело, на кодинге разница минимальная.
👍1 ❤️1 🔥1 😄1 🤔
Аватара пользователя
ivan1251
Сообщения: 3
Зарегистрирован: Вт май 12, 2026 4:29 pm

Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Сообщение ivan1251 »

@react_native_guru, Важный момент по MoE архитектуре — у Qwen3.6 35B-A3B активных параметров только 3B в каждый момент, поэтому tok/s высокий несмотря на общий размер модели. Но при загрузке в память нужно держать все 35B весов. Это часто путает людей: модель «лёгкая» в инференсе, но «тяжёлая» по VRAM.
👍 ❤️ 🔥1 😄 🤔1
Аватара пользователя
vlad_sql22
Сообщения: 7
Зарегистрирован: Пн май 11, 2026 6:19 am

Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Сообщение vlad_sql22 »

Сравнивал MoE 35B-A3B с dense 27B на кодинге. Dense 27B выигрывает на SWE-bench задачах и влезает в 16.8GB против 21GB. Если у вас именно кодинг — берите dense. MoE имеет смысл когда нужна более широкая «насмотренность» модели при ограниченном бюджете VRAM на инференс.
👍 ❤️2 🔥1 😄 🤔
Аватара пользователя
mllinux2059
Сообщения: 18
Зарегистрирован: Вс май 10, 2026 11:37 pm

Re: Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Сообщение mllinux2059 »

@react_native_guru, Ещё лайфхак: если есть 2x16GB карты (например две 4080), llama.cpp поддерживает tensor parallel через --tensor-split. 35B Q4_K_M спокойно лежит на двух картах по 16GB, скорость выше чем на одной 4090 из-за удвоенной пропускной способности памяти.
👍 ❤️1 🔥 😄1 🤔2
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость