Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Рейтинг: 52.4% · 14 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
vaultaddict
Сообщения: 10
Зарегистрирован: 11 май 2026, 20:49

Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Сообщение vaultaddict »

Собрал риг на двух 3090 (48 гб видеопамяти суммарно) и хочу запихнуть Qwen3-235B-A22B в каком-нибудь Q3/Q4. Кто реально гонял дома, какая скорость токенов выходит и влезает ли контекст хоть на 16к? По расчётам даже Q3_K_M это под 100 гб, то есть половина уедет в оперативку. Боюсь что упрусь в bandwidth и получу 2-3 т/с, ради чего тогда вообще огород. Материнка x570, 128 гб DDR4 3600, проц 5950x. Интересует именно llama.cpp с выгрузкой части слоёв, vLLM такое в две карты по 24 не утрамбует без серьёзных плясок.
👍1 ❤️1 🔥 😄1 🤔
✔ Лучший ответ сформирован автоматически — boblee
не так всё мрачно как выше пишут. У меня 2x3090 + 128 DDR4 3200, гонял Qwen3-235B в Q3_K_XL через llama.cpp build от мая 2026. Ключевое это правильно раскидать эксперты: ставишь -ot чтобы attention и shared слои легли на GPU, а роутируемые эксперты MoE ушли в CPU. Команда примерно такая: llama-server -m qwen3-235b-Q3_K_XL.gguf -ngl 99 -ot "\.ffn_.*_exps\.=CPU" -c 16384 -fa. По факту на видяхи лож…
Перейти к ответу →
Аватара пользователя
leelo
Сообщения: 18
Зарегистрирован: 19 май 2026, 17:46

Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Сообщение leelo »

235B на 48 гб видяхи это изначально мёртвая затея, у тебя 75% весов в DDR4 будут, какой Q3 не бери. Получишь свои 3-4 т/с и закроешь.
👍1 ❤️2 🔥 😄 🤔1
Аватара пользователя
boblee
Сообщения: 42
Зарегистрирован: 11 май 2026, 11:59

Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Сообщение boblee »

✔ Лучший ответ — сформирован автоматически
не так всё мрачно как выше пишут. У меня 2x3090 + 128 DDR4 3200, гонял Qwen3-235B в Q3_K_XL через llama.cpp build от мая 2026. Ключевое это правильно раскидать эксперты: ставишь -ot чтобы attention и shared слои легли на GPU, а роутируемые эксперты MoE ушли в CPU. Команда примерно такая: llama-server -m qwen3-235b-Q3_K_XL.gguf -ngl 99 -ot "\.ffn_.*_exps\.=CPU" -c 16384 -fa. По факту на видяхи ложатся плотные части, а здоровые экспертные тензоры считает проц. Выходит 11-13 т/с на генерации при пустом контексте, на 12к падает до 8-9. Промпт процессинг медленный, первый ответ на большом контексте ждёшь. Но 11 т/с это уже юзабельно для чата, не для агента. DDR4 3600 у тебя даже чуть лучше моей, так что 10+ т/с реально.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
rabbit8
Сообщения: 41
Зарегистрирован: 13 май 2026, 08:48

Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Сообщение rabbit8 »

boblee писал(а):выходит 11-13 т/с на генерации при пустом контексте
вот это уже по делу, спасибо за конкретный -ot regex. А я думал что MoE целиком надо в видяху, поэтому и не лез. То есть фишка именно в том что активны только 22B из 235, и их-то проц вывозит. Логично. Попробую сегодня твою строку, отпишусь сколько у меня выйдет на 3600.
👍1 ❤️2 🔥 😄 🤔
Аватара пользователя
stachhunt
Сообщения: 12
Зарегистрирован: 12 май 2026, 20:25

Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Сообщение stachhunt »

a22b значит на каждый токен реально работает 22 миллиарда параметров, остальные спят. Поэтому проц не помирает, ему не надо все 235 гонять. Народ это постоянно путает и считает по полному размеру.
👍 ❤️ 🔥 😄 🤔1
Аватара пользователя
RedisNinja
Сообщения: 61
Зарегистрирован: 15 май 2026, 01:22

Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Сообщение RedisNinja »

подниму вопрос, а смысл? Qwen3-32B в Q5 целиком влезет в одну 3090 и даст 35-40 т/с. 235B умнее, но в 3 раза медленнее и жрёт весь риг. Для кода 32B хватает за глаза.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
pharside
Сообщения: 25
Зарегистрирован: 15 май 2026, 18:41

Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Сообщение pharside »

RedisNinja писал(а):Qwen3-32B в Q5 целиком влезет в одну 3090 и даст 35-40 т/с
32B и 235B это разные лиги по рассуждениям, ты их не равняй. На сложном рефакторинге или длинной логике 235 заметно меньше галлюцинирует. Скорость да, но если тебе нужно качество а не чат на отвали, то 10 т/с потерпишь. Каждому своё, не надо обесценивать.
👍1 ❤️ 🔥2 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя