Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

vaultaddict · Сообщение **vaultaddict** » 09 июн 2026, 01:24

Собрал риг на двух 3090 (48 гб видеопамяти суммарно) и хочу запихнуть Qwen3-235B-A22B в каком-нибудь Q3/Q4. Кто реально гонял дома, какая скорость токенов выходит и влезает ли контекст хоть на 16к? По расчётам даже Q3_K_M это под 100 гб, то есть половина уедет в оперативку. Боюсь что упрусь в bandwidth и получу 2-3 т/с, ради чего тогда вообще огород. Материнка x570, 128 гб DDR4 3600, проц 5950x. Интересует именно llama.cpp с выгрузкой части слоёв, vLLM такое в две карты по 24 не утрамбует без серьёзных плясок.

leelo · Сообщение **leelo** » 09 июн 2026, 04:25

235B на 48 гб видяхи это изначально мёртвая затея, у тебя 75% весов в DDR4 будут, какой Q3 не бери. Получишь свои 3-4 т/с и закроешь.

boblee · Сообщение **boblee** » 09 июн 2026, 07:25

не так всё мрачно как выше пишут. У меня 2x3090 + 128 DDR4 3200, гонял Qwen3-235B в Q3_K_XL через llama.cpp build от мая 2026. Ключевое это правильно раскидать эксперты: ставишь -ot чтобы attention и shared слои легли на GPU, а роутируемые эксперты MoE ушли в CPU. Команда примерно такая: llama-server -m qwen3-235b-Q3_K_XL.gguf -ngl 99 -ot "\.ffn_.*_exps\.=CPU" -c 16384 -fa. По факту на видяхи ложатся плотные части, а здоровые экспертные тензоры считает проц. Выходит 11-13 т/с на генерации при пустом контексте, на 12к падает до 8-9. Промпт процессинг медленный, первый ответ на большом контексте ждёшь. Но 11 т/с это уже юзабельно для чата, не для агента. DDR4 3600 у тебя даже чуть лучше моей, так что 10+ т/с реально.

rabbit8 · Сообщение **rabbit8** » 09 июн 2026, 08:57

boblee писал(а):выходит 11-13 т/с на генерации при пустом контексте

вот это уже по делу, спасибо за конкретный -ot regex. А я думал что MoE целиком надо в видяху, поэтому и не лез. То есть фишка именно в том что активны только 22B из 235, и их-то проц вывозит. Логично. Попробую сегодня твою строку, отпишусь сколько у меня выйдет на 3600.

stachhunt · Сообщение **stachhunt** » 09 июн 2026, 12:18

a22b значит на каждый токен реально работает 22 миллиарда параметров, остальные спят. Поэтому проц не помирает, ему не надо все 235 гонять. Народ это постоянно путает и считает по полному размеру.

RedisNinja · Сообщение **RedisNinja** » 09 июн 2026, 14:35

подниму вопрос, а смысл? Qwen3-32B в Q5 целиком влезет в одну 3090 и даст 35-40 т/с. 235B умнее, но в 3 раза медленнее и жрёт весь риг. Для кода 32B хватает за глаза.

pharside · Сообщение **pharside** » 09 июн 2026, 18:08

RedisNinja писал(а):Qwen3-32B в Q5 целиком влезет в одну 3090 и даст 35-40 т/с

32B и 235B это разные лиги по рассуждениям, ты их не равняй. На сложном рефакторинге или длинной логике 235 заметно меньше галлюцинирует. Скорость да, но если тебе нужно качество а не чат на отвали, то 10 т/с потерпишь. Каждому своё, не надо обесценивать.

Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Кто сейчас на конференции