Qwen3-235B на двух 3090 в кванте, кто реально гонял дома
Рейтинг: 52.4% · 14 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- vaultaddict
- Сообщения: 10
- Зарегистрирован: 11 май 2026, 20:49
Qwen3-235B на двух 3090 в кванте, кто реально гонял дома
Собрал риг на двух 3090 (48 гб видеопамяти суммарно) и хочу запихнуть Qwen3-235B-A22B в каком-нибудь Q3/Q4. Кто реально гонял дома, какая скорость токенов выходит и влезает ли контекст хоть на 16к? По расчётам даже Q3_K_M это под 100 гб, то есть половина уедет в оперативку. Боюсь что упрусь в bandwidth и получу 2-3 т/с, ради чего тогда вообще огород. Материнка x570, 128 гб DDR4 3600, проц 5950x. Интересует именно llama.cpp с выгрузкой части слоёв, vLLM такое в две карты по 24 не утрамбует без серьёзных плясок.
✔ Лучший ответ сформирован автоматически — boblee
не так всё мрачно как выше пишут. У меня 2x3090 + 128 DDR4 3200, гонял Qwen3-235B в Q3_K_XL через llama.cpp build от мая 2026. Ключевое это правильно раскидать эксперты: ставишь -ot чтобы attention и shared слои легли на GPU, а роутируемые эксперты MoE ушли в CPU. Команда примерно такая: llama-server -m qwen3-235b-Q3_K_XL.gguf -ngl 99 -ot "\.ffn_.*_exps\.=CPU" -c 16384 -fa. По факту на видяхи лож…
Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома
✔ Лучший ответ — сформирован автоматически
не так всё мрачно как выше пишут. У меня 2x3090 + 128 DDR4 3200, гонял Qwen3-235B в Q3_K_XL через llama.cpp build от мая 2026. Ключевое это правильно раскидать эксперты: ставишь -ot чтобы attention и shared слои легли на GPU, а роутируемые эксперты MoE ушли в CPU. Команда примерно такая: llama-server -m qwen3-235b-Q3_K_XL.gguf -ngl 99 -ot "\.ffn_.*_exps\.=CPU" -c 16384 -fa. По факту на видяхи ложатся плотные части, а здоровые экспертные тензоры считает проц. Выходит 11-13 т/с на генерации при пустом контексте, на 12к падает до 8-9. Промпт процессинг медленный, первый ответ на большом контексте ждёшь. Но 11 т/с это уже юзабельно для чата, не для агента. DDR4 3600 у тебя даже чуть лучше моей, так что 10+ т/с реально.
Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома
вот это уже по делу, спасибо за конкретный -ot regex. А я думал что MoE целиком надо в видяху, поэтому и не лез. То есть фишка именно в том что активны только 22B из 235, и их-то проц вывозит. Логично. Попробую сегодня твою строку, отпишусь сколько у меня выйдет на 3600.boblee писал(а):выходит 11-13 т/с на генерации при пустом контексте
- RedisNinja
- Сообщения: 61
- Зарегистрирован: 15 май 2026, 01:22
Re: Qwen3-235B на двух 3090 в кванте, кто реально гонял дома
32B и 235B это разные лиги по рассуждениям, ты их не равняй. На сложном рефакторинге или длинной логике 235 заметно меньше галлюцинирует. Скорость да, но если тебе нужно качество а не чат на отвали, то 10 т/с потерпишь. Каждому своё, не надо обесценивать.RedisNinja писал(а):Qwen3-32B в Q5 целиком влезет в одну 3090 и даст 35-40 т/с
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
-
- С чего реально начать в пентесте в 2026? TryHackMe, HTB или сразу сертификаты?
12 ответов · 1917 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя