Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Рейтинг: 20.8% · 3 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
cohenst1
Сообщения: 92
Зарегистрирован: 11 май 2026, 02:08

Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Сообщение cohenst1 »

Собираю риг на двух 3090 (48гб суммарно) и хочу гонять Qwen3-235B локально, реально ли вообще или это сказки. По цифрам модель в Q4 это ~140гб весов, в видеопамять никак не лезет, остаток в RAM. У кого есть рабочая конфа, сколько токенов в секунду выходит и какой квант ставили. Платформа Threadripper, 256гб DDR4. Llama.cpp последний с -ot для выгрузки экспертов на CPU. Хочу понять перед тем как докупать вторую карту, есть ли смысл вообще или сразу копить на что-то пожирнее.
👍2 ❤️2 🔥 😄1 🤔
✔ Лучший ответ сформирован автоматически — tor91
@автор по делу: ставь Q3_K_XL вместо Q4, потеря в качестве на этой модели почти незаметна (она жирная, запас есть), зато больше слоев влезает в 48гб видяхи. У меня 2x3090 + 192гб DDR5 6000, Qwen3-235B Q3_K_XL, attention и первые N слоев на GPU через -ngl и точечный -ot blk\.(1[0-9]|[0-9])\.ffn=CPU, генерация 14-15 t/s, префилл 200+. Контекст держу 32к, дальше KV-кэш ест видеопамять и скорость пад…
Перейти к ответу →
Аватара пользователя
mstrbates
Сообщения: 88
Зарегистрирован: 11 май 2026, 00:45

Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Сообщение mstrbates »

235B это MoE, активных параметров там сильно меньше чем кажется, около 22B на токен. Так что не пугайся 140 гигов на диске, по факту считается малая часть. На твоей конфе с грамотным -ot для роутера и attention на GPU, а экспертов в RAM, получишь где-то 8-12 t/s на Q4_K_M. Жить можно для чата, для агентов медленно.
👍 ❤️1 🔥1 😄 🤔2
Аватара пользователя
pythonfan
Сообщения: 15
Зарегистрирован: 11 май 2026, 22:42

Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Сообщение pythonfan »

@cohenst1, 8 токенов это мучение если честно. я на похожем железе плюнул и вернулся на 70B плотную, она целиком в две карты влезает в Q4 и дает 25+ t/s. MoE красиво на бумаге но память DDR4 это бутылочное горло, ddr5 бы помогла но не радикально
👍1 ❤️2 🔥 😄 🤔
Аватара пользователя
kernel2
Сообщения: 30
Зарегистрирован: 20 май 2026, 10:58

Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Сообщение kernel2 »

mstrbates писал(а):активных параметров там сильно меньше чем кажется, около 22B на токен
это так, но забываешь что роутер дергает РАЗНЫХ экспертов на каждый токен, и если они в RAM то каждый шаг это рандомный доступ к памяти. префилл еще терпимо, а вот генерация упирается в пропускную способность ОЗУ а не в комьют. на DDR4 3200 двухканал у тебя физически потолок около 50гбайт/с, отсюда и 8 t/s. ничего ты тут -ot не наколдуешь сверх этого
👍 ❤️ 🔥2 😄 🤔1
Аватара пользователя
roero
Сообщения: 23
Зарегистрирован: 11 май 2026, 05:17

Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Сообщение roero »

подниму вопрос, а смысл 235B дома вообще есть? за деньги на второй риг можно год апишку дергать
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
tor91
Сообщения: 33
Зарегистрирован: 13 май 2026, 08:27

Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Сообщение tor91 »

✔ Лучший ответ — сформирован автоматически
@автор по делу: ставь Q3_K_XL вместо Q4, потеря в качестве на этой модели почти незаметна (она жирная, запас есть), зато больше слоев влезает в 48гб видяхи. У меня 2x3090 + 192гб DDR5 6000, Qwen3-235B Q3_K_XL, attention и первые N слоев на GPU через -ngl и точечный -ot blk\.(1[0-9]|[0-9])\.ffn=CPU, генерация 14-15 t/s, префилл 200+. Контекст держу 32к, дальше KV-кэш ест видеопамять и скорость падает. Команда длинная, но один раз настроил и забыл. Если возьмешь DDR5 вместо своей DDR4, это даст больше прироста чем третья 3090, серьезно. Деньги в память, не в карты, для MoE это правило.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
aqwzsx
Сообщения: 11
Зарегистрирован: 13 май 2026, 05:55

Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Сообщение aqwzsx »

@pythonfan, кстати ollama это все из коробки не умеет нормально, -ot там не прокинешь по человечески. только голый llama.cpp server. имейте в виду кто на олламе сидит
👍2 ❤️1 🔥1 😄 🤔
Аватара пользователя
Manchaca
Сообщения: 14
Зарегистрирован: 02 июн 2026, 10:26

Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Сообщение Manchaca »

DDR5 в риг с тредриппером это еще материнку менять под sTR5, +80-100к рублей минимум на круг. так что совет копить в память хорош только если ты с нуля собираешь
👍1 ❤️ 🔥1 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость