Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

cohenst1 · Сообщение **cohenst1** » 31 май 2026, 08:05

Собираю риг на двух 3090 (48гб суммарно) и хочу гонять Qwen3-235B локально, реально ли вообще или это сказки. По цифрам модель в Q4 это ~140гб весов, в видеопамять никак не лезет, остаток в RAM. У кого есть рабочая конфа, сколько токенов в секунду выходит и какой квант ставили. Платформа Threadripper, 256гб DDR4. Llama.cpp последний с -ot для выгрузки экспертов на CPU. Хочу понять перед тем как докупать вторую карту, есть ли смысл вообще или сразу копить на что-то пожирнее.

mstrbates · Сообщение **mstrbates** » 31 май 2026, 11:14

235B это MoE, активных параметров там сильно меньше чем кажется, около 22B на токен. Так что не пугайся 140 гигов на диске, по факту считается малая часть. На твоей конфе с грамотным -ot для роутера и attention на GPU, а экспертов в RAM, получишь где-то 8-12 t/s на Q4_K_M. Жить можно для чата, для агентов медленно.

pythonfan · Сообщение **pythonfan** » 31 май 2026, 14:22

@cohenst1, 8 токенов это мучение если честно. я на похожем железе плюнул и вернулся на 70B плотную, она целиком в две карты влезает в Q4 и дает 25+ t/s. MoE красиво на бумаге но память DDR4 это бутылочное горло, ddr5 бы помогла но не радикально

kernel2 · Сообщение **kernel2** » 31 май 2026, 17:53

mstrbates писал(а):активных параметров там сильно меньше чем кажется, около 22B на токен

это так, но забываешь что роутер дергает РАЗНЫХ экспертов на каждый токен, и если они в RAM то каждый шаг это рандомный доступ к памяти. префилл еще терпимо, а вот генерация упирается в пропускную способность ОЗУ а не в комьют. на DDR4 3200 двухканал у тебя физически потолок около 50гбайт/с, отсюда и 8 t/s. ничего ты тут -ot не наколдуешь сверх этого

roero · Сообщение **roero** » 31 май 2026, 18:05

подниму вопрос, а смысл 235B дома вообще есть? за деньги на второй риг можно год апишку дергать

tor91 · Сообщение **tor91** » 31 май 2026, 20:34

@автор по делу: ставь Q3_K_XL вместо Q4, потеря в качестве на этой модели почти незаметна (она жирная, запас есть), зато больше слоев влезает в 48гб видяхи. У меня 2x3090 + 192гб DDR5 6000, Qwen3-235B Q3_K_XL, attention и первые N слоев на GPU через -ngl и точечный -ot blk\.(1[0-9]|[0-9])\.ffn=CPU, генерация 14-15 t/s, префилл 200+. Контекст держу 32к, дальше KV-кэш ест видеопамять и скорость падает. Команда длинная, но один раз настроил и забыл. Если возьмешь DDR5 вместо своей DDR4, это даст больше прироста чем третья 3090, серьезно. Деньги в память, не в карты, для MoE это правило.

aqwzsx · Сообщение **aqwzsx** » 31 май 2026, 21:01

@pythonfan, кстати ollama это все из коробки не умеет нормально, -ot там не прокинешь по человечески. только голый llama.cpp server. имейте в виду кто на олламе сидит

Manchaca · Сообщение **Manchaca** » 01 июн 2026, 01:54

DDR5 в риг с тредриппером это еще материнку менять под sTR5, +80-100к рублей минимум на круг. так что совет копить в память хорош только если ты с нуля собираешь

Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома

Кто сейчас на конференции