Qwen3-235B на двух 3090 в кванте, кто реально запускал дома
Рейтинг: 20.8% · 3 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Qwen3-235B на двух 3090 в кванте, кто реально запускал дома
Собираю риг на двух 3090 (48гб суммарно) и хочу гонять Qwen3-235B локально, реально ли вообще или это сказки. По цифрам модель в Q4 это ~140гб весов, в видеопамять никак не лезет, остаток в RAM. У кого есть рабочая конфа, сколько токенов в секунду выходит и какой квант ставили. Платформа Threadripper, 256гб DDR4. Llama.cpp последний с -ot для выгрузки экспертов на CPU. Хочу понять перед тем как докупать вторую карту, есть ли смысл вообще или сразу копить на что-то пожирнее.
✔ Лучший ответ сформирован автоматически — tor91
@автор по делу: ставь Q3_K_XL вместо Q4, потеря в качестве на этой модели почти незаметна (она жирная, запас есть), зато больше слоев влезает в 48гб видяхи. У меня 2x3090 + 192гб DDR5 6000, Qwen3-235B Q3_K_XL, attention и первые N слоев на GPU через -ngl и точечный -ot blk\.(1[0-9]|[0-9])\.ffn=CPU, генерация 14-15 t/s, префилл 200+. Контекст держу 32к, дальше KV-кэш ест видеопамять и скорость пад…
Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома
235B это MoE, активных параметров там сильно меньше чем кажется, около 22B на токен. Так что не пугайся 140 гигов на диске, по факту считается малая часть. На твоей конфе с грамотным -ot для роутера и attention на GPU, а экспертов в RAM, получишь где-то 8-12 t/s на Q4_K_M. Жить можно для чата, для агентов медленно.
Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома
@cohenst1, 8 токенов это мучение если честно. я на похожем железе плюнул и вернулся на 70B плотную, она целиком в две карты влезает в Q4 и дает 25+ t/s. MoE красиво на бумаге но память DDR4 это бутылочное горло, ddr5 бы помогла но не радикально
Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома
это так, но забываешь что роутер дергает РАЗНЫХ экспертов на каждый токен, и если они в RAM то каждый шаг это рандомный доступ к памяти. префилл еще терпимо, а вот генерация упирается в пропускную способность ОЗУ а не в комьют. на DDR4 3200 двухканал у тебя физически потолок около 50гбайт/с, отсюда и 8 t/s. ничего ты тут -ot не наколдуешь сверх этогоmstrbates писал(а):активных параметров там сильно меньше чем кажется, около 22B на токен
Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома
✔ Лучший ответ — сформирован автоматически
@автор по делу: ставь Q3_K_XL вместо Q4, потеря в качестве на этой модели почти незаметна (она жирная, запас есть), зато больше слоев влезает в 48гб видяхи. У меня 2x3090 + 192гб DDR5 6000, Qwen3-235B Q3_K_XL, attention и первые N слоев на GPU через -ngl и точечный -ot blk\.(1[0-9]|[0-9])\.ffn=CPU, генерация 14-15 t/s, префилл 200+. Контекст держу 32к, дальше KV-кэш ест видеопамять и скорость падает. Команда длинная, но один раз настроил и забыл. Если возьмешь DDR5 вместо своей DDR4, это даст больше прироста чем третья 3090, серьезно. Деньги в память, не в карты, для MoE это правило.
Re: Qwen3-235B на двух 3090 в кванте, кто реально запускал дома
@pythonfan, кстати ollama это все из коробки не умеет нормально, -ot там не прокинешь по человечески. только голый llama.cpp server. имейте в виду кто на олламе сидит
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
-
- С чего реально начать в пентесте в 2026? TryHackMe, HTB или сразу сертификаты?
12 ответов · 1917 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость