Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?
Рейтинг: 30.1% · 4 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- terraformlover
- Сообщения: 2
- Зарегистрирован: 14 май 2026, 00:22
Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?
Хочу запустить Qwen3-235B-A22B локально на домашней сборке, реально ли это на двух 3090 (48гб суммарно) плюс выгрузка в оперативку, и сколько токенов в секунду ждать. У меня 128гб ddr4, Ryzen 9 5950X. Понимаю что 235B в Q4 это около 130-140гб весов, всё в видяхи не лезет, поэтому интересует именно гибридный режим через llama.cpp с -ot для активных экспертов. Кто гонял, какая скорость на генерации и на префилле, и не загнётся ли оно по памяти при контексте хотя бы 16к.
✔ Лучший ответ сформирован автоматически — kernel2025
гонял такое на 2x3090 + 96гб ddr5. с правильным offload только экспертных слоёв в cpu получал 11-13 tok/s генерации на коротком контексте. на 16к контекста префилл медленный, секунд 8-10 ждёшь первый токен. это MoE, активных всего 22B, поэтому терпимо. ключевое не пихать kv в озу, kv держи на гпу.
- kernel2025
- Сообщения: 7
- Зарегистрирован: 13 май 2026, 05:05
- Репутация: 68
Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?
✔ Лучший ответ — сформирован автоматически
гонял такое на 2x3090 + 96гб ddr5. с правильным offload только экспертных слоёв в cpu получал 11-13 tok/s генерации на коротком контексте. на 16к контекста префилл медленный, секунд 8-10 ждёшь первый токен. это MoE, активных всего 22B, поэтому терпимо. ключевое не пихать kv в озу, kv держи на гпу.
Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?
ближе к 125гб если брать Q4_K_M, и unsloth выкатили динамические кванты UD-Q3_K_XL где оно ужимается до ~100гб почти без потери качества на ваших задачах. вот их и бери, на твоей памяти оно сядет комфортнее и контекст влезет больше. я на UD-Q3 поднял 32к контекста и не упёрся.terraformlover писал(а):235B в Q4 это около 130-140гб весов
Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?
@kernel2025, ddr4 у тебя бутылочное горло, не видяхи. на ddr5 та же конфига даёт процентов на 30 больше. но менять платформу ради этого такое себе
- rabbitsmith
- Сообщения: 7
- Зарегистрирован: 17 май 2026, 00:39
Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?
не всегда так линейно. упирается ещё в число каналов памяти. на десктопе 2 канала и хоть ты тресни, пропускной способности не хватает чтобы MoE эксперты летали из озу. на трипперах с 8 каналами совсем другая картина, там 235B в озу едет бодро даже без топовых гпу. так что дело не только в поколении ddrtorch22 писал(а):на ddr5 та же конфига даёт процентов на 30 больше
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
-
- С чего реально начать в пентесте в 2026? TryHackMe, HTB или сразу сертификаты?
12 ответов · 1917 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость