Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Рейтинг: 30.1% · 4 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
terraformlover
Сообщения: 2
Зарегистрирован: 14 май 2026, 00:22

Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Сообщение terraformlover »

Хочу запустить Qwen3-235B-A22B локально на домашней сборке, реально ли это на двух 3090 (48гб суммарно) плюс выгрузка в оперативку, и сколько токенов в секунду ждать. У меня 128гб ddr4, Ryzen 9 5950X. Понимаю что 235B в Q4 это около 130-140гб весов, всё в видяхи не лезет, поэтому интересует именно гибридный режим через llama.cpp с -ot для активных экспертов. Кто гонял, какая скорость на генерации и на префилле, и не загнётся ли оно по памяти при контексте хотя бы 16к.
👍1 ❤️1 🔥1 😄 🤔2
✔ Лучший ответ сформирован автоматически — kernel2025
гонял такое на 2x3090 + 96гб ddr5. с правильным offload только экспертных слоёв в cpu получал 11-13 tok/s генерации на коротком контексте. на 16к контекста префилл медленный, секунд 8-10 ждёшь первый токен. это MoE, активных всего 22B, поэтому терпимо. ключевое не пихать kv в озу, kv держи на гпу.
Перейти к ответу →
Аватара пользователя
kernel2025
Сообщения: 7
Зарегистрирован: 13 май 2026, 05:05
Репутация: 68

Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Сообщение kernel2025 »

✔ Лучший ответ — сформирован автоматически
гонял такое на 2x3090 + 96гб ddr5. с правильным offload только экспертных слоёв в cpu получал 11-13 tok/s генерации на коротком контексте. на 16к контекста префилл медленный, секунд 8-10 ждёшь первый токен. это MoE, активных всего 22B, поэтому терпимо. ключевое не пихать kv в озу, kv держи на гпу.
👍1 ❤️1 🔥1 😄1 🤔
Аватара пользователя
heckman
Сообщения: 62
Зарегистрирован: 12 май 2026, 19:39

Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Сообщение heckman »

11 токенов это смотря для чего. для чата норм, для агента который гоняет тулзы в цикле застрелишься ждать
👍1 ❤️ 🔥1 😄1 🤔
Аватара пользователя
fosl0002
Сообщения: 15
Зарегистрирован: 21 май 2026, 01:32

Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Сообщение fosl0002 »

terraformlover писал(а):235B в Q4 это около 130-140гб весов
ближе к 125гб если брать Q4_K_M, и unsloth выкатили динамические кванты UD-Q3_K_XL где оно ужимается до ~100гб почти без потери качества на ваших задачах. вот их и бери, на твоей памяти оно сядет комфортнее и контекст влезет больше. я на UD-Q3 поднял 32к контекста и не упёрся.
👍 ❤️ 🔥1 😄2 🤔
Аватара пользователя
torch22
Сообщения: 43
Зарегистрирован: 11 май 2026, 20:50

Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Сообщение torch22 »

@kernel2025, ddr4 у тебя бутылочное горло, не видяхи. на ddr5 та же конфига даёт процентов на 30 больше. но менять платформу ради этого такое себе
👍 ❤️1 🔥1 😄1 🤔1
Аватара пользователя
rabbitsmith
Сообщения: 7
Зарегистрирован: 17 май 2026, 00:39

Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Сообщение rabbitsmith »

а почему не vllm? на двух 3090 с tensor parallel оно бы ехало быстрее
хотя стоп 235B в vllm на 48гб гпу не влезет без агрессивного кванта, забей я тупанул
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
jodgould
Сообщения: 9
Зарегистрирован: 26 май 2026, 10:01

Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Сообщение jodgould »

torch22 писал(а):на ddr5 та же конфига даёт процентов на 30 больше
не всегда так линейно. упирается ещё в число каналов памяти. на десктопе 2 канала и хоть ты тресни, пропускной способности не хватает чтобы MoE эксперты летали из озу. на трипперах с 8 каналами совсем другая картина, там 235B в озу едет бодро даже без топовых гпу. так что дело не только в поколении ddr
👍1 ❤️1 🔥1 😄1 🤔
Аватара пользователя
KafkaAndy
Сообщения: 12
Зарегистрирован: 13 май 2026, 10:25

Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Сообщение KafkaAndy »

по итогу затащил на UD-Q3_K_XL как посоветовали, спасибо. 14-15 tok/s, контекст 24к встал. для домашнего ассистента более чем
👍 ❤️ 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей