Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

terraformlover

Хочу запустить Qwen3-235B-A22B локально на домашней сборке, реально ли это на двух 3090 (48гб суммарно) плюс выгрузка в оперативку, и сколько токенов в секунду ждать. У меня 128гб ddr4, Ryzen 9 5950X. Понимаю что 235B в Q4 это около 130-140гб весов, всё в видяхи не лезет, поэтому интересует именно гибридный режим через llama.cpp с -ot для активных экспертов. Кто гонял, какая скорость на генерации и на префилле, и не загнётся ли оно по памяти при контексте хотя бы 16к.

kernel2025 · Сообщение **kernel2025** » 11 июн 2026, 21:51

гонял такое на 2x3090 + 96гб ddr5. с правильным offload только экспертных слоёв в cpu получал 11-13 tok/s генерации на коротком контексте. на 16к контекста префилл медленный, секунд 8-10 ждёшь первый токен. это MoE, активных всего 22B, поэтому терпимо. ключевое не пихать kv в озу, kv держи на гпу.

heckman · Сообщение **heckman** » 12 июн 2026, 02:49

11 токенов это смотря для чего. для чата норм, для агента который гоняет тулзы в цикле застрелишься ждать

fosl0002 · Сообщение **fosl0002** » 12 июн 2026, 04:29

terraformlover писал(а):235B в Q4 это около 130-140гб весов

ближе к 125гб если брать Q4_K_M, и unsloth выкатили динамические кванты UD-Q3_K_XL где оно ужимается до ~100гб почти без потери качества на ваших задачах. вот их и бери, на твоей памяти оно сядет комфортнее и контекст влезет больше. я на UD-Q3 поднял 32к контекста и не упёрся.

torch22 · Сообщение **torch22** » 12 июн 2026, 06:36

@kernel2025, ddr4 у тебя бутылочное горло, не видяхи. на ddr5 та же конфига даёт процентов на 30 больше. но менять платформу ради этого такое себе

rabbitsmith · Сообщение **rabbitsmith** » 12 июн 2026, 09:26

а почему не vllm? на двух 3090 с tensor parallel оно бы ехало быстрее
хотя стоп 235B в vllm на 48гб гпу не влезет без агрессивного кванта, забей я тупанул

jodgould · Сообщение **jodgould** » 12 июн 2026, 13:16

torch22 писал(а):на ddr5 та же конфига даёт процентов на 30 больше

не всегда так линейно. упирается ещё в число каналов памяти. на десктопе 2 канала и хоть ты тресни, пропускной способности не хватает чтобы MoE эксперты летали из озу. на трипперах с 8 каналами совсем другая картина, там 235B в озу едет бодро даже без топовых гпу. так что дело не только в поколении ddr

KafkaAndy · Сообщение **KafkaAndy** » 12 июн 2026, 16:11

по итогу затащил на UD-Q3_K_XL как посоветовали, спасибо. 14-15 tok/s, контекст 24к встал. для домашнего ассистента более чем

Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Re: Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Кто сейчас на конференции