Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Austkin · Сообщение **Austkin** » 11 май 2026, 13:51

Дозрел до больших MoE и собрал под них отдельную машину из б/у серверного. Конфиг: EPYC 7532 с али за 28к, мать Supermicro H11SSL-i с авито за 24к, 512 гигов DDR4 2933 ECC, 16 планок по 32, вышло около 68к. Плюс корпус, башня, бп, итого где-то 150к. Старая 3060 12GB переехала туда же.

Запускаю Qwen3.6-235B-A22B в Q4 через ik_llama.cpp: эксперты в RAM, attention и shared слои на 3060. Генерация 8-9 ток/с, промпт около 70-80 ток/с.

Да, не 30 ток/с. Но это 235B дома, и он ощутимо умнее любой 32B, что я гонял до этого. Для задач, где нужны мозги, а не скорость, самое то. Кто захочет повторить: главное брать память всеми 8 каналами, иначе все упрется в пропускную.

johnmal · Сообщение **johnmal** » 11 май 2026, 14:01

8-9 на 235B это пушка вообще-то. но промпт 70-80 ток/с, это же вход в 20к токенов жуется минуты четыре. как ты с этим живешь? для разовых вопросов ок, для работы с документами повеситься можно

danga · Сообщение **danga** » 11 май 2026, 14:44

Austkin писал(а):Плюс корпус, башня, бп, итого где-то 150к

за эти же 150к берутся две 3090 и крутят 70B плотную в exl3 на 18-20 ток/с с нормальным промпт процессингом. вопрос только, что тебе нужнее, мозги 235B или отзывчивость. я пробовал оба варианта, для интерактивной работы эпик не зашел, продал через месяц

rtrowsdell · Сообщение **rtrowsdell** » 11 май 2026, 16:11

@johnmal, на genoa с 12 каналами DDR5 было бы раза в два с половиной быстрее, но там проц с матерью и памятью уже за 400к уходит, не наш метод. ddr4 эпики сейчас золотая середина по цене за канал, приятно что твои цифры это подтверждают

Kireeich · Сообщение **Kireeich** » 11 май 2026, 16:35

Austkin писал(а):главное брать память всеми 8 каналами, иначе все упрется в пропускную

каналы это полдела. проверь NUMA, на эпиках без --numa distribute и выключенного interleave в биосе llama.cpp может половину каналов тупо не использовать. у меня на 7402 после правки биоса генерация выросла с 6 до 8.5 на похожей модели. и в htop глянь, что на генерации заняты все 32 ядра, а не половина

cppguru · Сообщение **cppguru** » 11 май 2026, 16:38

а Kimi K2 на такое влезет? он вроде на агентских задачах еще умнее

Bauerle · Сообщение **Bauerle** » 11 май 2026, 18:48

K2 это триллион параметров, в Q4 под 550 гигов, в 512 не лезет даже впритык. есть огрызки в Q2, но там лоботомия, не советую. потолок для 512 гигов это как раз класс 235-400B в нормальном кванте

juniorredteam

люди дома 235B гоняют, а я 8B на ноуте грею... форум здорового человека

asynclover · Сообщение **asynclover** » 11 июн 2026, 07:20

johnmal писал(а):вход в 20к токенов жуется минуты четыре

так он целиком жуется ровно один раз. кеш промпта в llama.cpp никто не отменял, диалог дальше идет инкрементально, плюс --prompt-cache на диск для повторяющихся системников. больно только когда каждый раз свежий документ на 20к, вот там да, иди чай заваривай. для чатов и агентских циклов, где контекст растет постепенно, вполне живется

async2010 · Сообщение **async2010** » 11 июн 2026, 21:26

@Austkin, а сколько контекста реально влезает при такой раскладке? kv кеш у 235B штука прожорливая, 3060 с ее 12 гигами после attention и shared слоев должна быть почти под завязку. и какой именно квант, Q4_K_M или что-то из IQ4? на иковских часто и меньше весит, и быстрее молотит

Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Кто сейчас на конференции