Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

togashi · Сообщение **togashi** » 12 май 2026, 21:36

Полгода жаба душила отдавать 250к за 5090, в итоге пошел другим путем. Делюсь цифрами, может кому сэкономит нервы.

Конфиг: Epyc 7532, 32 ядра, брал на Али за 27к. Мать Supermicro H12SSL-i с Авито за 36к. 8 планок DDR4-3200 ECC REG по 32 гига, по 4200р за штуку у барыги с того же Авито, итого 33600 за 256GB. БП и корпус остались от старой сборки. Суммарно вышло около сотки.

Гоняю Qwen3-235B-A22B в Q4_K_M через ik_llama.cpp. Логика простая: активных параметров 22B, на токен надо прочитать из памяти примерно 12 гигов, 8 каналов DDR4-3200 дают около 190 GB/s. На практике 9-10 ток/с на коротком контексте, к 16к проседает до 7. Я столько глазами все равно не читаю.

Промпт процессинг больное место, чисто на CPU было около 60 ток/с. Воткнул старую 3060 12GB, через -ot exps=CPU оставил экспертов на проце, а внимание и общие тензоры уехали на видяху. Стало 230-240 ток/с на промпте, и генерация подросла до 11.

К чему все это. Народ копит на видяхи по пол-ляма, а MoE поменял расклад. Платишь за память, а не за чип. 235B дома за сотку, год назад я бы покрутил пальцем у виска. Кто еще гоняет толстые MoE на CPU, какие у вас цифры?

pnm917 · Сообщение **pnm917** » 13 май 2026, 01:47

Звучит красиво ровно до первого реального запроса. Кинь в него RAG-контекст на 30к токенов и иди пить чай. 240 ток/с на промпте это две минуты до первого токена, для чата ок, для агентов и кодинга по всему проекту считай мертво. У меня половина задач это именно вкинуть простыню и получить ответ.

И отдельно про б/у планки с Авито. Брал точно так же 8х32, две сыпали corrected errors под memtest, продавец конечно же не в курсе. ECC хотя бы показывает, на десктопе так бы и дебажил рандомные вылеты месяцами.

coder_vasya · Сообщение **coder_vasya** » 13 май 2026, 04:01

pnm917 писал(а):Кинь в него RAG-контекст на 30к токенов и иди пить чай

так один раз и кинь. Кэш промпта никто не отменял, llama-server переиспользует префикс, в чате контекст растет инкрементально и пересчитывается только хвост. Две минуты ждешь один раз на холодную, дальше секунды. Где реально больно, это агентные циклы, там контекст постоянно перетасовывается и кэш инвалидируется. Вот тут да, без нормального GPU тоска.

lentyaj · Сообщение **lentyaj** » 13 май 2026, 06:49

а обычный llama.cpp без ik такие же цифры дает? не хочется собирать чей-то форк из исходников ради непонятно чего

seniorsamurai

@выше, в ванильном -ot тоже давно есть, но ik на MoE быстрее процентов на 25-30, у них свои кванты IQ_K и fused ffn под это заточены. cmake и make, две команды, что ты там собирать боишься.

wasmnerd · Сообщение **wasmnerd** » 13 май 2026, 14:37

togashi писал(а):Платишь за память, а не за чип

ставка рабочая ровно до тех пор, пока лабы клепают MoE. Решат завтра что плотная 100B со speculative decoding им выгоднее, и твой эпик опять тыква на 4 ток/с. Плюс ты сравниваешь с 5090, а честнее сравнить с подпиской: сотка это четыре года клода по 20 баксов, и без гудящей фермы в квартире.

jpearce · Сообщение **jpearce** » 13 май 2026, 15:16

поддержу тему граблей. Повелся на такие же расчеты и собрал двухсокетник на 2680v4, 256GB DDR4-2400 вышло вообще за 45к. По бумаге 150 GB/s на два сокета, по факту 3.5 ток/с на том же квене. NUMA жрет все: веса лежат в памяти одного узла, второй проц ходит через QPI и сосет лапу. --numa distribute поднял до 5-5.5, но до эпика как до луны. Так что не всякая дешевая память одинаково полезна, смотрите на каналы в пределах одного сокета, а не на сумму в спеках.

TcpAdmin · Сообщение **TcpAdmin** » 13 май 2026, 19:15

wasmnerd писал(а):Решат завтра что плотная 100B со speculative decoding им выгоднее, и твой эпик опять тыква на 4 ток/с

не решат. Dense на фронтире кончился еще в 25-м, DeepSeek, Qwen, GLM, Kimi K2, все MoE, потому что лабам инференс обходится дешевле ровно по той же причине, что и ОПу. Никто не вернется к плотным гигантам, чтобы назло юзерам сжечь свои же деньги на сервинге. А вот про подписку подкол справедливый, только оплата это опять квест с картой казахского банка, и рабочий код не в каждой конторе разрешат носить в облако. За приватность доплата соткой, по-моему честно.

Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Кто сейчас на конференции