Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Рейтинг: 67.6% · 8 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
togashi
Сообщения: 50
Зарегистрирован: 10 май 2026, 23:57

Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Сообщение togashi »

Полгода жаба душила отдавать 250к за 5090, в итоге пошел другим путем. Делюсь цифрами, может кому сэкономит нервы.

Конфиг: Epyc 7532, 32 ядра, брал на Али за 27к. Мать Supermicro H12SSL-i с Авито за 36к. 8 планок DDR4-3200 ECC REG по 32 гига, по 4200р за штуку у барыги с того же Авито, итого 33600 за 256GB. БП и корпус остались от старой сборки. Суммарно вышло около сотки.

Гоняю Qwen3-235B-A22B в Q4_K_M через ik_llama.cpp. Логика простая: активных параметров 22B, на токен надо прочитать из памяти примерно 12 гигов, 8 каналов DDR4-3200 дают около 190 GB/s. На практике 9-10 ток/с на коротком контексте, к 16к проседает до 7. Я столько глазами все равно не читаю.

Промпт процессинг больное место, чисто на CPU было около 60 ток/с. Воткнул старую 3060 12GB, через -ot exps=CPU оставил экспертов на проце, а внимание и общие тензоры уехали на видяху. Стало 230-240 ток/с на промпте, и генерация подросла до 11.

К чему все это. Народ копит на видяхи по пол-ляма, а MoE поменял расклад. Платишь за память, а не за чип. 235B дома за сотку, год назад я бы покрутил пальцем у виска. Кто еще гоняет толстые MoE на CPU, какие у вас цифры?
👍1 ❤️ 🔥 😄1 🤔1
✔ Лучший ответ сформирован автоматически — TcpAdmin
wasmnerd писал(а):Решат завтра что плотная 100B со speculative decoding им выгоднее, и твой эпик опять тыква на 4 ток/с не решат. Dense на фронтире кончился еще в 25-м, DeepSeek, Qwen, GLM, Kimi K2, все MoE, потому что лабам инференс обходится дешевле ровно по той же причине, что и ОПу. Никто не вернется к плотным гигантам, чтобы назло юзерам сжечь свои же деньги на сервинге. А вот про подписку п…
Перейти к ответу →
Аватара пользователя
pnm917
Сообщения: 5
Зарегистрирован: 12 май 2026, 08:19

Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Сообщение pnm917 »

Звучит красиво ровно до первого реального запроса. Кинь в него RAG-контекст на 30к токенов и иди пить чай. 240 ток/с на промпте это две минуты до первого токена, для чата ок, для агентов и кодинга по всему проекту считай мертво. У меня половина задач это именно вкинуть простыню и получить ответ.

И отдельно про б/у планки с Авито. Брал точно так же 8х32, две сыпали corrected errors под memtest, продавец конечно же не в курсе. ECC хотя бы показывает, на десктопе так бы и дебажил рандомные вылеты месяцами.
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
coder_vasya
Сообщения: 73
Зарегистрирован: 12 май 2026, 05:35

Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Сообщение coder_vasya »

pnm917 писал(а):Кинь в него RAG-контекст на 30к токенов и иди пить чай
так один раз и кинь. Кэш промпта никто не отменял, llama-server переиспользует префикс, в чате контекст растет инкрементально и пересчитывается только хвост. Две минуты ждешь один раз на холодную, дальше секунды. Где реально больно, это агентные циклы, там контекст постоянно перетасовывается и кэш инвалидируется. Вот тут да, без нормального GPU тоска.
👍2 ❤️1 🔥 😄 🤔
Аватара пользователя
lentyaj
Сообщения: 68
Зарегистрирован: 11 май 2026, 00:17

Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Сообщение lentyaj »

а обычный llama.cpp без ik такие же цифры дает? не хочется собирать чей-то форк из исходников ради непонятно чего
👍 ❤️ 🔥2 😄2 🤔
Аватара пользователя
seniorsamurai
Сообщения: 44
Зарегистрирован: 15 май 2026, 19:29

Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Сообщение seniorsamurai »

@выше, в ванильном -ot тоже давно есть, но ik на MoE быстрее процентов на 25-30, у них свои кванты IQ_K и fused ffn под это заточены. cmake и make, две команды, что ты там собирать боишься.
👍1 ❤️1 🔥 😄1 🤔1
Аватара пользователя
wasmnerd
Сообщения: 22
Зарегистрирован: 20 май 2026, 17:36

Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Сообщение wasmnerd »

togashi писал(а):Платишь за память, а не за чип
ставка рабочая ровно до тех пор, пока лабы клепают MoE. Решат завтра что плотная 100B со speculative decoding им выгоднее, и твой эпик опять тыква на 4 ток/с. Плюс ты сравниваешь с 5090, а честнее сравнить с подпиской: сотка это четыре года клода по 20 баксов, и без гудящей фермы в квартире.
👍 ❤️2 🔥1 😄 🤔
Аватара пользователя
jpearce
Сообщения: 47
Зарегистрирован: 11 май 2026, 23:34

Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Сообщение jpearce »

поддержу тему граблей. Повелся на такие же расчеты и собрал двухсокетник на 2680v4, 256GB DDR4-2400 вышло вообще за 45к. По бумаге 150 GB/s на два сокета, по факту 3.5 ток/с на том же квене. NUMA жрет все: веса лежат в памяти одного узла, второй проц ходит через QPI и сосет лапу. --numa distribute поднял до 5-5.5, но до эпика как до луны. Так что не всякая дешевая память одинаково полезна, смотрите на каналы в пределах одного сокета, а не на сумму в спеках.
👍2 ❤️ 🔥 😄2 🤔
Аватара пользователя
TcpAdmin
Сообщения: 15
Зарегистрирован: 17 май 2026, 05:34

Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем

Сообщение TcpAdmin »

✔ Лучший ответ — сформирован автоматически
wasmnerd писал(а):Решат завтра что плотная 100B со speculative decoding им выгоднее, и твой эпик опять тыква на 4 ток/с
не решат. Dense на фронтире кончился еще в 25-м, DeepSeek, Qwen, GLM, Kimi K2, все MoE, потому что лабам инференс обходится дешевле ровно по той же причине, что и ОПу. Никто не вернется к плотным гигантам, чтобы назло юзерам сжечь свои же деньги на сервинге. А вот про подписку подкол справедливый, только оплата это опять квест с картой казахского банка, и рабочий код не в каждой конторе разрешат носить в облако. За приватность доплата соткой, по-моему честно.
👍2 ❤️ 🔥1 😄 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей