Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем
Рейтинг: 67.6% · 8 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем
Полгода жаба душила отдавать 250к за 5090, в итоге пошел другим путем. Делюсь цифрами, может кому сэкономит нервы.
Конфиг: Epyc 7532, 32 ядра, брал на Али за 27к. Мать Supermicro H12SSL-i с Авито за 36к. 8 планок DDR4-3200 ECC REG по 32 гига, по 4200р за штуку у барыги с того же Авито, итого 33600 за 256GB. БП и корпус остались от старой сборки. Суммарно вышло около сотки.
Гоняю Qwen3-235B-A22B в Q4_K_M через ik_llama.cpp. Логика простая: активных параметров 22B, на токен надо прочитать из памяти примерно 12 гигов, 8 каналов DDR4-3200 дают около 190 GB/s. На практике 9-10 ток/с на коротком контексте, к 16к проседает до 7. Я столько глазами все равно не читаю.
Промпт процессинг больное место, чисто на CPU было около 60 ток/с. Воткнул старую 3060 12GB, через -ot exps=CPU оставил экспертов на проце, а внимание и общие тензоры уехали на видяху. Стало 230-240 ток/с на промпте, и генерация подросла до 11.
К чему все это. Народ копит на видяхи по пол-ляма, а MoE поменял расклад. Платишь за память, а не за чип. 235B дома за сотку, год назад я бы покрутил пальцем у виска. Кто еще гоняет толстые MoE на CPU, какие у вас цифры?
Конфиг: Epyc 7532, 32 ядра, брал на Али за 27к. Мать Supermicro H12SSL-i с Авито за 36к. 8 планок DDR4-3200 ECC REG по 32 гига, по 4200р за штуку у барыги с того же Авито, итого 33600 за 256GB. БП и корпус остались от старой сборки. Суммарно вышло около сотки.
Гоняю Qwen3-235B-A22B в Q4_K_M через ik_llama.cpp. Логика простая: активных параметров 22B, на токен надо прочитать из памяти примерно 12 гигов, 8 каналов DDR4-3200 дают около 190 GB/s. На практике 9-10 ток/с на коротком контексте, к 16к проседает до 7. Я столько глазами все равно не читаю.
Промпт процессинг больное место, чисто на CPU было около 60 ток/с. Воткнул старую 3060 12GB, через -ot exps=CPU оставил экспертов на проце, а внимание и общие тензоры уехали на видяху. Стало 230-240 ток/с на промпте, и генерация подросла до 11.
К чему все это. Народ копит на видяхи по пол-ляма, а MoE поменял расклад. Платишь за память, а не за чип. 235B дома за сотку, год назад я бы покрутил пальцем у виска. Кто еще гоняет толстые MoE на CPU, какие у вас цифры?
✔ Лучший ответ сформирован автоматически — TcpAdmin
wasmnerd писал(а):Решат завтра что плотная 100B со speculative decoding им выгоднее, и твой эпик опять тыква на 4 ток/с не решат. Dense на фронтире кончился еще в 25-м, DeepSeek, Qwen, GLM, Kimi K2, все MoE, потому что лабам инференс обходится дешевле ровно по той же причине, что и ОПу. Никто не вернется к плотным гигантам, чтобы назло юзерам сжечь свои же деньги на сервинге. А вот про подписку п…
Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем
Звучит красиво ровно до первого реального запроса. Кинь в него RAG-контекст на 30к токенов и иди пить чай. 240 ток/с на промпте это две минуты до первого токена, для чата ок, для агентов и кодинга по всему проекту считай мертво. У меня половина задач это именно вкинуть простыню и получить ответ.
И отдельно про б/у планки с Авито. Брал точно так же 8х32, две сыпали corrected errors под memtest, продавец конечно же не в курсе. ECC хотя бы показывает, на десктопе так бы и дебажил рандомные вылеты месяцами.
И отдельно про б/у планки с Авито. Брал точно так же 8х32, две сыпали corrected errors под memtest, продавец конечно же не в курсе. ECC хотя бы показывает, на десктопе так бы и дебажил рандомные вылеты месяцами.
- coder_vasya
- Сообщения: 73
- Зарегистрирован: 12 май 2026, 05:35
Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем
так один раз и кинь. Кэш промпта никто не отменял, llama-server переиспользует префикс, в чате контекст растет инкрементально и пересчитывается только хвост. Две минуты ждешь один раз на холодную, дальше секунды. Где реально больно, это агентные циклы, там контекст постоянно перетасовывается и кэш инвалидируется. Вот тут да, без нормального GPU тоска.pnm917 писал(а):Кинь в него RAG-контекст на 30к токенов и иди пить чай
- seniorsamurai
- Сообщения: 44
- Зарегистрирован: 15 май 2026, 19:29
Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем
ставка рабочая ровно до тех пор, пока лабы клепают MoE. Решат завтра что плотная 100B со speculative decoding им выгоднее, и твой эпик опять тыква на 4 ток/с. Плюс ты сравниваешь с 5090, а честнее сравнить с подпиской: сотка это четыре года клода по 20 баксов, и без гудящей фермы в квартире.togashi писал(а):Платишь за память, а не за чип
Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем
поддержу тему граблей. Повелся на такие же расчеты и собрал двухсокетник на 2680v4, 256GB DDR4-2400 вышло вообще за 45к. По бумаге 150 GB/s на два сокета, по факту 3.5 ток/с на том же квене. NUMA жрет все: веса лежат в памяти одного узла, второй проц ходит через QPI и сосет лапу. --numa distribute поднял до 5-5.5, но до эпика как до луны. Так что не всякая дешевая память одинаково полезна, смотрите на каналы в пределах одного сокета, а не на сумму в спеках.
Re: Собрал сервер под Qwen3-235B на б/у Epyc за 100к, MoE на CPU это уже не мем
✔ Лучший ответ — сформирован автоматически
не решат. Dense на фронтире кончился еще в 25-м, DeepSeek, Qwen, GLM, Kimi K2, все MoE, потому что лабам инференс обходится дешевле ровно по той же причине, что и ОПу. Никто не вернется к плотным гигантам, чтобы назло юзерам сжечь свои же деньги на сервинге. А вот про подписку подкол справедливый, только оплата это опять квест с картой казахского банка, и рабочий код не в каждой конторе разрешат носить в облако. За приватность доплата соткой, по-моему честно.wasmnerd писал(а):Решат завтра что плотная 100B со speculative decoding им выгоднее, и твой эпик опять тыква на 4 ток/с
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Raspberry Pi 5 или мини-ПК для домашнего сервера в 2026? Уже сомневаюсь
10 ответов · 2908 просмотров
-
-
- Hydration failed: текст на сервере и клиенте не совпал. Из-за чего ловите чаще всего?
9 ответов · 696 просмотров
-
- Перешёл на локальный Qwen3-Coder вместо API — окупается ли железо реально?
15 ответов · 600 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость