Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами
Рейтинг: 48.7% · 7 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами
Дозрел до больших MoE и собрал под них отдельную машину из б/у серверного. Конфиг: EPYC 7532 с али за 28к, мать Supermicro H11SSL-i с авито за 24к, 512 гигов DDR4 2933 ECC, 16 планок по 32, вышло около 68к. Плюс корпус, башня, бп, итого где-то 150к. Старая 3060 12GB переехала туда же.
Запускаю Qwen3.6-235B-A22B в Q4 через ik_llama.cpp: эксперты в RAM, attention и shared слои на 3060. Генерация 8-9 ток/с, промпт около 70-80 ток/с.
Да, не 30 ток/с. Но это 235B дома, и он ощутимо умнее любой 32B, что я гонял до этого. Для задач, где нужны мозги, а не скорость, самое то. Кто захочет повторить: главное брать память всеми 8 каналами, иначе все упрется в пропускную.
Запускаю Qwen3.6-235B-A22B в Q4 через ik_llama.cpp: эксперты в RAM, attention и shared слои на 3060. Генерация 8-9 ток/с, промпт около 70-80 ток/с.
Да, не 30 ток/с. Но это 235B дома, и он ощутимо умнее любой 32B, что я гонял до этого. Для задач, где нужны мозги, а не скорость, самое то. Кто захочет повторить: главное брать память всеми 8 каналами, иначе все упрется в пропускную.
✔ Лучший ответ сформирован автоматически — asynclover
johnmal писал(а):вход в 20к токенов жуется минуты четыре так он целиком жуется ровно один раз. кеш промпта в llama.cpp никто не отменял, диалог дальше идет инкрементально, плюс --prompt-cache на диск для повторяющихся системников. больно только когда каждый раз свежий документ на 20к, вот там да, иди чай заваривай. для чатов и агентских циклов, где контекст растет постепенно, вполне живется
Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами
за эти же 150к берутся две 3090 и крутят 70B плотную в exl3 на 18-20 ток/с с нормальным промпт процессингом. вопрос только, что тебе нужнее, мозги 235B или отзывчивость. я пробовал оба варианта, для интерактивной работы эпик не зашел, продал через месяцAustkin писал(а):Плюс корпус, башня, бп, итого где-то 150к
- rtrowsdell
- Сообщения: 33
- Зарегистрирован: 11 май 2026, 21:50
Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами
@johnmal, на genoa с 12 каналами DDR5 было бы раза в два с половиной быстрее, но там проц с матерью и памятью уже за 400к уходит, не наш метод. ddr4 эпики сейчас золотая середина по цене за канал, приятно что твои цифры это подтверждают
Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами
каналы это полдела. проверь NUMA, на эпиках без --numa distribute и выключенного interleave в биосе llama.cpp может половину каналов тупо не использовать. у меня на 7402 после правки биоса генерация выросла с 6 до 8.5 на похожей модели. и в htop глянь, что на генерации заняты все 32 ядра, а не половинаAustkin писал(а):главное брать память всеми 8 каналами, иначе все упрется в пропускную
- juniorredteam
- Сообщения: 66
- Зарегистрирован: 11 май 2026, 07:16
- asynclover
- Сообщения: 70
- Зарегистрирован: 13 май 2026, 04:35
Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами
✔ Лучший ответ — сформирован автоматически
так он целиком жуется ровно один раз. кеш промпта в llama.cpp никто не отменял, диалог дальше идет инкрементально, плюс --prompt-cache на диск для повторяющихся системников. больно только когда каждый раз свежий документ на 20к, вот там да, иди чай заваривай. для чатов и агентских циклов, где контекст растет постепенно, вполне живетсяjohnmal писал(а):вход в 20к токенов жуется минуты четыре
Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами
@Austkin, а сколько контекста реально влезает при такой раскладке? kv кеш у 235B штука прожорливая, 3060 с ее 12 гигами после attention и shared слоев должна быть почти под завязку. и какой именно квант, Q4_K_M или что-то из IQ4? на иковских часто и меньше весит, и быстрее молотит
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Поднял цену с $9 до $29 — ушла половина юзеров, но MRR вырос. Делюсь цифрами
21 ответов · 1060 просмотров
-
-
-
-
-
- Снесли все useMemo после включения React Compiler. Месяц в проде, делюсь цифрами
5 ответов · 10 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость