Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Рейтинг: 48.7% · 7 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Аватара пользователя
Austkin
Сообщения: 83
Зарегистрирован: 11 май 2026, 03:40

Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Сообщение Austkin »

Дозрел до больших MoE и собрал под них отдельную машину из б/у серверного. Конфиг: EPYC 7532 с али за 28к, мать Supermicro H11SSL-i с авито за 24к, 512 гигов DDR4 2933 ECC, 16 планок по 32, вышло около 68к. Плюс корпус, башня, бп, итого где-то 150к. Старая 3060 12GB переехала туда же.

Запускаю Qwen3.6-235B-A22B в Q4 через ik_llama.cpp: эксперты в RAM, attention и shared слои на 3060. Генерация 8-9 ток/с, промпт около 70-80 ток/с.

Да, не 30 ток/с. Но это 235B дома, и он ощутимо умнее любой 32B, что я гонял до этого. Для задач, где нужны мозги, а не скорость, самое то. Кто захочет повторить: главное брать память всеми 8 каналами, иначе все упрется в пропускную.
👍 ❤️ 🔥 😄2 🤔1
✔ Лучший ответ сформирован автоматически — asynclover
johnmal писал(а):вход в 20к токенов жуется минуты четыре так он целиком жуется ровно один раз. кеш промпта в llama.cpp никто не отменял, диалог дальше идет инкрементально, плюс --prompt-cache на диск для повторяющихся системников. больно только когда каждый раз свежий документ на 20к, вот там да, иди чай заваривай. для чатов и агентских циклов, где контекст растет постепенно, вполне живется
Перейти к ответу →
Аватара пользователя
johnmal
Сообщения: 22
Зарегистрирован: 21 май 2026, 18:40

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Сообщение johnmal »

8-9 на 235B это пушка вообще-то. но промпт 70-80 ток/с, это же вход в 20к токенов жуется минуты четыре. как ты с этим живешь? для разовых вопросов ок, для работы с документами повеситься можно
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
danga
Сообщения: 18
Зарегистрирован: 17 май 2026, 16:34

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Сообщение danga »

Austkin писал(а):Плюс корпус, башня, бп, итого где-то 150к
за эти же 150к берутся две 3090 и крутят 70B плотную в exl3 на 18-20 ток/с с нормальным промпт процессингом. вопрос только, что тебе нужнее, мозги 235B или отзывчивость. я пробовал оба варианта, для интерактивной работы эпик не зашел, продал через месяц
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
rtrowsdell
Сообщения: 33
Зарегистрирован: 11 май 2026, 21:50

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Сообщение rtrowsdell »

@johnmal, на genoa с 12 каналами DDR5 было бы раза в два с половиной быстрее, но там проц с матерью и памятью уже за 400к уходит, не наш метод. ddr4 эпики сейчас золотая середина по цене за канал, приятно что твои цифры это подтверждают
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
Kireeich
Сообщения: 20
Зарегистрирован: 14 май 2026, 10:49

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Сообщение Kireeich »

Austkin писал(а):главное брать память всеми 8 каналами, иначе все упрется в пропускную
каналы это полдела. проверь NUMA, на эпиках без --numa distribute и выключенного interleave в биосе llama.cpp может половину каналов тупо не использовать. у меня на 7402 после правки биоса генерация выросла с 6 до 8.5 на похожей модели. и в htop глянь, что на генерации заняты все 32 ядра, а не половина
👍2 ❤️ 🔥 😄 🤔1
Аватара пользователя
cppguru
Сообщения: 13
Зарегистрирован: 24 май 2026, 17:54

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Сообщение cppguru »

а Kimi K2 на такое влезет? он вроде на агентских задачах еще умнее
👍 ❤️1 🔥1 😄 🤔1
Аватара пользователя
Bauerle
Сообщения: 4
Зарегистрирован: 22 май 2026, 07:40

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Сообщение Bauerle »

K2 это триллион параметров, в Q4 под 550 гигов, в 512 не лезет даже впритык. есть огрызки в Q2, но там лоботомия, не советую. потолок для 512 гигов это как раз класс 235-400B в нормальном кванте
👍 ❤️1 🔥 😄 🤔1
Аватара пользователя
juniorredteam
Сообщения: 66
Зарегистрирован: 11 май 2026, 07:16

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Сообщение juniorredteam »

люди дома 235B гоняют, а я 8B на ноуте грею... форум здорового человека
👍 ❤️ 🔥2 😄 🤔1
Аватара пользователя
asynclover
Сообщения: 70
Зарегистрирован: 13 май 2026, 04:35

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Сообщение asynclover »

✔ Лучший ответ — сформирован автоматически
johnmal писал(а):вход в 20к токенов жуется минуты четыре
так он целиком жуется ровно один раз. кеш промпта в llama.cpp никто не отменял, диалог дальше идет инкрементально, плюс --prompt-cache на диск для повторяющихся системников. больно только когда каждый раз свежий документ на 20к, вот там да, иди чай заваривай. для чатов и агентских циклов, где контекст растет постепенно, вполне живется
👍 ❤️1 🔥 😄1 🤔
Аватара пользователя
async2010
Сообщения: 22
Зарегистрирован: 11 май 2026, 18:37

Re: Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Сообщение async2010 »

@Austkin, а сколько контекста реально влезает при такой раскладке? kv кеш у 235B штука прожорливая, 3060 с ее 12 гигами после attention и shared слоев должна быть почти под завязку. и какой именно квант, Q4_K_M или что-то из IQ4? на иковских часто и меньше весит, и быстрее молотит
👍2 ❤️1 🔥 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей