Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Рейтинг: 48.7% · 7 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
mi9ute
Сообщения: 2
Зарегистрирован: 22 май 2026, 15:29

Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Сообщение mi9ute »

Купил 128гб DDR5-6000 чтобы гонять MoE модели на одном проце без видях, и разочарован, скорость генерации не та что обещали энтузиасты. Логика была простая, MoE активирует мало параметров за токен, значит упор в пропускную способность памяти, поставлю быструю ddr5 и заживу. По факту на десктопе Intel с двумя каналами я получаю смешные 5-6 tok/s на 30B MoE в Q4, хотя в тредах люди хвастают двузначными числами. Долго копал и понял в чём подстава, делюсь чтобы вы не наступили.
👍3 ❤️1 🔥 😄 🤔
✔ Лучший ответ сформирован автоматически — spark_pro
mi9ute писал(а):MoE активирует мало параметров за токен, значит упор в пропускную способность памяти логика верная, вывод неполный. да, упор в память, но важна не частота модулей сама по себе, а суммарная пропускная всей подсистемы = частота умножить на число каналов. ты разогнал частоту но оставил 2 канала. это как поставить насос помощнее на ту же тонкую трубу. на 8-канальном threadripper pro д…
Перейти к ответу →
Аватара пользователя
rustenjoyer
Сообщения: 8
Зарегистрирован: 18 май 2026, 19:20

Re: Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Сообщение rustenjoyer »

ну так два канала это и есть твой потолок. реальная пропускная не 96 гб/с как на бумаге, а сильно меньше после латентностей. для MoE на cpu нужна многоканальная платформа, эпики и треды с 8-12 каналами, вот там сотни гб/с и модели летят. десктоп с двумя каналами это тупик для этой затеи, ты купил быструю память но шину расширить нечем
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
infern
Сообщения: 87
Зарегистрирован: 11 май 2026, 10:23

Re: Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Сообщение infern »

классика граблей. сочувствую кошельку
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
spark_pro
Сообщения: 15
Зарегистрирован: 12 май 2026, 23:56

Re: Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Сообщение spark_pro »

✔ Лучший ответ — сформирован автоматически
mi9ute писал(а):MoE активирует мало параметров за токен, значит упор в пропускную способность памяти
логика верная, вывод неполный. да, упор в память, но важна не частота модулей сама по себе, а суммарная пропускная всей подсистемы = частота умножить на число каналов. ты разогнал частоту но оставил 2 канала. это как поставить насос помощнее на ту же тонкую трубу. на 8-канальном threadripper pro даже на менее быстрых модулях ты бы получил в 3-4 раза больше просто за счёт ширины шины. так что деньги не зря, но в десктопе их потенциал не раскрыть
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
lorenzinoarq
Сообщения: 65
Зарегистрирован: 11 май 2026, 00:03

Re: Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Сообщение lorenzinoarq »

@spark_pro, а ты numa правильно настроил? на двухсокетниках без привязки потоков к локальной памяти теряешь половину. хотя у тебя десктоп односокетный, забей, это не твой случай
👍 ❤️1 🔥1 😄1 🤔1
Аватара пользователя
oleg_php
Сообщения: 25
Зарегистрирован: 14 май 2026, 08:06

Re: Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Сообщение oleg_php »

5-6 tok/s на чисто cpu для 30B это вообще-то нормально для двух каналов, ты чего ждал. народ с двузначными числами либо на тредах сидит либо часть слоёв в гпу выгружает. чистый cpu на десктопе это всегда будет медленно, физика
👍1 ❤️ 🔥1 😄 🤔1
Аватара пользователя
kingpaul
Сообщения: 57
Зарегистрирован: 11 май 2026, 12:35

Re: Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Сообщение kingpaul »

совет на будущее, перед закупом железа под llm иди и смотри бенчи именно своей платформы, а не абстрактные обещания. memory bandwidth bound задача упирается в каналы, это надо было гуглить до а не после. сейчас можешь докинуть дешёвую 3060 на 12гб и выгрузить туда часть слоёв через llama.cpp, kv-кэш и пару dense слоёв на гпу заметно поднимут твои 5-6 хотя бы до 9-10. полумера но без смены платформы лучшее что есть
👍 ❤️1 🔥1 😄1 🤔1
Аватара пользователя
cppguru
Сообщения: 13
Зарегистрирован: 24 май 2026, 17:54

Re: Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Сообщение cppguru »

@kingpaul, вот поэтому я и не верю в инференс на голом проце для нормального юза. либо гпу либо терпи однозначные цифры
👍 ❤️ 🔥 😄 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость