Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

mi9ute · Сообщение **mi9ute** » 03 июн 2026, 07:18

Купил 128гб DDR5-6000 чтобы гонять MoE модели на одном проце без видях, и разочарован, скорость генерации не та что обещали энтузиасты. Логика была простая, MoE активирует мало параметров за токен, значит упор в пропускную способность памяти, поставлю быструю ddr5 и заживу. По факту на десктопе Intel с двумя каналами я получаю смешные 5-6 tok/s на 30B MoE в Q4, хотя в тредах люди хвастают двузначными числами. Долго копал и понял в чём подстава, делюсь чтобы вы не наступили.

rustenjoyer · Сообщение **rustenjoyer** » 03 июн 2026, 08:09

ну так два канала это и есть твой потолок. реальная пропускная не 96 гб/с как на бумаге, а сильно меньше после латентностей. для MoE на cpu нужна многоканальная платформа, эпики и треды с 8-12 каналами, вот там сотни гб/с и модели летят. десктоп с двумя каналами это тупик для этой затеи, ты купил быструю память но шину расширить нечем

infern · Сообщение **infern** » 03 июн 2026, 09:36

классика граблей. сочувствую кошельку

spark_pro · Сообщение **spark_pro** » 03 июн 2026, 10:23

mi9ute писал(а):MoE активирует мало параметров за токен, значит упор в пропускную способность памяти

логика верная, вывод неполный. да, упор в память, но важна не частота модулей сама по себе, а суммарная пропускная всей подсистемы = частота умножить на число каналов. ты разогнал частоту но оставил 2 канала. это как поставить насос помощнее на ту же тонкую трубу. на 8-канальном threadripper pro даже на менее быстрых модулях ты бы получил в 3-4 раза больше просто за счёт ширины шины. так что деньги не зря, но в десктопе их потенциал не раскрыть

lorenzinoarq

@spark_pro, а ты numa правильно настроил? на двухсокетниках без привязки потоков к локальной памяти теряешь половину. хотя у тебя десктоп односокетный, забей, это не твой случай

oleg_php · Сообщение **oleg_php** » 03 июн 2026, 16:32

5-6 tok/s на чисто cpu для 30B это вообще-то нормально для двух каналов, ты чего ждал. народ с двузначными числами либо на тредах сидит либо часть слоёв в гпу выгружает. чистый cpu на десктопе это всегда будет медленно, физика

kingpaul · Сообщение **kingpaul** » 03 июн 2026, 17:06

совет на будущее, перед закупом железа под llm иди и смотри бенчи именно своей платформы, а не абстрактные обещания. memory bandwidth bound задача упирается в каналы, это надо было гуглить до а не после. сейчас можешь докинуть дешёвую 3060 на 12гб и выгрузить туда часть слоёв через llama.cpp, kv-кэш и пару dense слоёв на гпу заметно поднимут твои 5-6 хотя бы до 9-10. полумера но без смены платформы лучшее что есть

cppguru · Сообщение **cppguru** » 03 июн 2026, 20:08

@kingpaul, вот поэтому я и не верю в инференс на голом проце для нормального юза. либо гпу либо терпи однозначные цифры

Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Re: Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Re: Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Re: Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Re: Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Re: Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Re: Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Re: Заказал DDR5 ради MoE на CPU и обломался, пропускной способности не хватает

Кто сейчас на конференции