Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Planed · Сообщение **Planed** » 07 июн 2026, 17:18

Кто реально гонял 70B в кванте на чистом проце, какая разница между DDR4 и DDR5 по токенам в секунду. У меня старый 5950X на DDR4 3600, llama.cpp дает на Llama 3.3 70B Q4_K_M примерно 1.4 т/с и это боль. Собираю апгрейд на Ryzen 9 9950X с DDR5 6000, хочу понять стоит ли вообще, или прирост в пределах погрешности и я зря потрачу 60к на платформу.

Tcraw62981 · Сообщение **Tcraw62981** » 07 июн 2026, 21:50

@Planed, тут все упирается в пропускную способность памяти а не в проц. двухканал DDR4 3600 это где-то 57 GB/s, DDR5 6000 двухканал около 96 GB/s. для memory-bound инференса масштаб почти линейный по бандвичу так что жди примерно 1.7x. твои 1.4 превратятся в 2.3-2.4 т/с. не магия но и не погрешность

pandas4 · Сообщение **pandas4** » 08 июн 2026, 02:49

@Planed, 1.4 т/с на 70B и ты это терпишь, ну ты герой конечно

navspy · Сообщение **navspy** » 08 июн 2026, 06:22

Давай по факту, я как раз пересел с 5900X DDR4 3200 на 7950X DDR5 6000. Brief так. Llama 3.3 70B Q4_K_M, llama.cpp build от мая 2026, все 16 потоков, -t 16, флаг --numa distribute не трогал ибо одноканал по нодам. На DDR4 было 1.3 т/с на генерации, prompt eval около 14 т/с. На DDR5 стало 2.5 т/с генерации, prompt eval 31. То есть генерация почти 2x, потому что DDR5 6000 в синтетике у меня 89 GB/s против 49. Важный момент, проц почти не греется и не в нем дело, ядра скучают. Если хочешь больше токенов то либо EPYC с 8-12 каналами памяти, там 70B летает 5-7 т/с на чистом CPU, либо все же видяха. Для 70B минимум две 3090 по 24гб б/у, на Авито пара выходит 110-130к сейчас, и ты получишь 15-18 т/с. CPU апгрейд за 60к ради 2.4 т/с это так себе вложение если честно, но если у тебя задача не чат а ночные батчи то пофиг на скорость и хватит DDR5.

elasticpilot

CPU апгрейд за 60к ради 2.4 т/с это так себе вложение плюсую. за эти деньги одна 3090 с рук и ты в другой лиге. 70B конечно не влезет целиком но 32B модели в Q4 будут летать на 30+ т/с, а они сейчас почти догоняют 70B по качеству. гнать гиганта на проце это мазохизм

gdgdgd · Сообщение **gdgdgd** » 08 июн 2026, 12:25

@navspy, а почему не EPYC сразу, 7282 на авито 8к рублей лежат, 8 каналов памяти

nikita87 · Сообщение **nikita87** » 08 июн 2026, 16:14

@Tcraw62981, @predator потому что под EPYC 7282 нужна серверная мать тысяч за 25-40, регистровая память еще 20-30к за нормальный объем, корпус, питание. в итоге не 8к а полноценная сборка под сотку. но да, для CPU-only это правильный путь, особенно если брать 9004 серию с DDR5 на 12 каналов, там 70B уже комфортные 6-8 т/с

Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Кто сейчас на конференции