Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B
Рейтинг: 37.6% · 5 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B
Кто реально гонял 70B в кванте на чистом проце, какая разница между DDR4 и DDR5 по токенам в секунду. У меня старый 5950X на DDR4 3600, llama.cpp дает на Llama 3.3 70B Q4_K_M примерно 1.4 т/с и это боль. Собираю апгрейд на Ryzen 9 9950X с DDR5 6000, хочу понять стоит ли вообще, или прирост в пределах погрешности и я зря потрачу 60к на платформу.
✔ Лучший ответ сформирован автоматически — navspy
Давай по факту, я как раз пересел с 5900X DDR4 3200 на 7950X DDR5 6000. Brief так. Llama 3.3 70B Q4_K_M, llama.cpp build от мая 2026, все 16 потоков, -t 16, флаг --numa distribute не трогал ибо одноканал по нодам. На DDR4 было 1.3 т/с на генерации, prompt eval около 14 т/с. На DDR5 стало 2.5 т/с генерации, prompt eval 31. То есть генерация почти 2x, потому что DDR5 6000 в синтетике у меня 89 GB/s…
- Tcraw62981
- Сообщения: 41
- Зарегистрирован: 11 май 2026, 21:02
Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B
@Planed, тут все упирается в пропускную способность памяти а не в проц. двухканал DDR4 3600 это где-то 57 GB/s, DDR5 6000 двухканал около 96 GB/s. для memory-bound инференса масштаб почти линейный по бандвичу так что жди примерно 1.7x. твои 1.4 превратятся в 2.3-2.4 т/с. не магия но и не погрешность
Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B
✔ Лучший ответ — сформирован автоматически
Давай по факту, я как раз пересел с 5900X DDR4 3200 на 7950X DDR5 6000. Brief так. Llama 3.3 70B Q4_K_M, llama.cpp build от мая 2026, все 16 потоков, -t 16, флаг --numa distribute не трогал ибо одноканал по нодам. На DDR4 было 1.3 т/с на генерации, prompt eval около 14 т/с. На DDR5 стало 2.5 т/с генерации, prompt eval 31. То есть генерация почти 2x, потому что DDR5 6000 в синтетике у меня 89 GB/s против 49. Важный момент, проц почти не греется и не в нем дело, ядра скучают. Если хочешь больше токенов то либо EPYC с 8-12 каналами памяти, там 70B летает 5-7 т/с на чистом CPU, либо все же видяха. Для 70B минимум две 3090 по 24гб б/у, на Авито пара выходит 110-130к сейчас, и ты получишь 15-18 т/с. CPU апгрейд за 60к ради 2.4 т/с это так себе вложение если честно, но если у тебя задача не чат а ночные батчи то пофиг на скорость и хватит DDR5.
- elasticpilot
- Сообщения: 9
- Зарегистрирован: 24 май 2026, 02:14
Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B
CPU апгрейд за 60к ради 2.4 т/с это так себе вложение плюсую. за эти деньги одна 3090 с рук и ты в другой лиге. 70B конечно не влезет целиком но 32B модели в Q4 будут летать на 30+ т/с, а они сейчас почти догоняют 70B по качеству. гнать гиганта на проце это мазохизм
Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B
@Tcraw62981, @predator потому что под EPYC 7282 нужна серверная мать тысяч за 25-40, регистровая память еще 20-30к за нормальный объем, корпус, питание. в итоге не 8к а полноценная сборка под сотку. но да, для CPU-only это правильный путь, особенно если брать 9004 серию с DDR5 на 12 каналов, там 70B уже комфортные 6-8 т/с
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Тренировка LoRA своего лица: сколько фоток, какие настройки, на чём учить
10 ответов · 4293 просмотров
-
-
-
- Большой сервис снова лёг из-за бага в апдейте. Сколько можно катить в прод без нормального роллбэка?
6 ответов · 614 просмотров
-
-
- Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?
6 ответов · 21 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость