Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Рейтинг: 37.6% · 5 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
Planed
Сообщения: 26
Зарегистрирован: 15 май 2026, 17:36

Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Сообщение Planed »

Кто реально гонял 70B в кванте на чистом проце, какая разница между DDR4 и DDR5 по токенам в секунду. У меня старый 5950X на DDR4 3600, llama.cpp дает на Llama 3.3 70B Q4_K_M примерно 1.4 т/с и это боль. Собираю апгрейд на Ryzen 9 9950X с DDR5 6000, хочу понять стоит ли вообще, или прирост в пределах погрешности и я зря потрачу 60к на платформу.
👍2 ❤️1 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — navspy
Давай по факту, я как раз пересел с 5900X DDR4 3200 на 7950X DDR5 6000. Brief так. Llama 3.3 70B Q4_K_M, llama.cpp build от мая 2026, все 16 потоков, -t 16, флаг --numa distribute не трогал ибо одноканал по нодам. На DDR4 было 1.3 т/с на генерации, prompt eval около 14 т/с. На DDR5 стало 2.5 т/с генерации, prompt eval 31. То есть генерация почти 2x, потому что DDR5 6000 в синтетике у меня 89 GB/s…
Перейти к ответу →
Аватара пользователя
Tcraw62981
Сообщения: 41
Зарегистрирован: 11 май 2026, 21:02

Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Сообщение Tcraw62981 »

@Planed, тут все упирается в пропускную способность памяти а не в проц. двухканал DDR4 3600 это где-то 57 GB/s, DDR5 6000 двухканал около 96 GB/s. для memory-bound инференса масштаб почти линейный по бандвичу так что жди примерно 1.7x. твои 1.4 превратятся в 2.3-2.4 т/с. не магия но и не погрешность
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
pandas4
Сообщения: 36
Зарегистрирован: 15 май 2026, 08:41

Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Сообщение pandas4 »

@Planed, 1.4 т/с на 70B и ты это терпишь, ну ты герой конечно
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
navspy
Сообщения: 60
Зарегистрирован: 12 май 2026, 02:48

Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Сообщение navspy »

✔ Лучший ответ — сформирован автоматически
Давай по факту, я как раз пересел с 5900X DDR4 3200 на 7950X DDR5 6000. Brief так. Llama 3.3 70B Q4_K_M, llama.cpp build от мая 2026, все 16 потоков, -t 16, флаг --numa distribute не трогал ибо одноканал по нодам. На DDR4 было 1.3 т/с на генерации, prompt eval около 14 т/с. На DDR5 стало 2.5 т/с генерации, prompt eval 31. То есть генерация почти 2x, потому что DDR5 6000 в синтетике у меня 89 GB/s против 49. Важный момент, проц почти не греется и не в нем дело, ядра скучают. Если хочешь больше токенов то либо EPYC с 8-12 каналами памяти, там 70B летает 5-7 т/с на чистом CPU, либо все же видяха. Для 70B минимум две 3090 по 24гб б/у, на Авито пара выходит 110-130к сейчас, и ты получишь 15-18 т/с. CPU апгрейд за 60к ради 2.4 т/с это так себе вложение если честно, но если у тебя задача не чат а ночные батчи то пофиг на скорость и хватит DDR5.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
elasticpilot
Сообщения: 9
Зарегистрирован: 24 май 2026, 02:14

Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Сообщение elasticpilot »

CPU апгрейд за 60к ради 2.4 т/с это так себе вложение плюсую. за эти деньги одна 3090 с рук и ты в другой лиге. 70B конечно не влезет целиком но 32B модели в Q4 будут летать на 30+ т/с, а они сейчас почти догоняют 70B по качеству. гнать гиганта на проце это мазохизм
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
gdgdgd
Сообщения: 77
Зарегистрирован: 11 май 2026, 03:27

Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Сообщение gdgdgd »

@navspy, а почему не EPYC сразу, 7282 на авито 8к рублей лежат, 8 каналов памяти
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
nikita87
Сообщения: 12
Зарегистрирован: 11 май 2026, 17:29

Re: Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Сообщение nikita87 »

@Tcraw62981, @predator потому что под EPYC 7282 нужна серверная мать тысяч за 25-40, регистровая память еще 20-30к за нормальный объем, корпус, питание. в итоге не 8к а полноценная сборка под сотку. но да, для CPU-only это правильный путь, особенно если брать 9004 серию с DDR5 на 12 каналов, там 70B уже комфортные 6-8 т/с
👍 ❤️1 🔥 😄 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость