скорость токенов llama.cpp

Сколько реально выдает 3090 на Qwen3 32B в Q4, как проседает CPU-инференс 70B на DDR4 против DDR5 и почему чужие цифры не совпадают с вашими - все упирается в конкретику сборки. Здесь меряют t/s в llama.cpp, разбирают влияние квантования, оффлоада слоев, скорости памяти и флагов запуска, ищут узкие места и косяки конфигурации. Народ тут гоняет локальные LLM дома и выжимает из железа максимум на своих цифрах, а не гадает по чужим бенчмаркам.

3 тем, 20 ответов, 3 просмотров · все теги

Темы

Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4
в «Локальные LLM и open-source модели» · 8 ответов · 1 просмотров · 10 июн 2026, 23:05
Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B
в «Локальные LLM и open-source модели» · 6 ответов · 0 просмотров · 08 июн 2026, 16:14
Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании
в «Локальные LLM и open-source модели» · 6 ответов · 2 просмотров · 20 май 2026, 10:14