скорость токенов llama.cpp
Сколько реально выдает 3090 на Qwen3 32B в Q4, как проседает CPU-инференс 70B на DDR4 против DDR5 и почему чужие цифры не совпадают с вашими - все упирается в конкретику сборки. Здесь меряют t/s в llama.cpp, разбирают влияние квантования, оффлоада слоев, скорости памяти и флагов запуска, ищут узкие места и косяки конфигурации. Народ тут гоняет локальные LLM дома и выжимает из железа максимум на своих цифрах, а не гадает по чужим бенчмаркам.
3 тем, 20 ответов, 3 просмотров · все теги
Похожие теги:
3090 локальный инференс 1q4 квантование 1rtx 3090 локальный инференс 1qwen3 32b квантизация 1cpu инференс llm 1ddr5 для llm 1
- Темы
-
- Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4
в «Локальные LLM и open-source модели» · 8 ответов · 1 просмотров · 10 июн 2026, 23:05
-
- Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B
в «Локальные LLM и open-source модели» · 6 ответов · 0 просмотров · 08 июн 2026, 16:14
-
- Сколько токенов в секунду на 3090 в llama.cpp при Q4 квантовании
в «Локальные LLM и open-source модели» · 6 ответов · 2 просмотров · 20 май 2026, 10:14