скорость токенов llama.cpp

Сколько реально выдает 3090 на Qwen3 32B в Q4, как проседает CPU-инференс 70B на DDR4 против DDR5 и почему чужие цифры не совпадают с вашими - все упирается в конкретику сборки. Здесь меряют t/s в llama.cpp, разбирают влияние квантования, оффлоада слоев, скорости памяти и флагов запуска, ищут узкие места и косяки конфигурации. Народ тут гоняет локальные LLM дома и выжимает из железа максимум на своих цифрах, а не гадает по чужим бенчмаркам.

3 тем, 20 ответов, 3 просмотров · все теги

Похожие теги: 3090 локальный инференс 1q4 квантование 1rtx 3090 локальный инференс 1qwen3 32b квантизация 1cpu инференс llm 1ddr5 для llm 1