локальные-llm

Гонять языковые модели на своём железе, а не в облаке, превратилось в полноценное хобби и инженерную дисциплину. Меряют производительность свежих чипов вроде Ryzen AI Max+ 395 со 128 гигабайтами, спорят, реально ли запустить Llama 4 Scout на скромных 8 ГБ VRAM, делятся переездами со стека Ollama на связку llama.cpp с llama-swap и обсуждают прирост от новых фишек вроде MTP. Если строишь домашний инференс, выжимаешь токены в секунду из своей карты и устал зависеть от API и его цен - тебе сюда.

4 тем, 19 ответов, 23 просмотров · все теги

Похожие теги: Ollama 2llama.cpp 2Qwen3 1MTP 1квантизация 1vram 1llama4 1железо 1strix-halo 1самохостинг 1