локальные-llm

Гонять языковые модели на своём железе, а не в облаке, превратилось в полноценное хобби и инженерную дисциплину. Меряют производительность свежих чипов вроде Ryzen AI Max+ 395 со 128 гигабайтами, спорят, реально ли запустить Llama 4 Scout на скромных 8 ГБ VRAM, делятся переездами со стека Ollama на связку llama.cpp с llama-swap и обсуждают прирост от новых фишек вроде MTP. Если строишь домашний инференс, выжимаешь токены в секунду из своей карты и устал зависеть от API и его цен - тебе сюда.

4 тем, 19 ответов, 23 просмотров · все теги

Темы

Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?
в «Локальные LLM и open-source модели» · 4 ответов · 8 просмотров · 10 июн 2026, 16:39
Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли
в «Локальные LLM и open-source модели» · 5 ответов · 6 просмотров · 09 июн 2026, 21:58
Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?
в «Локальные LLM и open-source модели» · 5 ответов · 5 просмотров · 09 июн 2026, 03:06
Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?
в «Локальные LLM и open-source модели» · 5 ответов · 4 просмотров · 08 июн 2026, 16:39