локальные-llm
Гонять языковые модели на своём железе, а не в облаке, превратилось в полноценное хобби и инженерную дисциплину. Меряют производительность свежих чипов вроде Ryzen AI Max+ 395 со 128 гигабайтами, спорят, реально ли запустить Llama 4 Scout на скромных 8 ГБ VRAM, делятся переездами со стека Ollama на связку llama.cpp с llama-swap и обсуждают прирост от новых фишек вроде MTP. Если строишь домашний инференс, выжимаешь токены в секунду из своей карты и устал зависеть от API и его цен - тебе сюда.
4 тем, 19 ответов, 23 просмотров · все теги
Похожие теги:
Ollama 2llama.cpp 2Qwen3 1MTP 1квантизация 1vram 1llama4 1железо 1strix-halo 1самохостинг 1
- Темы
-
- Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?
в «Локальные LLM и open-source модели» · 4 ответов · 8 просмотров · 10 июн 2026, 16:39
-
- Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли
в «Локальные LLM и open-source модели» · 5 ответов · 6 просмотров · 09 июн 2026, 21:58
-
- Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?
в «Локальные LLM и open-source модели» · 5 ответов · 5 просмотров · 09 июн 2026, 03:06
-
- Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?
в «Локальные LLM и open-source модели» · 5 ответов · 4 просмотров · 08 июн 2026, 16:39