локальный-инференс
Запустить нормальную модель у себя на железе звучит просто, пока не упрешься в реальность: влезает ли Llama 4 Scout 17B в 24 гига, можно ли гонять gpt-oss-120b на одной 3090, и почему ollama внезапно сжирает 40 гигов диска и вдвое больше памяти, чем чистый llama.cpp. Отдельная честная ветка про экономику когда люди считают стоимость локалки против API и грустнеют. Тут собирают рабочие конфиги, замеры t/s и трезвые выводы, кому домашний инференс реально оправдан, а кому проще платить за токены. Полезно энтузиастам LLM и тем, кто строит приватный контур без облака.
5 тем, 31 ответов, 11 просмотров · все теги
Похожие теги:
Ollama 1vram 1llama4 1API 1холивар 1экономика 1llama.cpp 1RTX 3090 1gpt-oss 1ollama место на диске 1удалить модели ollama 1ollama память 1ollama vs llama.cpp 1vram утечка 1
- Темы
-
- gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?
в «Локальные LLM и open-source модели» · 5 ответов · 3 просмотров · 12 июн 2026, 06:57
-
- ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?
в «Локальные LLM и open-source модели» · 6 ответов · 1 просмотров · 12 июн 2026, 04:26
-
- Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?
в «Локальные LLM и open-source модели» · 6 ответов · 5 просмотров · 09 июн 2026, 04:46
-
- ollama сожрала 40 гигов на диске и я не понял за что
в «Локальные LLM и open-source модели» · 6 ответов · 0 просмотров · 19 май 2026, 13:05
-
- Посчитал почем выходит локалка против API и чет приуныл
в «Локальные LLM и open-source модели» · 8 ответов · 2 просмотров · 12 май 2026, 19:14