локальный-инференс

Запустить нормальную модель у себя на железе звучит просто, пока не упрешься в реальность: влезает ли Llama 4 Scout 17B в 24 гига, можно ли гонять gpt-oss-120b на одной 3090, и почему ollama внезапно сжирает 40 гигов диска и вдвое больше памяти, чем чистый llama.cpp. Отдельная честная ветка про экономику когда люди считают стоимость локалки против API и грустнеют. Тут собирают рабочие конфиги, замеры t/s и трезвые выводы, кому домашний инференс реально оправдан, а кому проще платить за токены. Полезно энтузиастам LLM и тем, кто строит приватный контур без облака.

5 тем, 31 ответов, 11 просмотров · все теги

Похожие теги: Ollama 1vram 1llama4 1API 1холивар 1экономика 1llama.cpp 1RTX 3090 1gpt-oss 1ollama место на диске 1удалить модели ollama 1ollama память 1ollama vs llama.cpp 1vram утечка 1