локальный-инференс

Запустить нормальную модель у себя на железе звучит просто, пока не упрешься в реальность: влезает ли Llama 4 Scout 17B в 24 гига, можно ли гонять gpt-oss-120b на одной 3090, и почему ollama внезапно сжирает 40 гигов диска и вдвое больше памяти, чем чистый llama.cpp. Отдельная честная ветка про экономику когда люди считают стоимость локалки против API и грустнеют. Тут собирают рабочие конфиги, замеры t/s и трезвые выводы, кому домашний инференс реально оправдан, а кому проще платить за токены. Полезно энтузиастам LLM и тем, кто строит приватный контур без облака.

5 тем, 31 ответов, 11 просмотров · все теги

Темы

gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?
в «Локальные LLM и open-source модели» · 5 ответов · 3 просмотров · 12 июн 2026, 06:57
ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?
в «Локальные LLM и open-source модели» · 6 ответов · 1 просмотров · 12 июн 2026, 04:26
Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?
в «Локальные LLM и open-source модели» · 6 ответов · 5 просмотров · 09 июн 2026, 04:46
ollama сожрала 40 гигов на диске и я не понял за что
в «Локальные LLM и open-source модели» · 6 ответов · 0 просмотров · 19 май 2026, 13:05
Посчитал почем выходит локалка против API и чет приуныл
в «Локальные LLM и open-source модели» · 8 ответов · 2 просмотров · 12 май 2026, 19:14