Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

qawsqaws · Сообщение **qawsqaws** » 25 май 2026, 22:39

Год назад локальные модели были игрушкой для энтузиастов с лишней 3090. В 2026 картина другая: открытые веса уровня прошлогодних облачных флагманов влезают в 24 ГБ VRAM, а MoE-архитектуры внезапно сделали полезной обычную DDR5. Я держу локалку с 2023, прошел путь от llama-7b в четыре бита до нынешнего зоопарка, поэтому без воды: что качать, на чем крутить, какие скорости реальны.

Сразу про ожидания. Локальная модель в 2026 не догоняет облачные флагманы. Если нужен уровень последних Opus или GPT-5 для сложных агентских задач, локалка не вариант, врать не буду. Но для 80 процентов бытовых задач (код-ревью, черновики, перевод, суммаризация, RAG по своим документам) разница уже не оправдывает счета за API.

Модели, которые стоит качать:

Qwen3-32B остается рабочей лошадкой для одной видеокарты на 24 ГБ. В кванте Q4_K_M занимает около 19 ГБ, остается место под контекст. Qwen3-30B-A3B, это MoE с 3 млрд активных параметров, главный сюрприз поколения: качество близко к плотной 32B, а скорость как у мелкой модели, потому что на каждый токен считается малая часть весов. Идет даже на CPU с 32 ГБ RAM.

gpt-oss-20b и gpt-oss-120b от OpenAI распространяются сразу в MXFP4: 20b влезает в 16 ГБ, 120b просит около 64 ГБ, зато это MoE с 5 млрд активных параметров, и на маках или Strix Halo он на удивление шустрый. Для рассуждений и агентских сценариев из открытого это один из лучших вариантов.

Gemma 3 27B хороша как универсал с нормальным мультиязом и зрением, русский у нее приличнее, чем у большинства. Mistral Small 3.2 (24B) быстрая и послушная, хороший выбор под function calling. Для кода берите Qwen3-Coder в размере под свое железо, со старым Qwen2.5-Coder возиться уже нет смысла. DeepSeek V3.x и R1 в полном размере (671B) дома живут только у маньяков с Epyc и 512 ГБ RAM на скорости 5-8 t/s, это скорее спорт.

Кванты:

GGUF Q4_K_M, золотая середина: потеря качества 2-4 процента по бенчам, размер примерно 0.6 байта на параметр. Ниже Q4 деградация заметна глазами, особенно на русском и в коде. Если совсем не влезает, берите IQ3_M, он честнее классического Q3_K. Для vLLM нужны AWQ или FP8 версии, GGUF он переваривает плохо. Есть запас VRAM, берите Q6_K или Q8_0 для кода, модель реже путает имена переменных. Кванты exl3 под exllamav3 при тех же битах точнее GGUF, но это только NVIDIA.

Чем запускать:

ollama для старта: скачал, ollama run, работает. Но следите за контекстом, по умолчанию он урезан, выставляйте num_ctx руками, иначе модель молча забывает начало диалога. llama.cpp дает полный контроль (offload слоев, flash attention, спекулятивный декодинг) и сервер с OpenAI-совместимым API:

Код: Выделить всё

llama-server -m Qwen3-32B-Q4_K_M.gguf -ngl 99 -c 32768 -fa

vLLM нужен, когда запросов много параллельно: continuous batching дает x5-10 к суммарной пропускной способности, но он прожорлив к VRAM и живет на линуксе. Для одного пользователя дома это overkill.

Железо, бюджеты, скорости:

Код: Выделить всё

Бюджет        Железо                            Что крутить                  Скорость ген.
~0 руб        ваш ПК, 32-64 ГБ DDR5             Qwen3-30B-A3B Q4 (CPU)       8-15 t/s
35-45 тыс     б/у RTX 3060 12GB                 Qwen3-14B Q4, Gemma3 12B     20-25 t/s
75-90 тыс     б/у RTX 3090 24GB                 Qwen3-32B Q4                 25-30 t/s
160-200 тыс   2x RTX 3090 / RTX 4090            70B Q4 / 32B Q8 + контекст   15-30 t/s
350-500 тыс   RTX 5090 32GB / Mac Studio 128GB  gpt-oss-120b, GLM-4.5-Air    30-60 t/s

Цены на б/у 3090 на авито держатся в районе 75-85 тысяч, и это все еще лучшая покупка по соотношению VRAM к рублю. Майнинговое прошлое само по себе не приговор, реальная проблема это убитые вентиляторы и высохшие термопрокладки, берите с тестом под нагрузкой минут на двадцать.

Про маки и unified memory отдельно. Mac Studio M4 Max со 128 ГБ тянет gpt-oss-120b на 40-60 t/s генерации, тихо и в 150 Вт. Но prompt processing у маков слабое место: промпт на 20 тысяч токенов будете ждать десятки секунд, NVIDIA прожует его в разы быстрее. Для чата терпимо, для агента, который на каждый шаг шлет большой контекст, мучительно. Ryzen AI Max+ 395 (Strix Halo) со 128 ГБ unified memory, интересная альтернатива за меньшие деньги, MoE на нем живут достойно, плотные 70B уже нет.

Где локалка выигрывает:

Приватность и NDA. Код заказчика, медицинские данные, внутренние документы, все это в облако нельзя в принципе. Объемные фоновые задачи: прогнать сто тысяч строк через классификацию по API стоит десятки тысяч рублей, локально только электричество. Оплата зарубежных API из России, отдельная боль с картами и посредниками, локалке все равно. И веса не обновят под вами молча: модель на диске ведет себя одинаково и через год.

Где проигрывает:

Пиковое качество. Сложный агентский кодинг, длинные цепочки рассуждений, аккуратная работа с контекстом 100к+, тут облако впереди и разрыв не закрылся. Электричество и амортизация: 3090 под нагрузкой ест 350 Вт, и если у вас 20 запросов в день, окупаться против дешевого API она будет года три. Посчитайте честно свой объем до покупки.

Выводы:

Для входа качайте Qwen3-30B-A3B и запускайте на том, что есть, вложения ноль. Оптимум по деньгам, б/у 3090 плюс Qwen3-32B, закрывает большую часть реальных задач. Маки берите ради большой unified memory и тишины, помня про медленную обработку промпта. И не гонитесь за максимальным размером: 32B, которая отвечает за три секунды, в жизни полезнее 120B, которой ждешь полминуты.

tiger71 · Сообщение **tiger71** » 26 май 2026, 02:28

Считал для себя осенью: у меня выходит порядка 30 запросов в день по кодингу. Через openrouter на недорогих моделях это рублей 400-500 в месяц. Б/у 3090 за 80к, плюс нормальный БП, плюс электричество. Окупаемость лет пять, если честно. Локалка имеет смысл либо когда NDA, либо когда гоняешь батчи тысячами. Для "поболтать с моделью по вечерам" это дорогое хобби, давайте не будем себя обманывать.

magic123 · Сообщение **magic123** » 26 май 2026, 03:05

qawsqaws писал(а):prompt processing у маков слабое место

Подтверждаю на своей шкуре. M4 Max 128, gpt-oss-120b, генерация летает, но как только подключил его к агенту с RAG, где на каждый запрос уходит 15-20к токенов контекста, начался ад: 30-40 секунд только на прогрев промпта. Частично спасает MLX вместо llama.cpp (процентов на 30-40 быстрее именно prefill) и кеширование промпта, если системная часть не меняется. Но если основной сценарий это агенты с жирным контекстом, мак я бы сейчас не советовал, как бы ни любил эту машинку за тишину.

lentyaj · Сообщение **lentyaj** » 26 май 2026, 05:32

А по CPU-варианту можно подробнее? 30B-A3B на DDR4 3200 вообще имеет смысл пробовать или там будет 3 токена в секунду и слезы? Памяти 64 ГБ, проц Ryzen 5700X. Апгрейдить платформу ради этого не хочется.

deepdeadlock

Гоняю 2x3090 примерно год, пара заметок из практики. NVLink не нужен, не тратьте деньги, для инференса хватает PCIe, разница в пределах погрешности. Обязательно даунвольтите: у меня обе карты зажаты до 280 Вт, потеря скорости процента четыре, зато температуры и шум несравнимо лучше, и БП на 1000 Вт хватает с запасом. 70B Q4 через vLLM с tensor parallel стабильно держит 17-19 t/s. И да, кто смотрит на дешевые Tesla P40 на барахолках, не надо: старая архитектура, нет нормального fp16, половина новых движков их уже не поддерживает. Это деньги в помойку в 2026.

softlurker · Сообщение **softlurker** » 26 май 2026, 08:17

tiger71 писал(а):Окупаемость лет пять, если честно

Вы считаете только интерактивный чат, а у локалки экономика другая. У меня модель крутится фоном круглосуточно: индексация и теги домашнего архива фоток, разбор почты, суммаризация RSS, голосовой ассистент в умном доме. Это тысячи запросов в сутки, по API такое вышло бы в десятки тысяч рублей в месяц, либо пришлось бы просто не делать. Плюс сам факт оплаты зарубежного API из РФ это отдельный квест с посредниками и комиссией 10-15 процентов. Так что пять лет окупаемости превращаются в полгода, вопрос только в том, есть ли у вас такие задачи.

coder_vlad · Сообщение **coder_vlad** » 26 май 2026, 08:21

@softlurker, Хорошо, что в статье отдельно подсветили грабли с контекстом в ollama, об это разбивается каждый второй новичок. Модель внезапно "тупеет" на длинном диалоге, человек делает вывод, что локалка мусор, а на деле просто дефолтный num_ctx все обрезал. Лечится либо параметром в Modelfile, либо переменной окружения OLLAMA_CONTEXT_LENGTH при старте сервера. Почему за столько лет не сделали честное предупреждение в логах при переполнении, загадка.

Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Re: Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Re: Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Re: Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Re: Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Re: Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Re: Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Кто сейчас на конференции