Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Рейтинг: 59.6% · 10 голосов
Технические статьи, разборы и лонгриды от сообщества Cyberlake.
Ответить
Аватара пользователя
qawsqaws
Сообщения: 11
Зарегистрирован: 11 май 2026, 17:11

Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Сообщение qawsqaws »

Год назад локальные модели были игрушкой для энтузиастов с лишней 3090. В 2026 картина другая: открытые веса уровня прошлогодних облачных флагманов влезают в 24 ГБ VRAM, а MoE-архитектуры внезапно сделали полезной обычную DDR5. Я держу локалку с 2023, прошел путь от llama-7b в четыре бита до нынешнего зоопарка, поэтому без воды: что качать, на чем крутить, какие скорости реальны.

Сразу про ожидания. Локальная модель в 2026 не догоняет облачные флагманы. Если нужен уровень последних Opus или GPT-5 для сложных агентских задач, локалка не вариант, врать не буду. Но для 80 процентов бытовых задач (код-ревью, черновики, перевод, суммаризация, RAG по своим документам) разница уже не оправдывает счета за API.

Модели, которые стоит качать:

Qwen3-32B остается рабочей лошадкой для одной видеокарты на 24 ГБ. В кванте Q4_K_M занимает около 19 ГБ, остается место под контекст. Qwen3-30B-A3B, это MoE с 3 млрд активных параметров, главный сюрприз поколения: качество близко к плотной 32B, а скорость как у мелкой модели, потому что на каждый токен считается малая часть весов. Идет даже на CPU с 32 ГБ RAM.

gpt-oss-20b и gpt-oss-120b от OpenAI распространяются сразу в MXFP4: 20b влезает в 16 ГБ, 120b просит около 64 ГБ, зато это MoE с 5 млрд активных параметров, и на маках или Strix Halo он на удивление шустрый. Для рассуждений и агентских сценариев из открытого это один из лучших вариантов.

Gemma 3 27B хороша как универсал с нормальным мультиязом и зрением, русский у нее приличнее, чем у большинства. Mistral Small 3.2 (24B) быстрая и послушная, хороший выбор под function calling. Для кода берите Qwen3-Coder в размере под свое железо, со старым Qwen2.5-Coder возиться уже нет смысла. DeepSeek V3.x и R1 в полном размере (671B) дома живут только у маньяков с Epyc и 512 ГБ RAM на скорости 5-8 t/s, это скорее спорт.

Кванты:

GGUF Q4_K_M, золотая середина: потеря качества 2-4 процента по бенчам, размер примерно 0.6 байта на параметр. Ниже Q4 деградация заметна глазами, особенно на русском и в коде. Если совсем не влезает, берите IQ3_M, он честнее классического Q3_K. Для vLLM нужны AWQ или FP8 версии, GGUF он переваривает плохо. Есть запас VRAM, берите Q6_K или Q8_0 для кода, модель реже путает имена переменных. Кванты exl3 под exllamav3 при тех же битах точнее GGUF, но это только NVIDIA.

Чем запускать:

ollama для старта: скачал, ollama run, работает. Но следите за контекстом, по умолчанию он урезан, выставляйте num_ctx руками, иначе модель молча забывает начало диалога. llama.cpp дает полный контроль (offload слоев, flash attention, спекулятивный декодинг) и сервер с OpenAI-совместимым API:

Код: Выделить всё

llama-server -m Qwen3-32B-Q4_K_M.gguf -ngl 99 -c 32768 -fa
vLLM нужен, когда запросов много параллельно: continuous batching дает x5-10 к суммарной пропускной способности, но он прожорлив к VRAM и живет на линуксе. Для одного пользователя дома это overkill.

Железо, бюджеты, скорости:

Код: Выделить всё

Бюджет        Железо                            Что крутить                  Скорость ген.
~0 руб        ваш ПК, 32-64 ГБ DDR5             Qwen3-30B-A3B Q4 (CPU)       8-15 t/s
35-45 тыс     б/у RTX 3060 12GB                 Qwen3-14B Q4, Gemma3 12B     20-25 t/s
75-90 тыс     б/у RTX 3090 24GB                 Qwen3-32B Q4                 25-30 t/s
160-200 тыс   2x RTX 3090 / RTX 4090            70B Q4 / 32B Q8 + контекст   15-30 t/s
350-500 тыс   RTX 5090 32GB / Mac Studio 128GB  gpt-oss-120b, GLM-4.5-Air    30-60 t/s
Цены на б/у 3090 на авито держатся в районе 75-85 тысяч, и это все еще лучшая покупка по соотношению VRAM к рублю. Майнинговое прошлое само по себе не приговор, реальная проблема это убитые вентиляторы и высохшие термопрокладки, берите с тестом под нагрузкой минут на двадцать.

Про маки и unified memory отдельно. Mac Studio M4 Max со 128 ГБ тянет gpt-oss-120b на 40-60 t/s генерации, тихо и в 150 Вт. Но prompt processing у маков слабое место: промпт на 20 тысяч токенов будете ждать десятки секунд, NVIDIA прожует его в разы быстрее. Для чата терпимо, для агента, который на каждый шаг шлет большой контекст, мучительно. Ryzen AI Max+ 395 (Strix Halo) со 128 ГБ unified memory, интересная альтернатива за меньшие деньги, MoE на нем живут достойно, плотные 70B уже нет.

Где локалка выигрывает:

Приватность и NDA. Код заказчика, медицинские данные, внутренние документы, все это в облако нельзя в принципе. Объемные фоновые задачи: прогнать сто тысяч строк через классификацию по API стоит десятки тысяч рублей, локально только электричество. Оплата зарубежных API из России, отдельная боль с картами и посредниками, локалке все равно. И веса не обновят под вами молча: модель на диске ведет себя одинаково и через год.

Где проигрывает:

Пиковое качество. Сложный агентский кодинг, длинные цепочки рассуждений, аккуратная работа с контекстом 100к+, тут облако впереди и разрыв не закрылся. Электричество и амортизация: 3090 под нагрузкой ест 350 Вт, и если у вас 20 запросов в день, окупаться против дешевого API она будет года три. Посчитайте честно свой объем до покупки.

Выводы:

Для входа качайте Qwen3-30B-A3B и запускайте на том, что есть, вложения ноль. Оптимум по деньгам, б/у 3090 плюс Qwen3-32B, закрывает большую часть реальных задач. Маки берите ради большой unified memory и тишины, помня про медленную обработку промпта. И не гонитесь за максимальным размером: 32B, которая отвечает за три секунды, в жизни полезнее 120B, которой ждешь полминуты.
👍 ❤️ 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — softlurker
tiger71 писал(а):Окупаемость лет пять, если честно Вы считаете только интерактивный чат, а у локалки экономика другая. У меня модель крутится фоном круглосуточно: индексация и теги домашнего архива фоток, разбор почты, суммаризация RSS, голосовой ассистент в умном доме. Это тысячи запросов в сутки, по API такое вышло бы в десятки тысяч рублей в месяц, либо пришлось бы просто не делать. Плюс сам ф…
Перейти к ответу →
Аватара пользователя
tiger71
Сообщения: 44
Зарегистрирован: 10 май 2026, 23:32

Re: Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Сообщение tiger71 »

Считал для себя осенью: у меня выходит порядка 30 запросов в день по кодингу. Через openrouter на недорогих моделях это рублей 400-500 в месяц. Б/у 3090 за 80к, плюс нормальный БП, плюс электричество. Окупаемость лет пять, если честно. Локалка имеет смысл либо когда NDA, либо когда гоняешь батчи тысячами. Для "поболтать с моделью по вечерам" это дорогое хобби, давайте не будем себя обманывать.
👍3 ❤️ 🔥 😄 🤔1
Аватара пользователя
magic123
Сообщения: 18
Зарегистрирован: 12 май 2026, 12:59

Re: Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Сообщение magic123 »

qawsqaws писал(а):prompt processing у маков слабое место
Подтверждаю на своей шкуре. M4 Max 128, gpt-oss-120b, генерация летает, но как только подключил его к агенту с RAG, где на каждый запрос уходит 15-20к токенов контекста, начался ад: 30-40 секунд только на прогрев промпта. Частично спасает MLX вместо llama.cpp (процентов на 30-40 быстрее именно prefill) и кеширование промпта, если системная часть не меняется. Но если основной сценарий это агенты с жирным контекстом, мак я бы сейчас не советовал, как бы ни любил эту машинку за тишину.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
lentyaj
Сообщения: 68
Зарегистрирован: 11 май 2026, 00:17

Re: Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Сообщение lentyaj »

А по CPU-варианту можно подробнее? 30B-A3B на DDR4 3200 вообще имеет смысл пробовать или там будет 3 токена в секунду и слезы? Памяти 64 ГБ, проц Ryzen 5700X. Апгрейдить платформу ради этого не хочется.
👍2 ❤️1 🔥 😄1 🤔
Аватара пользователя
deepdeadlock
Сообщения: 4
Зарегистрирован: 12 май 2026, 03:21

Re: Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Сообщение deepdeadlock »

Гоняю 2x3090 примерно год, пара заметок из практики. NVLink не нужен, не тратьте деньги, для инференса хватает PCIe, разница в пределах погрешности. Обязательно даунвольтите: у меня обе карты зажаты до 280 Вт, потеря скорости процента четыре, зато температуры и шум несравнимо лучше, и БП на 1000 Вт хватает с запасом. 70B Q4 через vLLM с tensor parallel стабильно держит 17-19 t/s. И да, кто смотрит на дешевые Tesla P40 на барахолках, не надо: старая архитектура, нет нормального fp16, половина новых движков их уже не поддерживает. Это деньги в помойку в 2026.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
softlurker
Сообщения: 23
Зарегистрирован: 16 май 2026, 13:16

Re: Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Сообщение softlurker »

✔ Лучший ответ — сформирован автоматически
tiger71 писал(а):Окупаемость лет пять, если честно
Вы считаете только интерактивный чат, а у локалки экономика другая. У меня модель крутится фоном круглосуточно: индексация и теги домашнего архива фоток, разбор почты, суммаризация RSS, голосовой ассистент в умном доме. Это тысячи запросов в сутки, по API такое вышло бы в десятки тысяч рублей в месяц, либо пришлось бы просто не делать. Плюс сам факт оплаты зарубежного API из РФ это отдельный квест с посредниками и комиссией 10-15 процентов. Так что пять лет окупаемости превращаются в полгода, вопрос только в том, есть ли у вас такие задачи.
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
coder_vlad
Сообщения: 72
Зарегистрирован: 11 май 2026, 01:57

Re: Локальные LLM дома в 2026: какие веса качать, на каком железе крутить и когда это вообще выгодно

Сообщение coder_vlad »

@softlurker, Хорошо, что в статье отдельно подсветили грабли с контекстом в ollama, об это разбивается каждый второй новичок. Модель внезапно "тупеет" на длинном диалоге, человек делает вывод, что локалка мусор, а на деле просто дефолтный num_ctx все обрезал. Лечится либо параметром в Modelfile, либо переменной окружения OLLAMA_CONTEXT_LENGTH при старте сервера. Почему за столько лет не сделали честное предупреждение в логах при переполнении, загадка.
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Статьи и лонгриды»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость