Сразу про ожидания. Локальная модель в 2026 не догоняет облачные флагманы. Если нужен уровень последних Opus или GPT-5 для сложных агентских задач, локалка не вариант, врать не буду. Но для 80 процентов бытовых задач (код-ревью, черновики, перевод, суммаризация, RAG по своим документам) разница уже не оправдывает счета за API.
Модели, которые стоит качать:
Qwen3-32B остается рабочей лошадкой для одной видеокарты на 24 ГБ. В кванте Q4_K_M занимает около 19 ГБ, остается место под контекст. Qwen3-30B-A3B, это MoE с 3 млрд активных параметров, главный сюрприз поколения: качество близко к плотной 32B, а скорость как у мелкой модели, потому что на каждый токен считается малая часть весов. Идет даже на CPU с 32 ГБ RAM.
gpt-oss-20b и gpt-oss-120b от OpenAI распространяются сразу в MXFP4: 20b влезает в 16 ГБ, 120b просит около 64 ГБ, зато это MoE с 5 млрд активных параметров, и на маках или Strix Halo он на удивление шустрый. Для рассуждений и агентских сценариев из открытого это один из лучших вариантов.
Gemma 3 27B хороша как универсал с нормальным мультиязом и зрением, русский у нее приличнее, чем у большинства. Mistral Small 3.2 (24B) быстрая и послушная, хороший выбор под function calling. Для кода берите Qwen3-Coder в размере под свое железо, со старым Qwen2.5-Coder возиться уже нет смысла. DeepSeek V3.x и R1 в полном размере (671B) дома живут только у маньяков с Epyc и 512 ГБ RAM на скорости 5-8 t/s, это скорее спорт.
Кванты:
GGUF Q4_K_M, золотая середина: потеря качества 2-4 процента по бенчам, размер примерно 0.6 байта на параметр. Ниже Q4 деградация заметна глазами, особенно на русском и в коде. Если совсем не влезает, берите IQ3_M, он честнее классического Q3_K. Для vLLM нужны AWQ или FP8 версии, GGUF он переваривает плохо. Есть запас VRAM, берите Q6_K или Q8_0 для кода, модель реже путает имена переменных. Кванты exl3 под exllamav3 при тех же битах точнее GGUF, но это только NVIDIA.
Чем запускать:
ollama для старта: скачал, ollama run, работает. Но следите за контекстом, по умолчанию он урезан, выставляйте num_ctx руками, иначе модель молча забывает начало диалога. llama.cpp дает полный контроль (offload слоев, flash attention, спекулятивный декодинг) и сервер с OpenAI-совместимым API:
Код: Выделить всё
llama-server -m Qwen3-32B-Q4_K_M.gguf -ngl 99 -c 32768 -faЖелезо, бюджеты, скорости:
Код: Выделить всё
Бюджет Железо Что крутить Скорость ген.
~0 руб ваш ПК, 32-64 ГБ DDR5 Qwen3-30B-A3B Q4 (CPU) 8-15 t/s
35-45 тыс б/у RTX 3060 12GB Qwen3-14B Q4, Gemma3 12B 20-25 t/s
75-90 тыс б/у RTX 3090 24GB Qwen3-32B Q4 25-30 t/s
160-200 тыс 2x RTX 3090 / RTX 4090 70B Q4 / 32B Q8 + контекст 15-30 t/s
350-500 тыс RTX 5090 32GB / Mac Studio 128GB gpt-oss-120b, GLM-4.5-Air 30-60 t/sПро маки и unified memory отдельно. Mac Studio M4 Max со 128 ГБ тянет gpt-oss-120b на 40-60 t/s генерации, тихо и в 150 Вт. Но prompt processing у маков слабое место: промпт на 20 тысяч токенов будете ждать десятки секунд, NVIDIA прожует его в разы быстрее. Для чата терпимо, для агента, который на каждый шаг шлет большой контекст, мучительно. Ryzen AI Max+ 395 (Strix Halo) со 128 ГБ unified memory, интересная альтернатива за меньшие деньги, MoE на нем живут достойно, плотные 70B уже нет.
Где локалка выигрывает:
Приватность и NDA. Код заказчика, медицинские данные, внутренние документы, все это в облако нельзя в принципе. Объемные фоновые задачи: прогнать сто тысяч строк через классификацию по API стоит десятки тысяч рублей, локально только электричество. Оплата зарубежных API из России, отдельная боль с картами и посредниками, локалке все равно. И веса не обновят под вами молча: модель на диске ведет себя одинаково и через год.
Где проигрывает:
Пиковое качество. Сложный агентский кодинг, длинные цепочки рассуждений, аккуратная работа с контекстом 100к+, тут облако впереди и разрыв не закрылся. Электричество и амортизация: 3090 под нагрузкой ест 350 Вт, и если у вас 20 запросов в день, окупаться против дешевого API она будет года три. Посчитайте честно свой объем до покупки.
Выводы:
Для входа качайте Qwen3-30B-A3B и запускайте на том, что есть, вложения ноль. Оптимум по деньгам, б/у 3090 плюс Qwen3-32B, закрывает большую часть реальных задач. Маки берите ради большой unified memory и тишины, помня про медленную обработку промпта. И не гонитесь за максимальным размером: 32B, которая отвечает за три секунды, в жизни полезнее 120B, которой ждешь полминуты.