Решённые вопросы — Локальные LLM и open-source модели

Решённые вопросы раздела «Локальные LLM и open-source модели»: 47 тем с принятым лучшим ответом — готовые проверенные решения сообщества по этой теме.

По разделам: все Карьера в IT 56 AI-ассистированная разработка 55 Локальные LLM и open-source модели 47 Нейрогенерация: изображения и видео 37 Веб-разработка 36 Self-hosting и Homelab 29 DevOps и CI/CD 28 Геймдев и разработка игр 27 Языки программирования 26 Курилка и оффтоп 26 Кибербезопасность и пентест 26 Сборка ПК и комплектующие 25 Базы данных 24 Смартфоны и гаджеты 24 Машинное обучение и Data Science 23 Новости технологий 22 Стартапы и фриланс 22 Облачные платформы 19 Linux и системное администрирование 18 Одноплатники, IoT и DIY-электроника 18 Приватность и шифрование 18 CTF и реверс-инжиниринг 18 Мобильная разработка 17 Статьи и лонгриды 1

Вопросы с решением (47)

MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал ✓ Лучший ответ
Ответ (alansmit): Msporsche писал(а):на 64 разве что Q2 и то впритык и тупая будет не настолько тупая как кажется, большие MoE в Q2 держатся лучше чем плотные 70B в Q2, потому что…
в «Локальные LLM и open-source модели» · 7 ответов · 74 просмотров
gpt-oss-120b на одной 3090 24гб реально гонять или фантазии? ✓ Лучший ответ
Ответ (b1llyn0m): две 3090 за 130 решают вопрос целиком, 48 гигов и 120b влезает без оффлоада. да, дорого и гудит как пылесос, но если кодишь этим каждый день, окупается нервами.
в «Локальные LLM и open-source модели» · 5 ответов · 71 просмотров
Оллама после обновления выгружает модель каждые 5 минут, как лечить ✓ Лучший ответ
Ответ (Mom2): опять началось. оллама сама качает модели, сама свапает их по запросу и дает openai-совместимый апи из коробки. не всем интересно жить в флагах llama.cpp, людям…
в «Локальные LLM и open-source модели» · 5 ответов · 52 просмотров
Gemma 4 26B от Google — стоит ли менять Mistral/Qwen или переоценённый хайп? ✓ Лучший ответ
Ответ (thumper416): Запустил через Ollama командой ollama pull gemma4:27b — всё подтянулось само, работает из коробки. Для тех кто не хочет возиться с GGUF руками — удобно. Но версия в…
в «Локальные LLM и open-source модели» · 8 ответов · 85 просмотров
Как конвертировать модель в GGUF формат для llama.cpp ✓ Выбран автором
Ответ (vaultsmith): Подробнее про выбор квантизации. Типы делятся на две группы: старые (Q4_0, Q5_0, Q8_0) и новые k-quants (Q3_K_S/M/L, Q4_K_S/M, Q5_K_S/M, Q6_K). K-quants почти всегда…
в «Локальные LLM и open-source модели» · 9 ответов · 89 просмотров
Speculative decoding дал +60% скорости почти бесплатно, почему молчат ✓ Лучший ответ
Ответ (bruce01): Ещё draft жрёт свою VRAM и его надо подобрать из того же семейства токенизатором, иначе не взлетит. Не на любой паре моделей это работает, отсюда и тишина: не…
в «Локальные LLM и open-source модели» · 8 ответов · 884 просмотров
MoE локально (30B-A3B и подобные): магия скорости или маркетинг ✓ Лучший ответ
Ответ (b1llyn0m): Подвох в памяти: активны 3B, но в VRAM держать надо ВСЕ 30B весов, иначе на каждом токене дёргается разный эксперт и ты захлебнёшься на подкачке. Скорость как у 3B…
в «Локальные LLM и open-source модели» · 13 ответов · 805 просмотров
Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090? ✓ Выбран автором
Ответ (Omoto): KV в Q8 практически не заметно по качеству, экономит прилично. Я даже Q4 кэш гонял на больших контекстах - на суммаризации норм, на коде уже начинает тупить. Так что Q8…
в «Локальные LLM и open-source модели» · 11 ответов · 1190 просмотров
Кейс фейла: выкатили локальную LLM в прод, через час всё легло ✓ Лучший ответ
Ответ (geek_petr): Ещё про железо: одна карта это единая точка отказа. Когда ассистентом начнут реально пользоваться, перезагрузка драйвера в рабочее время = весь отдел без инструмента…
в «Локальные LLM и open-source модели» · 22 ответов · 1270 просмотров
Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо? ✓ Лучший ответ
Ответ (async2010): anton_py +1. Я для своих задач собрала маленький калибровочный сет из реальных промптов и мерила KL-дивергенцию выходов относительно fp16. Вот это показательнее ppl.
в «Локальные LLM и open-source модели» · 18 ответов · 1427 просмотров
Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг? ✓ Лучший ответ
Ответ (mparker8): Подтверждаю про память как бутылочное горлышко, но добавлю нюанс по prompt processing: на APU он считается на iGPU и сильно выигрывает от свежих сборок. Перемерь на…
в «Локальные LLM и open-source модели» · 4 ответов · 58 просмотров
Лучшая локальная модель под код в 2026 - Qwen2.5-Coder всех уделал? ✓ Лучший ответ
Ответ (roero): Qwen2.5-Coder заявлен до 128к через YaRN, но честно держит хорошо тысяч 32. Дальше начинает терять детали в начале файла. Для одного-двух файлов за глаза, на целый…
в «Локальные LLM и open-source модели» · 10 ответов · 1078 просмотров
DeepSeek R1 локально - кто-нибудь реально запустил полную версию дома? ✓ Лучший ответ
Ответ (vaultwizard): Полный R1 671B дома гоняют единицы и то на сборках с 512+ ГБ RAM через mmap, скорость 1-2 t/s, на терпеливого. То что у большинства на скринах - дистилляты в Qwen/Llama…
в «Локальные LLM и open-source модели» · 10 ответов · 1064 просмотров
Какую квантизацию GGUF выбрать в 2026 — Q4_K_M уже не универсальный ответ? ✓ Лучший ответ
Ответ (thumper416): Q4_K_M по-прежнему норм для большинства задач, но тут важно какая модель. Для Gemma 4 26B разница между Q4 и Q5 минимальная — Google изначально обучали с QAT…
в «Локальные LLM и open-source модели» · 8 ответов · 76 просмотров
24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом ✓ Лучший ответ
Ответ (misha12): Я бы не гналась за 32B. 24B новых поколений часто бьют старые 32B по бенчам и оставляют запас VRAM под нормальный контекст без плясок с KV-квантом. Качество это не…
в «Локальные LLM и open-source модели» · 10 ответов · 1342 просмотров
DeepSeek R1 8B на 6GB VRAM запустить реально или нет ✓ Выбран автором
Ответ (nikita87): Важный нюанс про R1: модель генерирует теги ... перед ответом, и этот думающий текст может быть очень длинным — 500-2000 токенов на нетривиальных…
в «Локальные LLM и open-source модели» · 8 ответов · 74 просмотров
Ollama vs llama.cpp vs vLLM - что выбрать в 2026, запутался окончательно ✓ Лучший ответ
Ответ (misha12): Если просто потыкать и попробовать модели - Ollama, поставил и работает, pull qwen2.5 и поехали. Под капотом у неё всё равно llama.cpp. Когда упрёшься в лимиты настроек…
в «Локальные LLM и open-source модели» · 10 ответов · 827 просмотров
P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты ✓ Лучший ответ
Ответ (trasche10): P40 ещё и без активного охлада идёт, не забудь турбину прикрутить, а то она в простое 40-50 ватт жрёт и греется в закрытом корпусе. nvidia-smi -pl поможет урезать…
в «Локальные LLM и open-source модели» · 13 ответов · 392 просмотров
Все хвастаются токенами генерации, а prompt processing кто мерил? 25к промпта у меня жуется минуту ✓ Лучший ответ
Ответ (golanglover): tsav писал(а):а pp это вообще что? первый раз вижу аббревиатуру prompt processing, оно же prefill. скорость, с которой модель пережевывает твой промпт до первого токена…
в «Локальные LLM и open-source модели» · 6 ответов · 59 просмотров
Mac mini M4 для локальных LLM - реальная альтернатива видеокарте или хайп? ✓ Лучший ответ
Ответ (tx3300): Считай экономику ватт. Mac mini под нагрузкой жрёт 40-60 Вт, сборка с 3090 - 350+. Если инференс крутится сутками, за год разница в электричестве ощутимая, особенно…
в «Локальные LLM и open-source модели» · 11 ответов · 831 просмотров