Решённые вопросы — Локальные LLM и open-source модели
Решённые вопросы раздела «Локальные LLM и open-source модели»: 23 тем с принятым лучшим ответом — готовые проверенные решения сообщества по этой теме.
По разделам:
все
Self-hosting и Homelab 25Карьера в IT 24Локальные LLM и open-source модели 23Веб-разработка 23DevOps и CI/CD 23AI-ассистированная разработка 21Кибербезопасность и пентест 21Геймдев и разработка игр 20Языки программирования 20Сборка ПК и комплектующие 20Смартфоны и гаджеты 20Нейрогенерация: изображения и видео 20Базы данных 18Стартапы и фриланс 18Новости технологий 18Облачные платформы 16Приватность и шифрование 15Курилка и оффтоп 15Машинное обучение и Data Science 14Одноплатники, IoT и DIY-электроника 14Мобильная разработка 13Linux и системное администрирование 13CTF и реверс-инжиниринг 13
- Вопросы с решением (23)
-
- P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты ✓ Лучший ответОтвет (mark499): P40 ещё и без активного охлада идёт, не забудь турбину прикрутить, а то она в простое 40-50 ватт жрёт и греется в закрытом корпусе. nvidia-smi -pl поможет урезать аппети…в «Локальные LLM и open-source модели» · 10 ответов · 308 просмотров
-
- Ollama как настроить системный промпт и параметры генерации ✓ Выбран авторомОтвет (omegadata7864): Полный пример рабочего Modelfile для кодинг-ассистента, которым сам пользуюсь: FROM llama3.1:8b — затем PARAMETER temperature 0.2 (низкая для кода — меньше галлюцинаций)…в «Локальные LLM и open-source модели» · 6 ответов · 11 просмотров
-
- GPU в простое жрёт VRAM и 70 ватт, хотя ничего не крутится ✓ Лучший ответОтвет (lev7399): Нормально. Ollama держит модель в памяти keep_alive по дефолту 5 минут чтобы не перегружать на следующий запрос. Поставь OLLAMA_KEEP_ALIVE=0 или нужное время если хочешь…в «Локальные LLM и open-source модели» · 4 ответов · 290 просмотров
-
- Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048 ✓ Лучший ответОтвет (pycloud484): Классика. Ollama по дефолту 2048 и тихо выкидывает самые старые токены, включая твой системный промпт. Ставь num_ctx явно в Modelfile или через параметр запроса.в «Локальные LLM и open-source модели» · 6 ответов · 495 просмотров
-
- Ollama не видит GPU на Windows 11 что делать ✓ Выбран авторомОтвет (codeapi9968): Развёрнуто отвечу, потому что сам с этим провозился полдня. Проблема чаще всего в одном из трёх: 1) Ollama запущена не как сервис, а как обычный процесс без прав на CUDA…в «Локальные LLM и open-source модели» · 6 ответов · 10 просмотров
-
- Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо? ✓ Лучший ответОтвет (gleb_dns92): Я гоняла Qwen2.5-Coder 14B на генерации SQL. Q8 и Q6 практически идентичны, Q4_K_M начинает иногда путать имена колонок на длинных схемах. На простых запросах разницы но…в «Локальные LLM и open-source модели» · 7 ответов · 2302 просмотров
-
- AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF ✓ Лучший ответОтвет (reactnet2320): Коротко: GGUF в vLLM поддерживается, но это не его родной путь, скорость хуже. Для vLLM бери AWQ (4 бит) если есть готовый квант, он обычно чуть качественнее GPTQ на тех…в «Локальные LLM и open-source модели» · 8 ответов · 412 просмотров
-
- Mac mini M4 для локальных LLM - реальная альтернатива видеокарте или хайп? ✓ Лучший ответОтвет (bitstack8939): Считай экономику ватт. Mac mini под нагрузкой жрёт 40-60 Вт, сборка с 3090 - 350+. Если инференс крутится сутками, за год разница в электричестве ощутимая, особенно сейч…в «Локальные LLM и open-source модели» · 7 ответов · 742 просмотров
-
- Перестаньте советовать vLLM всем подряд, это не замена llama.cpp ✓ Лучший ответОтвет (dmitry4381): А я наоборот ушёл с llama.cpp server на vLLM даже для себя, потому что мне нужен нормальный OpenAI-совместимый API с function calling из коробки. У llama.cpp server это …в «Локальные LLM и open-source модели» · 14 ответов · 564 просмотров
-
- vLLM vs llama.cpp что выбрать для продакшн инференса ✓ Выбран авторомОтвет (egor9725): Из практики: vLLM на Qwen2.5-72B с --tensor-parallel-size 4 и bfloat16 на 4xA100 даёт около 1200-1500 токенов/сек суммарного throughput при batching. TTFT (time to first…в «Локальные LLM и open-source модели» · 5 ответов · 10 просмотров
-
- Speculative decoding дал +60% скорости почти бесплатно, почему молчат ✓ Лучший ответОтвет (ivan3622): Ещё draft жрёт свою VRAM и его надо подобрать из того же семейства токенизатором, иначе не взлетит. Не на любой паре моделей это работает, отсюда и тишина: не plug-and-p…в «Локальные LLM и open-source модели» · 6 ответов · 805 просмотров
-
- Как конвертировать модель в GGUF формат для llama.cpp ✓ Выбран авторомОтвет (denis9127): Подробнее про выбор квантизации. Типы делятся на две группы: старые (Q4_0, Q5_0, Q8_0) и новые k-quants (Q3_K_S/M/L, Q4_K_S/M, Q5_K_S/M, Q6_K). K-quants почти всегда луч…в «Локальные LLM и open-source модели» · 6 ответов · 11 просмотров
-
- Gemma 4 26B от Google — стоит ли менять Mistral/Qwen или переоценённый хайп? ✓ Лучший ответОтвет (yaroslav_neon8): Запустил через Ollama командой ollama pull gemma4:27b — всё подтянулось само, работает из коробки. Для тех кто не хочет возиться с GGUF руками — удобно. Но версия в Olla…в «Локальные LLM и open-source модели» · 5 ответов · 10 просмотров
-
- Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо? ✓ Лучший ответОтвет (bytecode4208): anton_py +1. Я для своих задач собрала маленький калибровочный сет из реальных промптов и мерила KL-дивергенцию выходов относительно fp16. Вот это показательнее ppl.в «Локальные LLM и open-source модели» · 15 ответов · 1325 просмотров
-
- Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090? ✓ Выбран авторомОтвет (mark9640): KV в Q8 практически не заметно по качеству, экономит прилично. Я даже Q4 кэш гонял на больших контекстах - на суммаризации норм, на коде уже начинает тупить. Так что Q8 …в «Локальные LLM и open-source модели» · 8 ответов · 1097 просмотров
-
- Лучшая локальная модель под код в 2026 - Qwen2.5-Coder всех уделал? ✓ Лучший ответОтвет (lev_loop): Qwen2.5-Coder заявлен до 128к через YaRN, но честно держит хорошо тысяч 32. Дальше начинает терять детали в начале файла. Для одного-двух файлов за глаза, на целый репоз…в «Локальные LLM и open-source модели» · 7 ответов · 1008 просмотров
-
- Кейс фейла: выкатили локальную LLM в прод, через час всё легло ✓ Лучший ответОтвет (clouddns1959): Ещё про железо: одна карта это единая точка отказа. Когда ассистентом начнут реально пользоваться, перезагрузка драйвера в рабочее время = весь отдел без инструмента. За…в «Локальные LLM и open-source модели» · 19 ответов · 1152 просмотров
-
- Какую квантизацию GGUF выбрать в 2026 — Q4_K_M уже не универсальный ответ? ✓ Лучший ответОтвет (milana_dns25): Q4_K_M по-прежнему норм для большинства задач, но тут важно какая модель. Для Gemma 4 26B разница между Q4 и Q5 минимальная — Google изначально обучали с QAT (quantizati…в «Локальные LLM и open-source модели» · 5 ответов · 9 просмотров
-
- DeepSeek R1 8B на 6GB VRAM запустить реально или нет ✓ Выбран авторомОтвет (flowgo4491): Важный нюанс про R1: модель генерирует тегив «Локальные LLM и open-source модели» · 5 ответов · 10 просмотров
... перед ответом, и этот думающий текст может быть очень длинным — 500-2000 токенов на нетривиальных задачах.…
-
- Ollama vs llama.cpp vs vLLM - что выбрать в 2026, запутался окончательно ✓ Лучший ответОтвет (pavel9971): Если просто потыкать и попробовать модели - Ollama, поставил и работает, pull qwen2.5 и поехали. Под капотом у неё всё равно llama.cpp. Когда упрёшься в лимиты настроек …в «Локальные LLM и open-source модели» · 7 ответов · 757 просмотров