Решённые вопросы — Локальные LLM и open-source модели

Решённые вопросы раздела «Локальные LLM и open-source модели»: 47 тем с принятым лучшим ответом — готовые проверенные решения сообщества по этой теме.

По разделам: все Карьера в IT 56 AI-ассистированная разработка 55 Локальные LLM и open-source модели 47 Нейрогенерация: изображения и видео 37 Веб-разработка 36 Self-hosting и Homelab 29 DevOps и CI/CD 28 Геймдев и разработка игр 27 Языки программирования 26 Курилка и оффтоп 26 Кибербезопасность и пентест 26 Сборка ПК и комплектующие 25 Базы данных 24 Смартфоны и гаджеты 24 Машинное обучение и Data Science 23 Новости технологий 22 Стартапы и фриланс 22 Облачные платформы 19 Linux и системное администрирование 18 Одноплатники, IoT и DIY-электроника 18 Приватность и шифрование 18 CTF и реверс-инжиниринг 18 Мобильная разработка 17 Статьи и лонгриды 1

Вопросы с решением (47)

Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало ✓ Лучший ответ
Ответ (lonelygoblin): подниму. думал, я один такой, у меня после 50к в ролеплее персонаж забывает, кто он. теперь хоть понятно почему
в «Локальные LLM и open-source модели» · 7 ответов · 64 просмотров
Q4 против Q8 в GGUF - реально ли видно деградацию или это плацебо? ✓ Лучший ответ
Ответ (KafkaAndy): Я гоняла Qwen2.5-Coder 14B на генерации SQL. Q8 и Q6 практически идентичны, Q4_K_M начинает иногда путать имена колонок на длинных схемах. На простых запросах разницы…
в «Локальные LLM и open-source модели» · 11 ответов · 2400 просмотров
Ollama как настроить системный промпт и параметры генерации ✓ Выбран автором
Ответ (ansible777): Полный пример рабочего Modelfile для кодинг-ассистента, которым сам пользуюсь: FROM llama3.1:8b — затем PARAMETER temperature 0.2 (низкая для кода — меньше…
в «Локальные LLM и open-source модели» · 6 ответов · 74 просмотров
GPU в простое жрёт VRAM и 70 ватт, хотя ничего не крутится ✓ Лучший ответ
Ответ (sleepyraccoon): Нормально. Ollama держит модель в памяти keep_alive по дефолту 5 минут чтобы не перегружать на следующий запрос. Поставь OLLAMA_KEEP_ALIVE=0 или нужное время если…
в «Локальные LLM и open-source модели» · 4 ответов · 341 просмотров
Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048 ✓ Лучший ответ
Ответ (fpga_lord): Классика. Ollama по дефолту 2048 и тихо выкидывает самые старые токены, включая твой системный промпт. Ставь num_ctx явно в Modelfile или через параметр запроса.
в «Локальные LLM и open-source модели» · 6 ответов · 550 просмотров
Ollama не видит GPU на Windows 11 что делать ✓ Выбран автором
Ответ (nixos69): Развёрнуто отвечу, потому что сам с этим провозился полдня. Проблема чаще всего в одном из трёх: 1) Ollama запущена не как сервис, а как обычный процесс без прав на…
в «Локальные LLM и open-source модели» · 6 ответов · 74 просмотров
Вышли новые веса, есть ли смысл обновляться или старая модель и так норм ✓ Лучший ответ
Ответ (sleepypanic): я наоборот люблю щупать всё новое сразу, интересно же. но в прод не тащу пока не отлежится, для работы старая проверенная. для баловства новьё, для дела стабильность
в «Локальные LLM и open-source модели» · 8 ответов · 68 просмотров
Взял две Mi50 по 32 гига с али под локалки, неделя с ROCm и я почти сдался ✓ Лучший ответ
Ответ (allenw): Shonroman писал(а):через год llama.cpp дропнет gfx906 вслед за амд и у тебя 64 гига мертвого кремния С чего бы. Вулкан бэкенд от воли амд не зависит вообще, это обычный…
в «Локальные LLM и open-source модели» · 6 ответов · 62 просмотров
vLLM vs llama.cpp что выбрать для продакшн инференса ✓ Выбран автором
Ответ (nashnet): Из практики: vLLM на Qwen2.5-72B с --tensor-parallel-size 4 и bfloat16 на 4xA100 даёт около 1200-1500 токенов/сек суммарного throughput при batching. TTFT (time to…
в «Локальные LLM и open-source модели» · 9 ответов · 85 просмотров
AWQ или GPTQ для vLLM в 2026, и причём тут вообще GGUF ✓ Лучший ответ
Ответ (middlewarlock): Коротко: GGUF в vLLM поддерживается, но это не его родной путь, скорость хуже. Для vLLM бери AWQ (4 бит) если есть готовый квант, он обычно чуть качественнее GPTQ на…
в «Локальные LLM и open-source модели» · 8 ответов · 489 просмотров
Перестаньте советовать vLLM всем подряд, это не замена llama.cpp ✓ Лучший ответ
Ответ (Omoto): А я наоборот ушёл с llama.cpp server на vLLM даже для себя, потому что мне нужен нормальный OpenAI-совместимый API с function calling из коробки. У llama.cpp server это…
в «Локальные LLM и open-source модели» · 14 ответов · 663 просмотров
Франкен-4090 на 48 гигов с авито против двух 3090, кто реально владел? ✓ Лучший ответ
Ответ (burneddeadlock): Pudakris писал(а):турбина орет как пылесос, 75 дцб под нагрузкой это кстати решаемо, люди перекидывают их на водянку от 3090 turbo, крепеж совпадает, плюс 15к и тишина…
в «Локальные LLM и open-source модели» · 3 ответов · 47 просмотров
MoE модели на проце с большим RAM реально работают или маркетинг ✓ Лучший ответ
Ответ (rawgoblin): подтверждаю, гонял на 7950X с 128гб ddr5 6000, крупная MoE дает около 6 t/s. на эпике с 8 каналами у знакомого та же модель 18-20. вся разница в каналах памяти, ядра…
в «Локальные LLM и open-source модели» · 6 ответов · 58 просмотров
vLLM против llama.cpp для своего api с нагрузкой, что выбрать в 2026 ✓ Лучший ответ
Ответ (tommee): @lfmatt, +1 за sglang, у нас на RAG где системный промпт здоровый и общий он vLLM обошёл заметно
в «Локальные LLM и open-source модели» · 8 ответов · 93 просмотров
Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы ✓ Лучший ответ
Ответ (madem): заведется, но пинг по вайфаю скачет, а тут на каждый токен раундтрип между машинами. будет дергаться. кабель за 300 рублей с озона решает, не ленись
в «Локальные LLM и open-source модели» · 6 ответов · 56 просмотров
Собрал риг на двух Tesla P40 с авито, рассказываю почему не надо ✓ Лучший ответ
Ответ (Bowden): ну а чего ты ждал, паскалю десятый год. это как купить ведро жигулей и удивляться что не едет как тесла
в «Локальные LLM и open-source модели» · 6 ответов · 49 просмотров
Почему в 2026 каждый туториал по локалкам начинается с ollama ✓ Лучший ответ
Ответ (k8s2000): @nedati, история с r1 это жесть была, да. до сих пор попадаются кадры, которые на полном серьезе рассказывают как запускали дипсик р1 на ноуте с 16 гигами
в «Локальные LLM и open-source модели» · 8 ответов · 52 просмотров
Холивар, llama.cpp против vLLM для своего сервера в 2026, кто кого ✓ Лучший ответ
Ответ (nixos_andy): clickhousepro писал(а):llama.cpp хорош когда один-два юзера не совсем. в llama.cpp давно есть continuous batching через --parallel и --cont-batching, оно не стоит на…
в «Локальные LLM и open-source модели» · 8 ответов · 47 просмотров
Купил мини-ПК на Ryzen AI 9 HX 370 ради NPU под локалки, NPU оказался бесполезным. Рассказываю ✓ Лучший ответ
Ответ (lrichard): sepiatone писал(а):llama.cpp его не видит, ollama тем более и не увидит в обозримом будущем. в llama.cpp бэкенда под XDNA нет и в роадмапе не маячит, энтузиастов с этим…
в «Локальные LLM и open-source модели» · 8 ответов · 50 просмотров
Qwen3.5 вышел, мелкий MoE 42B-A6B выглядит как новый домашний дефолт ✓ Лучший ответ
Ответ (coder_anton): @danga, бенчи у квена последний год рисованые чуть более чем полностью. после релиза, где они в таблицах рвали клода, а на деле модель путалась в трех строках sql, веры…
в «Локальные LLM и open-source модели» · 5 ответов · 48 просмотров