Локальные LLM и open-source модели

Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.

Запускаете нейросети на своём железе без подписок и облаков? Обсуждаем локальный инференс LLM — Llama, Mistral, Qwen, DeepSeek и Gemma, квантизацию в GGUF, связки Ollama, llama.cpp, vLLM и LM Studio. Делимся опытом подбора GPU, ускорения генерации и тонкой настройки моделей под свои задачи. Заходите за бенчмарками, конфигами и живыми советами.

Новая тема

145 тем

Темы

Ответы

Просмотры

Последнее сообщение

Влезет ли 32B модель в 24 ГБ VRAM или я зря купил 3090?

Последнее сообщение qcdeed « 09 июн 2026, 22:12
Ответы: 11
ch5237 ★★★☆☆ 2.7 » 13 май 2026, 07:06
1

2
11 Ответы

1201 Просмотры

Последнее сообщение qcdeed
09 июн 2026, 22:12
Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли

Последнее сообщение ceph7 « 09 июн 2026, 21:58
Ответы: 5
lorenzinoarq ★★☆☆☆ 2.4 » 09 июн 2026, 10:40

5 Ответы

69 Просмотры

Последнее сообщение ceph7
09 июн 2026, 21:58
Кейс фейла: выкатили локальную LLM в прод, через час всё легло

Последнее сообщение Sjobs « 09 июн 2026, 21:25
Ответы: 22
delphin ★☆☆☆☆ 0.8 » 20 май 2026, 02:35
1

2

3
22 Ответы

1281 Просмотры

Последнее сообщение Sjobs
09 июн 2026, 21:25
Вторая 3090 с Авито или одна 5090: на чём жить с локальными LLM в 2026?

Последнее сообщение icu2 « 09 июн 2026, 20:43
Ответы: 5
jwil1440 ★☆☆☆☆ 1.0 » 09 июн 2026, 08:52

5 Ответы

52 Просмотры

Последнее сообщение icu2
09 июн 2026, 20:43
Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?

Последнее сообщение tastee « 09 июн 2026, 20:02
Ответы: 7
georgea » 20 май 2026, 19:32

7 Ответы

72 Просмотры

Последнее сообщение tastee
09 июн 2026, 20:02
Q4_K_M против Q5_K_M: реально слышно разницу или это плацебо?

Последнее сообщение grumpylurker « 09 июн 2026, 20:01
Ответы: 18
zfskun ★★★★☆ 4.2 » 28 май 2026, 03:56
1

2
18 Ответы

1437 Просмотры

Последнее сообщение grumpylurker
09 июн 2026, 20:01
Gemma 3 27B на RTX 4090 — реально ли запустить в Q4_K_M без свопа?

Последнее сообщение Tanyagor75 « 09 июн 2026, 19:55
Ответы: 5
royalt » 09 июн 2026, 19:10

5 Ответы

67 Просмотры

Последнее сообщение Tanyagor75
09 июн 2026, 19:55
Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?

Последнее сообщение mparker8 « 09 июн 2026, 18:41
Ответы: 4
rawpenguin ★★☆☆☆ 2.2 » 09 июн 2026, 08:23

4 Ответы

63 Просмотры

Последнее сообщение mparker8
09 июн 2026, 18:41
Qwen3-235B на двух 3090 в кванте, кто реально гонял дома

Последнее сообщение pharside « 09 июн 2026, 18:08
Ответы: 6
vaultaddict ★★★☆☆ 2.6 » 09 июн 2026, 01:24

6 Ответы

64 Просмотры

Последнее сообщение pharside
09 июн 2026, 18:08
Лучшая локальная модель под код в 2026 - Qwen2.5-Coder всех уделал?

Последнее сообщение theopal « 09 июн 2026, 16:39
Ответы: 10
harringt ★★☆☆☆ 1.9 » 24 май 2026, 19:02
1

2
10 Ответы

1086 Просмотры

Последнее сообщение theopal
09 июн 2026, 16:39
DeepSeek R1 локально - кто-нибудь реально запустил полную версию дома?

Последнее сообщение pharside « 09 июн 2026, 08:33
Ответы: 10
Bill2001 ★★★☆☆ 3.1 » 20 май 2026, 03:58
1

2
10 Ответы

1074 Просмотры

Последнее сообщение pharside
09 июн 2026, 08:33
Какую квантизацию GGUF выбрать в 2026 — Q4_K_M уже не универсальный ответ?

Последнее сообщение Vthors22 « 09 июн 2026, 08:27
Ответы: 8
tcpmaker ★★★☆☆ 2.9 » 22 май 2026, 13:43

8 Ответы

83 Просмотры

Последнее сообщение Vthors22
09 июн 2026, 08:27
24B или 32B на 24гб VRAM: что реально влезает с нормальным контекстом

Последнее сообщение grafanahacker « 09 июн 2026, 07:52
Ответы: 10
sergeyserov ★★★☆☆ 2.8 » 11 май 2026, 03:49
1

2
10 Ответы

1350 Просмотры

Последнее сообщение grafanahacker
09 июн 2026, 07:52
DeepSeek R1 8B на 6GB VRAM запустить реально или нет

Последнее сообщение thumper416 « 09 июн 2026, 05:27
Ответы: 8
lentyaj ★★☆☆☆ 2.2 » 21 май 2026, 13:33

8 Ответы

82 Просмотры

Последнее сообщение thumper416
09 июн 2026, 05:27
Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Последнее сообщение nfrancis « 09 июн 2026, 04:46
Ответы: 6
johnmal ★★★☆☆ 3.2 » 08 июн 2026, 19:53

6 Ответы

63 Просмотры

Последнее сообщение nfrancis
09 июн 2026, 04:46
Ollama vs llama.cpp vs vLLM - что выбрать в 2026, запутался окончательно

Последнее сообщение Tracyw « 09 июн 2026, 03:47
Ответы: 10
docker_kun ★★★☆☆ 3.3 » 20 май 2026, 18:36
1

2
10 Ответы

832 Просмотры

Последнее сообщение Tracyw
09 июн 2026, 03:47
Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Последнее сообщение sergeyserov « 09 июн 2026, 03:06
Ответы: 5
luckysms ★★☆☆☆ 2.2 » 08 июн 2026, 11:26

5 Ответы

49 Просмотры

Последнее сообщение sergeyserov
09 июн 2026, 03:06
vLLM против llama.cpp на одной 4090 для своего API, что выбрать

Последнее сообщение depechie « 08 июн 2026, 20:59
Ответы: 6
burnedblueteam ★★☆☆☆ 2.4 » 08 июн 2026, 11:17

6 Ответы

56 Просмотры

Последнее сообщение depechie
08 июн 2026, 20:59
vLLM для домашнего сервера — есть ли смысл или это только для дата-центров?

Последнее сообщение infern « 08 июн 2026, 17:09
Ответы: 6
KafkaAndy ★★☆☆☆ 1.7 » 07 июн 2026, 14:09

6 Ответы

67 Просмотры

Последнее сообщение infern
08 июн 2026, 17:09
Ollama 0.24 + Qwen3.6 MTP: реально ли ~2x скорости на домашней карте?

Последнее сообщение roero « 08 июн 2026, 16:39
Ответы: 5
redislover » 08 июн 2026, 07:22

5 Ответы

54 Просмотры

Последнее сообщение roero
08 июн 2026, 16:39
Сколько токенов в секунду на DDR4 vs DDR5 для CPU инференса 70B

Последнее сообщение nikita87 « 08 июн 2026, 16:14
Ответы: 6
Planed ★★☆☆☆ 1.9 » 07 июн 2026, 17:18

6 Ответы

45 Просмотры

Последнее сообщение nikita87
08 июн 2026, 16:14
Ollama после обновления стала жрать в 2 раза больше RAM, у кого так же?

Последнее сообщение chase2 « 08 июн 2026, 10:39

chase2 » 08 июн 2026, 10:39

0 Ответы

30 Просмотры

Последнее сообщение chase2
08 июн 2026, 10:39
Сравнил Qwen3 30B A3B и плотную 14B на одном железе, MoE неоднозначно

Последнее сообщение radiomaker « 08 июн 2026, 10:08
Ответы: 7
coder_vlad ★★★☆☆ 2.6 » 07 июн 2026, 14:00

7 Ответы

61 Просмотры

Последнее сообщение radiomaker
08 июн 2026, 10:08
P40 + 3090 в одной тушке: tensor-split, костыли и грелка для комнаты

Последнее сообщение wasm_enjoyer « 08 июн 2026, 04:42
Ответы: 13
vuemaker ★★★★☆ 3.5 » 07 июн 2026, 07:21
1

2
13 Ответы

402 Просмотры

Последнее сообщение wasm_enjoyer
08 июн 2026, 04:42
Все хвастаются токенами генерации, а prompt processing кто мерил? 25к промпта у меня жуется минуту

Последнее сообщение golanglover « 08 июн 2026, 00:12
Ответы: 6
norym ★★☆☆☆ 1.7 » 07 июн 2026, 15:41

6 Ответы

67 Просмотры

Последнее сообщение golanglover
08 июн 2026, 00:12

Новая тема

145 тем

Вернуться к списку форумов

Темы этого раздела все теги →

Популярные запросы раздела

как запустить llama локально qwen vs llama что лучше как запустить deepseek локально mistral для локального запуска отзывы что такое raid массив и какой уровень выбрать что такое ubuntu server и зачем он нужен tarantool как база данных и кэш лучшая локальная llm для кода почему postgresql медленный и как ускорить systemd сервис не запускается после перезагрузки

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость

Права доступа

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения