Локальные LLM и open-source модели

Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.

Запускаете нейросети на своём железе без подписок и облаков? Обсуждаем локальный инференс LLM — Llama, Mistral, Qwen, DeepSeek и Gemma, квантизацию в GGUF, связки Ollama, llama.cpp, vLLM и LM Studio. Делимся опытом подбора GPU, ускорения генерации и тонкой настройки моделей под свои задачи. Заходите за бенчмарками, конфигами и живыми советами.

Новая тема

145 тем

1
2
3
4
5
6
След.

Темы

Ответы

Просмотры

Последнее сообщение

MoE модели типа Qwen3 235B на обычном пк через офлоад, кто реально запускал

Последнее сообщение hogan20 « 13 июн 2026, 07:22
Ответы: 7
qwertyn ★★★☆☆ 2.6 » 12 июн 2026, 19:04

7 Ответы

73 Просмотры

Последнее сообщение hogan20
13 июн 2026, 07:22
Speculative decoding в llama.cpp дал прирост скорости, но качество поплыло. Как настроить draft-модель правильно

Последнее сообщение sneeke « 12 июн 2026, 16:14
Ответы: 7
torch22 ★☆☆☆☆ 1.0 » 11 июн 2026, 17:10

7 Ответы

66 Просмотры

Последнее сообщение sneeke
12 июн 2026, 16:14
Qwen3-235B на двух 3090 в кванте Q4, реально вытянуть дома?

Последнее сообщение KafkaAndy « 12 июн 2026, 16:11
Ответы: 7
terraformlover ★★☆☆☆ 1.5 » 11 июн 2026, 16:51

7 Ответы

82 Просмотры

Последнее сообщение KafkaAndy
12 июн 2026, 16:11
Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?

Последнее сообщение zfspro « 12 июн 2026, 08:52
Ответы: 6
grumpylurker ★★☆☆☆ 1.7 » 11 июн 2026, 19:55

6 Ответы

62 Просмотры

Последнее сообщение zfspro
12 июн 2026, 08:52
gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

Последнее сообщение b1llyn0m « 12 июн 2026, 06:57
Ответы: 5
rustenjoyer ★★★☆☆ 3.2 » 11 июн 2026, 19:35

5 Ответы

70 Просмотры

Последнее сообщение b1llyn0m
12 июн 2026, 06:57
Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Последнее сообщение dannii « 12 июн 2026, 05:32
Ответы: 9
Version ★☆☆☆☆ 1.0 » 13 май 2026, 09:42

9 Ответы

64 Просмотры

Последнее сообщение dannii
12 июн 2026, 05:32
ollama жрёт в 2 раза больше памяти чем чистый llama.cpp, это норма?

Последнее сообщение Pudakris « 12 июн 2026, 04:26
Ответы: 6
Kireeich ★★☆☆☆ 2.0 » 11 июн 2026, 12:54

6 Ответы

61 Просмотры

Последнее сообщение Pudakris
12 июн 2026, 04:26
Запустил Qwen3.6 235B дома на б/у эпике без топовой видяхи, делюсь цифрами

Последнее сообщение kingcnut « 11 июн 2026, 23:21
Ответы: 10
Austkin ★★☆☆☆ 2.4 » 11 май 2026, 13:51
1

2
10 Ответы

81 Просмотры

Последнее сообщение kingcnut
11 июн 2026, 23:21
Взял две MI50 по 14к с али, неделя боли с ROCm, рассказываю как не надо

Последнее сообщение Sjobs « 11 июн 2026, 23:14
Ответы: 8
go_pro ★★★☆☆ 2.6 » 14 май 2026, 02:34

8 Ответы

73 Просмотры

Последнее сообщение Sjobs
11 июн 2026, 23:14
MoE на CPU реально работает: запустил GLM-5-Air 110B на Ryzen 9 7950X и 96 ГБ DDR5

Последнее сообщение svelte1 « 11 июн 2026, 09:31
Ответы: 8
spaegree ★★★☆☆ 2.5 » 10 июн 2026, 20:00

8 Ответы

82 Просмотры

Последнее сообщение svelte1
11 июн 2026, 09:31
Оллама после обновления выгружает модель каждые 5 минут, как лечить

Последнее сообщение lototsky « 11 июн 2026, 07:26
Ответы: 5
asyncpro ★★☆☆☆ 2.2 » 11 июн 2026, 02:31

5 Ответы

52 Просмотры

Последнее сообщение lototsky
11 июн 2026, 07:26
Файнтюнил Qwen на базе тикетов через QLoRA и получил лоботомита, разбор факапа

Последнее сообщение rdnckavn « 11 июн 2026, 02:27
Ответы: 4
ansiblemain ★☆☆☆☆ 1.0 » 10 июн 2026, 16:32

4 Ответы

55 Просмотры

Последнее сообщение rdnckavn
11 июн 2026, 02:27
Сколько токенов в секунду реально на 3090 в llama.cpp на Qwen3 32B Q4

Последнее сообщение jpearce « 10 июн 2026, 23:05
Ответы: 8
lentyaj » 09 июн 2026, 21:20

8 Ответы

73 Просмотры

Последнее сообщение jpearce
10 июн 2026, 23:05
7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк

Последнее сообщение bruce01 « 10 июн 2026, 22:25
Ответы: 6
ivan21 ★★★☆☆ 3.4 » 10 июн 2026, 11:58

6 Ответы

62 Просмотры

Последнее сообщение bruce01
10 июн 2026, 22:25
ollama жрёт в 2 раза больше памяти чем чистый llama.cpp на той же модели

Последнее сообщение seniorsamurai « 10 июн 2026, 22:05
Ответы: 8
bunmaker ★★☆☆☆ 2.4 » 10 июн 2026, 01:34

8 Ответы

69 Просмотры

Последнее сообщение seniorsamurai
10 июн 2026, 22:05
Gemma 4 26B от Google — стоит ли менять Mistral/Qwen или переоценённый хайп?

Последнее сообщение lentyaj « 10 июн 2026, 16:41
Ответы: 8
Bill2001 ★★☆☆☆ 2.2 » 29 май 2026, 17:37

8 Ответы

83 Просмотры

Последнее сообщение lentyaj
10 июн 2026, 16:41
Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?

Последнее сообщение Austkin « 10 июн 2026, 16:39
Ответы: 4
sneeke ★★☆☆☆ 2.3 » 10 июн 2026, 13:22

4 Ответы

58 Просмотры

Последнее сообщение Austkin
10 июн 2026, 16:39
Как конвертировать модель в GGUF формат для llama.cpp

Последнее сообщение Omoto « 10 июн 2026, 13:42
Ответы: 9
nixos69 ★★★☆☆ 3.2 » 31 май 2026, 16:01

9 Ответы

87 Просмотры

Последнее сообщение Omoto
10 июн 2026, 13:42
Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Последнее сообщение torchchan « 10 июн 2026, 13:17
Ответы: 7
proxmoxmaker ★★★☆☆ 3.2 » 09 июн 2026, 17:27

7 Ответы

72 Просмотры

Последнее сообщение torchchan
10 июн 2026, 13:17
Qwen3-Coder 30B на двух 3090, сколько токенов в секунду реально выжать

Последнее сообщение k_egor_s « 10 июн 2026, 10:34
Ответы: 7
makler » 09 июн 2026, 12:32

7 Ответы

71 Просмотры

Последнее сообщение k_egor_s
10 июн 2026, 10:34
Слепой тест Q4_K_M против Q6_K, разницы ноль. Плацебо?

Последнее сообщение svelteandy « 10 июн 2026, 10:00
Ответы: 5
Kutz ★★★☆☆ 2.8 » 09 июн 2026, 16:37

5 Ответы

57 Просмотры

Последнее сообщение svelteandy
10 июн 2026, 10:00
ollama в 2026, кто-то еще пользуется или все переросли

Последнее сообщение seniornullptr « 10 июн 2026, 09:28
Ответы: 7
harro » 09 июн 2026, 20:41

7 Ответы

74 Просмотры

Последнее сообщение seniornullptr
10 июн 2026, 09:28
Speculative decoding дал +60% скорости почти бесплатно, почему молчат

Последнее сообщение llama_maker « 10 июн 2026, 04:06
Ответы: 8
nixosaddict ★★★☆☆ 3.0 » 15 май 2026, 02:09

8 Ответы

881 Просмотры

Последнее сообщение llama_maker
10 июн 2026, 04:06
Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением

Последнее сообщение pkdunn8 « 09 июн 2026, 22:29
Ответы: 4
gdgdgd ★★★☆☆ 2.5 » 09 июн 2026, 16:36

4 Ответы

62 Просмотры

Последнее сообщение pkdunn8
09 июн 2026, 22:29
MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Последнее сообщение remoteraccoon « 09 июн 2026, 22:24
Ответы: 13
wasm_enjoyer ★★★☆☆ 2.6 » 11 май 2026, 18:00
1

2
13 Ответы

801 Просмотры

Последнее сообщение remoteraccoon
09 июн 2026, 22:24

Новая тема

145 тем

1
2
3
4
5
6
След.

Вернуться к списку форумов

Темы этого раздела все теги →

Популярные запросы раздела

как запустить llama локально qwen vs llama что лучше как запустить deepseek локально mistral для локального запуска отзывы что такое raid массив и какой уровень выбрать что такое ubuntu server и зачем он нужен tarantool как база данных и кэш лучшая локальная llm для кода почему postgresql медленный и как ускорить systemd сервис не запускается после перезагрузки

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость

Права доступа

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения