llama.cpp

Лёгкий движок инференса, выжимающий максимум из обычного железа без дата-центра, — вокруг него здесь и крутятся споры. Обсуждают конвертацию моделей в GGUF, speculative decoding с приростом под 60 процентов, выбор квантизации и честное сравнение с vLLM и Ollama — вплоть до кейсов, когда локальная LLM в проде ложится через час после выкатки. Пригодится всем, кто собирает self-hosted инференс на CPU или единственной видеокарте.

38 тем, 257 ответов, 5553 просмотров · все теги

Темы

Strix Halo 128гб или две б/у 3090: на чем собирать домашний инференс в 2026?
в «Локальные LLM и open-source модели» · 6 ответов · 62 просмотров · 12 июн 2026, 08:52
gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?
в «Локальные LLM и open-source модели» · 5 ответов · 70 просмотров · 12 июн 2026, 06:57
Взял две MI50 по 14к с али, неделя боли с ROCm, рассказываю как не надо
в «Локальные LLM и open-source модели» · 8 ответов · 72 просмотров · 11 июн 2026, 23:14
7 t/s на 3090 в llama.cpp вместо 25+, помогите найти косяк
в «Локальные LLM и open-source модели» · 6 ответов · 61 просмотров · 10 июн 2026, 22:25
Снёс Ollama после двух лет — переехал на llama.cpp + llama-swap и пока не жалею. Переубедите?
в «Локальные LLM и open-source модели» · 4 ответов · 57 просмотров · 10 июн 2026, 16:39
Как конвертировать модель в GGUF формат для llama.cpp ✓ Решено
в «Локальные LLM и open-source модели» · 9 ответов · 86 просмотров · 10 июн 2026, 13:42
ollama в 2026, кто-то еще пользуется или все переросли
в «Локальные LLM и open-source модели» · 7 ответов · 74 просмотров · 10 июн 2026, 09:28
Speculative decoding дал +60% скорости почти бесплатно, почему молчат
в «Локальные LLM и open-source модели» · 8 ответов · 879 просмотров · 10 июн 2026, 04:06
Две MI50 по 32 ГБ с Али вместо одной 3090 — месяц опыта, цифры и боль с охлаждением
в «Локальные LLM и open-source модели» · 4 ответов · 61 просмотров · 09 июн 2026, 22:29
Ryzen AI Max+ 395 со 128 ГБ приехал из Китая — замеры локальных LLM и немного боли
в «Локальные LLM и open-source модели» · 5 ответов · 64 просмотров · 09 июн 2026, 21:58
Кейс фейла: выкатили локальную LLM в прод, через час всё легло
в «Локальные LLM и open-source модели» · 22 ответов · 1268 просмотров · 09 июн 2026, 21:25
Вторая 3090 с Авито или одна 5090: на чём жить с локальными LLM в 2026?
в «Локальные LLM и open-source модели» · 5 ответов · 47 просмотров · 09 июн 2026, 20:43
Qwen3.6 35B MoE на одной 24GB карте — у кого получилось нормально запустить?
в «Локальные LLM и open-source модели» · 7 ответов · 65 просмотров · 09 июн 2026, 20:02
Gemma 3 27B на RTX 4090 — реально ли запустить в Q4_K_M без свопа?
в «Локальные LLM и open-source модели» · 5 ответов · 57 просмотров · 09 июн 2026, 19:55
Ryzen AI Max+ 395 со 128 ГБ — реально дешёвый инференс на 200B+ или красивый маркетинг?
в «Локальные LLM и open-source модели» · 4 ответов · 58 просмотров · 09 июн 2026, 18:41
Ollama vs llama.cpp vs vLLM - что выбрать в 2026, запутался окончательно
в «Локальные LLM и open-source модели» · 10 ответов · 824 просмотров · 09 июн 2026, 03:47
Все хвастаются токенами генерации, а prompt processing кто мерил? 25к промпта у меня жуется минуту
в «Локальные LLM и open-source модели» · 6 ответов · 57 просмотров · 08 июн 2026, 00:12
Заявленные 256к контекста оказались фикцией, после 40к модель не помнит начало
в «Локальные LLM и open-source модели» · 7 ответов · 58 просмотров · 07 июн 2026, 19:38
llama-server падает с 40 до 4 t/s после 30к контекста, так и должно быть?
в «Локальные LLM и open-source модели» · 5 ответов · 53 просмотров · 07 июн 2026, 06:29
Купил две Tesla P40 на авито и пожалел, рассказываю почему
в «Локальные LLM и open-source модели» · 7 ответов · 52 просмотров · 07 июн 2026, 04:09
Tool calling на локалках: к третьему вызову модель ломает JSON, как вы с этим живёте
в «Локальные LLM и open-source модели» · 5 ответов · 47 просмотров · 06 июн 2026, 20:01
Prompt processing 60к токенов на 3090 идет 4 минуты, так и задумано?
в «Локальные LLM и open-source модели» · 5 ответов · 59 просмотров · 06 июн 2026, 17:08
Ollama не видит GPU на Windows 11 что делать ✓ Решено
в «Локальные LLM и open-source модели» · 6 ответов · 67 просмотров · 05 июн 2026, 22:34
Arc B580 за 34к под локалки, кто живой гонял? Vulkan в llama.cpp уже не дно или как
в «Локальные LLM и open-source модели» · 5 ответов · 48 просмотров · 05 июн 2026, 03:32
Взял две Mi50 по 32 гига с али под локалки, неделя с ROCm и я почти сдался
в «Локальные LLM и open-source модели» · 6 ответов · 58 просмотров · 04 июн 2026, 23:06