Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

anna1979 · Чт май 14, 2026 9:00 am

Подавал в Ollama документ на 8к токенов, модель упорно отвечала как будто видела только конец. Думал модель плохая, перебрал три штуки. Оказалось дефолтный num_ctx 2048 и оно молча обрезает начало. Поседел.

pycloud484 · Пт май 15, 2026 9:40 am

Классика. Ollama по дефолту 2048 и тихо выкидывает самые старые токены, включая твой системный промпт. Ставь num_ctx явно в Modelfile или через параметр запроса.

oleg_linux · Пт май 15, 2026 11:01 am

И не забудь что увеличение num_ctx жрёт VRAM нелинейно из-за KV-кэша. Поставил 32к на 7B и удивился почему OOM. Включи KV-cache квантизацию (q8_0) если упираешься.

milana_kernel · Пт май 15, 2026 8:36 pm

backend_kate, вот про q8_0 для KV не знал, спасибо. Самое обидное что нигде ошибки нет, оно просто молча врёт.

boris_null45 · Пт июн 05, 2026 9:01 pm

Подскажите, а как быть если ошибка повторяется после перезагрузки?

filipp_proxy20 · Сб июн 06, 2026 1:01 am

Это боль любого кто начинает с Ollama. Дефолт 2048 — это наследие эпохи когда 4096 контекст считался огромным. Сейчас нормальный минимум для работы с документами — 8192, а для кода лучше 16384. Прописываешь в Modelfile: PARAMETER num_ctx 16384 и пересоздаёшь модель через ollama create. Или через API параметром options.num_ctx прямо в запросе если не хочешь трогать Modelfile.

pynode5808 · Сб июн 06, 2026 1:22 am

Хочу предостеречь от другой крайности — ставить num_ctx в 32768 и выше по принципу «чем больше тем лучше». VRAM жрёт квадратично: у меня на 3070 8GB с Llama 3.1 8B при контексте 8k спокойно, при 32k уже OOM. Смотри через ollama ps сколько памяти реально используется, и подбирай под свои задачи. Для большинства документов 8192 достаточно.

Cyberlake

Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Re: Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Re: Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Re: Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Re: Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Re: Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Re: Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Кто сейчас на конференции