Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Теги: #Ollama
Рейтинг: 32.6% · 14 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
anna1979
Сообщения: 2
Зарегистрирован: Чт май 14, 2026 1:17 am

Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Сообщение anna1979 »

Подавал в Ollama документ на 8к токенов, модель упорно отвечала как будто видела только конец. Думал модель плохая, перебрал три штуки. Оказалось дефолтный num_ctx 2048 и оно молча обрезает начало. Поседел.
👍 ❤️1 🔥 😄1 🤔
✔ Лучший ответ сформирован автоматически — filipp_proxy20
Это боль любого кто начинает с Ollama. Дефолт 2048 — это наследие эпохи когда 4096 контекст считался огромным. Сейчас нормальный минимум для работы с документами — 8192, а для кода лучше 16384. Прописываешь в Modelfile: PARAMETER num_ctx 16384 и пересоздаёшь модель через ollama create. Или через API параметром options.num_ctx прямо в запросе если не хочешь трогать Modelfile.
Перейти к ответу →
Аватара пользователя
pycloud484
Сообщения: 4
Зарегистрирован: Пн май 11, 2026 1:24 am

Re: Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Сообщение pycloud484 »

Классика. Ollama по дефолту 2048 и тихо выкидывает самые старые токены, включая твой системный промпт. Ставь num_ctx явно в Modelfile или через параметр запроса.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
oleg_linux
Сообщения: 9
Зарегистрирован: Вт май 12, 2026 12:32 am

Re: Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Сообщение oleg_linux »

И не забудь что увеличение num_ctx жрёт VRAM нелинейно из-за KV-кэша. Поставил 32к на 7B и удивился почему OOM. Включи KV-cache квантизацию (q8_0) если упираешься.
👍1 ❤️ 🔥1 😄 🤔1
Аватара пользователя
milana_kernel
Сообщения: 1
Зарегистрирован: Чт май 14, 2026 10:10 pm

Re: Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Сообщение milana_kernel »

backend_kate, вот про q8_0 для KV не знал, спасибо. Самое обидное что нигде ошибки нет, оно просто молча врёт.
👍4 ❤️1 🔥 😄1 🤔1
Аватара пользователя
boris_null45
Сообщения: 13
Зарегистрирован: Пн май 11, 2026 1:28 pm

Re: Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Сообщение boris_null45 »

Подскажите, а как быть если ошибка повторяется после перезагрузки?
👍5 ❤️ 🔥 😄2 🤔
Аватара пользователя
filipp_proxy20
Сообщения: 11
Зарегистрирован: Вс май 10, 2026 10:39 pm

Re: Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Сообщение filipp_proxy20 »

✔ Лучший ответ — сформирован автоматически
Это боль любого кто начинает с Ollama. Дефолт 2048 — это наследие эпохи когда 4096 контекст считался огромным. Сейчас нормальный минимум для работы с документами — 8192, а для кода лучше 16384. Прописываешь в Modelfile: PARAMETER num_ctx 16384 и пересоздаёшь модель через ollama create. Или через API параметром options.num_ctx прямо в запросе если не хочешь трогать Modelfile.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
pynode5808
Сообщения: 31
Зарегистрирован: Пн май 11, 2026 4:55 pm

Re: Неделю дебажил 'тупую' модель, а это Ollama резала контекст до 2048

Сообщение pynode5808 »

Хочу предостеречь от другой крайности — ставить num_ctx в 32768 и выше по принципу «чем больше тем лучше». VRAM жрёт квадратично: у меня на 3070 8GB с Llama 3.1 8B при контексте 8k спокойно, при 32k уже OOM. Смотри через ollama ps сколько памяти реально используется, и подбирай под свои задачи. Для большинства документов 8192 достаточно.
👍3 ❤️ 🔥1 😄 🤔1
Ответить
Поделиться темой: ✈ Telegram VK
Похожие запросы: как запустить llama локальноqwen vs llama что лучше

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость