Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Рейтинг: 54.8% · 18 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
theopal
Сообщения: 21
Зарегистрирован: 11 май 2026, 13:27

Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Сообщение theopal »

Разберемся наконец с семплерами для локального инференса, потому что половина жалоб на тупость моделей это просто кривые параметры генерации. Вопрос конкретный: что вы реально крутите и какие значения. У меня для Qwen3.5 и Gemma 3 сейчас temp 0.7, top_p 0.9, top_k 40 по дефолту из ollama, но читал что top_k и top_p устарели и нужно сидеть на min_p. Стоит ли переходить на min_p 0.05 и убирать top_p совсем, и что делать с repetition penalty, от него у меня иногда модель начинает избегать нужных слов и нести околесицу.
👍 ❤️ 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — jodgould
@kube_fan, по сути единственный честный ответ в треде: для разных задач разные пресеты, универсального нет. для кода и rag я ставлю temp 0.1-0.3, min_p 0.05, rep_pen 1.0, ничего больше. для рассуждений и творческих задач temp 0.7-0.9, min_p 0.03-0.05, можно добавить чуть rep_pen 1.05. top_p и top_k не трогаю вообще, выключены. отдельно про порядок семплеров, в llama.cpp он важен: min_p должен идт…
Перейти к ответу →
Аватара пользователя
Marina_DevOps
Сообщения: 25
Зарегистрирован: 11 май 2026, 05:31

Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Сообщение Marina_DevOps »

min_p 0.05 и выруби top_p и top_k нафиг. min_p отсекает токены ниже доли от самого вероятного, работает адаптивно и почти не требует тюнинга. top_p при этом мешает, лучше что-то одно
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
sainty
Сообщения: 94
Зарегистрирован: 11 май 2026, 02:57

Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Сообщение sainty »

repetition penalty это зло для кода и фактических ответов, он штрафует за повтор токенов и модель начинает избегать нужных скобок, ключевых слов, имен переменных. для кода ставь rep_pen 1.0 (выкл) или максимум 1.05. он нужен только когда модель реально зацикливается на художке
👍1 ❤️ 🔥1 😄 🤔
Аватара пользователя
kube_fan
Сообщения: 35
Зарегистрирован: 20 май 2026, 13:00

Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Сообщение kube_fan »

theopal писал(а):temp 0.7, top_p 0.9, top_k 40 по дефолту из ollama
это легаси пресет родом из эпохи llama 1, на современных моделях он не оптимален. но и не катастрофа, работать будет. переход на min_p даст более стабильный хвост на низких темпах, особенно заметно когда поднимаешь температуру до 1.0+, там top_p начинает пропускать мусорные токены а min_p держит
👍 ❤️2 🔥 😄2 🤔
Аватара пользователя
jodgould
Сообщения: 9
Зарегистрирован: 26 май 2026, 10:01

Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Сообщение jodgould »

✔ Лучший ответ — сформирован автоматически
@kube_fan, по сути единственный честный ответ в треде: для разных задач разные пресеты, универсального нет. для кода и rag я ставлю temp 0.1-0.3, min_p 0.05, rep_pen 1.0, ничего больше. для рассуждений и творческих задач temp 0.7-0.9, min_p 0.03-0.05, можно добавить чуть rep_pen 1.05. top_p и top_k не трогаю вообще, выключены. отдельно про порядок семплеров, в llama.cpp он важен: min_p должен идти ПОСЛЕ температуры, иначе температура размывает распределение и min_p режет уже не то. в ollama порядок зашит, в чистом llama.cpp через --samplers можно задать явно. и главное, не крути все сразу, меняй один параметр и смотри. большинство проблем с тупостью это либо задранный rep_pen который ломает код, либо температура 1.0+ без min_p когда лезет мусор. начни с temp 0.3 min_p 0.05 rep_pen 1.0 для рабочих задач и от этого пляши
👍1 ❤️ 🔥 😄 🤔1
Аватара пользователя
FpgaDev
Сообщения: 43
Зарегистрирован: 12 май 2026, 04:40

Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Сообщение FpgaDev »

@kube_fan, DRY и XTC еще появились, кто пробовал? говорят DRY лучше борется с зацикливанием чем тупой rep_pen потому что работает на уровне последовательностей а не отдельных токенов
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
async10
Сообщения: 9
Зарегистрирован: 13 май 2026, 04:38

Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Сообщение async10 »

FpgaDev писал(а):DRY лучше борется с зацикливанием чем тупой rep_pen потому что работает на уровне последовательностей
да, DRY штрафует за повтор n-грамм а не одиночных токенов, поэтому не ломает синтаксис кода как rep_pen. для художки и ролеплея реально лучше. но в ollama его из коробки нет, надо чистый llama.cpp или kobold. XTC это вообще про другое, он наоборот режет самые вероятные токены чтобы добавить разнообразия, для рабочих задач не нужен совсем, только для креатива
👍1 ❤️1 🔥 😄1 🤔1
Аватара пользователя
gpu_chan
Сообщения: 14
Зарегистрирован: 22 май 2026, 16:39

Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Сообщение gpu_chan »

сидел год на дефолтах ollama и не знал горя, теперь почитал тред и думаю может я зря не знал горя
👍1 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость