Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет
Рейтинг: 54.8% · 18 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет
Разберемся наконец с семплерами для локального инференса, потому что половина жалоб на тупость моделей это просто кривые параметры генерации. Вопрос конкретный: что вы реально крутите и какие значения. У меня для Qwen3.5 и Gemma 3 сейчас temp 0.7, top_p 0.9, top_k 40 по дефолту из ollama, но читал что top_k и top_p устарели и нужно сидеть на min_p. Стоит ли переходить на min_p 0.05 и убирать top_p совсем, и что делать с repetition penalty, от него у меня иногда модель начинает избегать нужных слов и нести околесицу.
✔ Лучший ответ сформирован автоматически — jodgould
@kube_fan, по сути единственный честный ответ в треде: для разных задач разные пресеты, универсального нет. для кода и rag я ставлю temp 0.1-0.3, min_p 0.05, rep_pen 1.0, ничего больше. для рассуждений и творческих задач temp 0.7-0.9, min_p 0.03-0.05, можно добавить чуть rep_pen 1.05. top_p и top_k не трогаю вообще, выключены. отдельно про порядок семплеров, в llama.cpp он важен: min_p должен идт…
- Marina_DevOps
- Сообщения: 25
- Зарегистрирован: 11 май 2026, 05:31
Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет
min_p 0.05 и выруби top_p и top_k нафиг. min_p отсекает токены ниже доли от самого вероятного, работает адаптивно и почти не требует тюнинга. top_p при этом мешает, лучше что-то одно
Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет
repetition penalty это зло для кода и фактических ответов, он штрафует за повтор токенов и модель начинает избегать нужных скобок, ключевых слов, имен переменных. для кода ставь rep_pen 1.0 (выкл) или максимум 1.05. он нужен только когда модель реально зацикливается на художке
Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет
это легаси пресет родом из эпохи llama 1, на современных моделях он не оптимален. но и не катастрофа, работать будет. переход на min_p даст более стабильный хвост на низких темпах, особенно заметно когда поднимаешь температуру до 1.0+, там top_p начинает пропускать мусорные токены а min_p держитtheopal писал(а):temp 0.7, top_p 0.9, top_k 40 по дефолту из ollama
Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет
✔ Лучший ответ — сформирован автоматически
@kube_fan, по сути единственный честный ответ в треде: для разных задач разные пресеты, универсального нет. для кода и rag я ставлю temp 0.1-0.3, min_p 0.05, rep_pen 1.0, ничего больше. для рассуждений и творческих задач temp 0.7-0.9, min_p 0.03-0.05, можно добавить чуть rep_pen 1.05. top_p и top_k не трогаю вообще, выключены. отдельно про порядок семплеров, в llama.cpp он важен: min_p должен идти ПОСЛЕ температуры, иначе температура размывает распределение и min_p режет уже не то. в ollama порядок зашит, в чистом llama.cpp через --samplers можно задать явно. и главное, не крути все сразу, меняй один параметр и смотри. большинство проблем с тупостью это либо задранный rep_pen который ломает код, либо температура 1.0+ без min_p когда лезет мусор. начни с temp 0.3 min_p 0.05 rep_pen 1.0 для рабочих задач и от этого пляши
Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет
@kube_fan, DRY и XTC еще появились, кто пробовал? говорят DRY лучше борется с зацикливанием чем тупой rep_pen потому что работает на уровне последовательностей а не отдельных токенов
Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет
да, DRY штрафует за повтор n-грамм а не одиночных токенов, поэтому не ломает синтаксис кода как rep_pen. для художки и ролеплея реально лучше. но в ollama его из коробки нет, надо чистый llama.cpp или kobold. XTC это вообще про другое, он наоборот режет самые вероятные токены чтобы добавить разнообразия, для рабочих задач не нужен совсем, только для креативаFpgaDev писал(а):DRY лучше борется с зацикливанием чем тупой rep_pen потому что работает на уровне последовательностей
Поделиться темой:
✈ Telegram
VK
- Похожие темы
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя