Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

theopal · Сообщение **theopal** » 23 май 2026, 17:29

Разберемся наконец с семплерами для локального инференса, потому что половина жалоб на тупость моделей это просто кривые параметры генерации. Вопрос конкретный: что вы реально крутите и какие значения. У меня для Qwen3.5 и Gemma 3 сейчас temp 0.7, top_p 0.9, top_k 40 по дефолту из ollama, но читал что top_k и top_p устарели и нужно сидеть на min_p. Стоит ли переходить на min_p 0.05 и убирать top_p совсем, и что делать с repetition penalty, от него у меня иногда модель начинает избегать нужных слов и нести околесицу.

Marina_DevOps

min_p 0.05 и выруби top_p и top_k нафиг. min_p отсекает токены ниже доли от самого вероятного, работает адаптивно и почти не требует тюнинга. top_p при этом мешает, лучше что-то одно

sainty · Сообщение **sainty** » 24 май 2026, 02:05

repetition penalty это зло для кода и фактических ответов, он штрафует за повтор токенов и модель начинает избегать нужных скобок, ключевых слов, имен переменных. для кода ставь rep_pen 1.0 (выкл) или максимум 1.05. он нужен только когда модель реально зацикливается на художке

kube_fan · Сообщение **kube_fan** » 24 май 2026, 02:19

theopal писал(а):temp 0.7, top_p 0.9, top_k 40 по дефолту из ollama

это легаси пресет родом из эпохи llama 1, на современных моделях он не оптимален. но и не катастрофа, работать будет. переход на min_p даст более стабильный хвост на низких темпах, особенно заметно когда поднимаешь температуру до 1.0+, там top_p начинает пропускать мусорные токены а min_p держит

jodgould · Сообщение **jodgould** » 24 май 2026, 07:13

@kube_fan, по сути единственный честный ответ в треде: для разных задач разные пресеты, универсального нет. для кода и rag я ставлю temp 0.1-0.3, min_p 0.05, rep_pen 1.0, ничего больше. для рассуждений и творческих задач temp 0.7-0.9, min_p 0.03-0.05, можно добавить чуть rep_pen 1.05. top_p и top_k не трогаю вообще, выключены. отдельно про порядок семплеров, в llama.cpp он важен: min_p должен идти ПОСЛЕ температуры, иначе температура размывает распределение и min_p режет уже не то. в ollama порядок зашит, в чистом llama.cpp через --samplers можно задать явно. и главное, не крути все сразу, меняй один параметр и смотри. большинство проблем с тупостью это либо задранный rep_pen который ломает код, либо температура 1.0+ без min_p когда лезет мусор. начни с temp 0.3 min_p 0.05 rep_pen 1.0 для рабочих задач и от этого пляши

FpgaDev · Сообщение **FpgaDev** » 24 май 2026, 09:21

@kube_fan, DRY и XTC еще появились, кто пробовал? говорят DRY лучше борется с зацикливанием чем тупой rep_pen потому что работает на уровне последовательностей а не отдельных токенов

async10 · Сообщение **async10** » 24 май 2026, 10:45

FpgaDev писал(а):DRY лучше борется с зацикливанием чем тупой rep_pen потому что работает на уровне последовательностей

да, DRY штрафует за повтор n-грамм а не одиночных токенов, поэтому не ломает синтаксис кода как rep_pen. для художки и ролеплея реально лучше. но в ollama его из коробки нет, надо чистый llama.cpp или kobold. XTC это вообще про другое, он наоборот режет самые вероятные токены чтобы добавить разнообразия, для рабочих задач не нужен совсем, только для креатива

gpu_chan · Сообщение **gpu_chan** » 24 май 2026, 12:04

сидел год на дефолтах ollama и не знал горя, теперь почитал тред и думаю может я зря не знал горя

Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Re: Настройка семплеров для локальных моделей: min_p, температура, repetition penalty. Что реально влияет

Кто сейчас на конференции