Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

norym · Сообщение **norym** » 08 июн 2026, 04:03

Короче история. Есть 12к тикетов нашего саппорта (хостинг), формат вопрос-ответ, почистил руками от персоналки. Взял Qwen2.5-7B-Instruct, unsloth, LoRA r=16 alpha=32, lr 2e-4, 3 эпохи на арендованной A100. Loss красиво падал до 0.4, я уже потирал руки.

В итоге модель на вопросы по нашим тарифам отвечает норм, но разучилась всему остальному. Просишь написать скрипт на питоне, выдаёт ответ в стиле саппорта (уточните пожалуйста ваш тарифный план). Иногда зацикливается и повторяет одну фразу до конца контекста. На английском вообще перестала говорить.

Это катастрофическое забывание или я где-то накосячил в конфиге? Слышал что надо подмешивать общие данные, но сколько и какие? И вообще, может 3 эпохи это много для 12к примеров?

asyncpro · Сообщение **asyncpro** » 08 июн 2026, 04:25

3 эпохи на 12к это оверфит почти гарантированно, особенно с lr 2e-4. Я для 7B беру 1e-4 максимум, чаще 5e-5, и одну эпоху. Дальше смотри eval loss, не train. Зацикливание как раз симптом, модель выучила шаблоны дословно. И да, подмешай процентов 15-20 общих инструкций, любой открытый русский инстракт датасет подойдёт, saiga или grandmaster.

lentyaj · Сообщение **lentyaj** » 08 июн 2026, 06:21

а бейзлайн ты померил? серьёзно, прежде чем жечь часы A100, надо было проверить что обычный Qwen с пятью примерами в промпте не решает задачу. саппорт хостинга это не rocket science, RAG по базе знаний плюс нормальный system prompt закрыл бы 90% вопросов без всякого файнтюна

lawlorg · Сообщение **lawlorg** » 08 июн 2026, 10:52

классика жанра. насмотрятся роликов про файнтюн за 15 минут и вперёд. в 12к тикетов саппорта половина это здравствуйте и не работает почините. ты их хоть дедуплицировал? ставлю что там 30% однотипных отписок, модель на них и залипла

m3power · Сообщение **m3power** » 08 июн 2026, 13:22

лол, 2e-4 это дефолт из туториала unsloth, для r=16 он норм. косяк в трёх эпохах и в данных. и eos токен проверь, зацикливание часто из-за того что eos криво воткнулся при подготовке датасета. распечатай пару примеров после токенизации глазами, реально помогает

postgres2 · Сообщение **postgres2** » 08 июн 2026, 14:42

@norym, оффтоп, но unsloth у меня на винде так и не завёлся, только через wsl2. если кто победил нативно, расскажите как

asyncmonk · Сообщение **asyncmonk** » 08 июн 2026, 15:22

сделай eval до и после, хотя бы 50 вопросов руками прогнать. без этого ты вслепую крутишь ручки. мы для такого держим табличку на 60 вопросов в три категории, после каждого запуска прогоняем. скучно, зато видно деградацию сразу, а не от клиентов узнаёшь

Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Кто сейчас на конференции