Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Рейтинг: 37.6% · 5 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
norym
Сообщения: 10
Зарегистрирован: 04 июн 2026, 20:03

Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Сообщение norym »

Короче история. Есть 12к тикетов нашего саппорта (хостинг), формат вопрос-ответ, почистил руками от персоналки. Взял Qwen2.5-7B-Instruct, unsloth, LoRA r=16 alpha=32, lr 2e-4, 3 эпохи на арендованной A100. Loss красиво падал до 0.4, я уже потирал руки.

В итоге модель на вопросы по нашим тарифам отвечает норм, но разучилась всему остальному. Просишь написать скрипт на питоне, выдаёт ответ в стиле саппорта (уточните пожалуйста ваш тарифный план). Иногда зацикливается и повторяет одну фразу до конца контекста. На английском вообще перестала говорить.

Это катастрофическое забывание или я где-то накосячил в конфиге? Слышал что надо подмешивать общие данные, но сколько и какие? И вообще, может 3 эпохи это много для 12к примеров?
👍2 ❤️ 🔥2 😄 🤔
✔ Лучший ответ сформирован автоматически — asyncpro
3 эпохи на 12к это оверфит почти гарантированно, особенно с lr 2e-4. Я для 7B беру 1e-4 максимум, чаще 5e-5, и одну эпоху. Дальше смотри eval loss, не train. Зацикливание как раз симптом, модель выучила шаблоны дословно. И да, подмешай процентов 15-20 общих инструкций, любой открытый русский инстракт датасет подойдёт, saiga или grandmaster.
Перейти к ответу →
Аватара пользователя
asyncpro
Сообщения: 17
Зарегистрирован: 15 май 2026, 10:37

Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Сообщение asyncpro »

✔ Лучший ответ — сформирован автоматически
3 эпохи на 12к это оверфит почти гарантированно, особенно с lr 2e-4. Я для 7B беру 1e-4 максимум, чаще 5e-5, и одну эпоху. Дальше смотри eval loss, не train. Зацикливание как раз симптом, модель выучила шаблоны дословно. И да, подмешай процентов 15-20 общих инструкций, любой открытый русский инстракт датасет подойдёт, saiga или grandmaster.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
lentyaj
Сообщения: 68
Зарегистрирован: 11 май 2026, 00:17

Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Сообщение lentyaj »

а бейзлайн ты померил? серьёзно, прежде чем жечь часы A100, надо было проверить что обычный Qwen с пятью примерами в промпте не решает задачу. саппорт хостинга это не rocket science, RAG по базе знаний плюс нормальный system prompt закрыл бы 90% вопросов без всякого файнтюна
👍1 ❤️ 🔥2 😄 🤔1
Аватара пользователя
lawlorg
Сообщения: 30
Зарегистрирован: 16 май 2026, 06:26

Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Сообщение lawlorg »

классика жанра. насмотрятся роликов про файнтюн за 15 минут и вперёд. в 12к тикетов саппорта половина это здравствуйте и не работает почините. ты их хоть дедуплицировал? ставлю что там 30% однотипных отписок, модель на них и залипла
👍 ❤️2 🔥 😄 🤔1
Аватара пользователя
m3power
Сообщения: 42
Зарегистрирован: 16 май 2026, 21:33

Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Сообщение m3power »

лол, 2e-4 это дефолт из туториала unsloth, для r=16 он норм. косяк в трёх эпохах и в данных. и eos токен проверь, зацикливание часто из-за того что eos криво воткнулся при подготовке датасета. распечатай пару примеров после токенизации глазами, реально помогает
👍1 ❤️1 🔥 😄1 🤔
Аватара пользователя
postgres2
Сообщения: 66
Зарегистрирован: 11 май 2026, 17:56

Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Сообщение postgres2 »

@norym, оффтоп, но unsloth у меня на винде так и не завёлся, только через wsl2. если кто победил нативно, расскажите как
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
asyncmonk
Сообщения: 62
Зарегистрирован: 13 май 2026, 16:00

Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался

Сообщение asyncmonk »

сделай eval до и после, хотя бы 50 вопросов руками прогнать. без этого ты вслепую крутишь ручки. мы для такого держим табличку на 60 вопросов в три категории, после каждого запуска прогоняем. скучно, зато видно деградацию сразу, а не от клиентов узнаёшь
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость