Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался
Рейтинг: 37.6% · 5 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался
Короче история. Есть 12к тикетов нашего саппорта (хостинг), формат вопрос-ответ, почистил руками от персоналки. Взял Qwen2.5-7B-Instruct, unsloth, LoRA r=16 alpha=32, lr 2e-4, 3 эпохи на арендованной A100. Loss красиво падал до 0.4, я уже потирал руки.
В итоге модель на вопросы по нашим тарифам отвечает норм, но разучилась всему остальному. Просишь написать скрипт на питоне, выдаёт ответ в стиле саппорта (уточните пожалуйста ваш тарифный план). Иногда зацикливается и повторяет одну фразу до конца контекста. На английском вообще перестала говорить.
Это катастрофическое забывание или я где-то накосячил в конфиге? Слышал что надо подмешивать общие данные, но сколько и какие? И вообще, может 3 эпохи это много для 12к примеров?
В итоге модель на вопросы по нашим тарифам отвечает норм, но разучилась всему остальному. Просишь написать скрипт на питоне, выдаёт ответ в стиле саппорта (уточните пожалуйста ваш тарифный план). Иногда зацикливается и повторяет одну фразу до конца контекста. На английском вообще перестала говорить.
Это катастрофическое забывание или я где-то накосячил в конфиге? Слышал что надо подмешивать общие данные, но сколько и какие? И вообще, может 3 эпохи это много для 12к примеров?
✔ Лучший ответ сформирован автоматически — asyncpro
3 эпохи на 12к это оверфит почти гарантированно, особенно с lr 2e-4. Я для 7B беру 1e-4 максимум, чаще 5e-5, и одну эпоху. Дальше смотри eval loss, не train. Зацикливание как раз симптом, модель выучила шаблоны дословно. И да, подмешай процентов 15-20 общих инструкций, любой открытый русский инстракт датасет подойдёт, saiga или grandmaster.
Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался
✔ Лучший ответ — сформирован автоматически
3 эпохи на 12к это оверфит почти гарантированно, особенно с lr 2e-4. Я для 7B беру 1e-4 максимум, чаще 5e-5, и одну эпоху. Дальше смотри eval loss, не train. Зацикливание как раз симптом, модель выучила шаблоны дословно. И да, подмешай процентов 15-20 общих инструкций, любой открытый русский инстракт датасет подойдёт, saiga или grandmaster.
Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался
а бейзлайн ты померил? серьёзно, прежде чем жечь часы A100, надо было проверить что обычный Qwen с пятью примерами в промпте не решает задачу. саппорт хостинга это не rocket science, RAG по базе знаний плюс нормальный system prompt закрыл бы 90% вопросов без всякого файнтюна
Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался
классика жанра. насмотрятся роликов про файнтюн за 15 минут и вперёд. в 12к тикетов саппорта половина это здравствуйте и не работает почините. ты их хоть дедуплицировал? ставлю что там 30% однотипных отписок, модель на них и залипла
Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался
лол, 2e-4 это дефолт из туториала unsloth, для r=16 он норм. косяк в трёх эпохах и в данных. и eos токен проверь, зацикливание часто из-за того что eos криво воткнулся при подготовке датасета. распечатай пару примеров после токенизации глазами, реально помогает
Re: Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался
сделай eval до и после, хотя бы 50 вопросов руками прогнать. без этого ты вслепую крутишь ручки. мы для такого держим табличку на 60 вопросов в три категории, после каждого запуска прогоняем. скучно, зато видно деградацию сразу, а не от клиентов узнаёшь
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Файнтюнил Qwen на базе тикетов через QLoRA и получил лоботомита, разбор факапа
4 ответов · 8 просмотров
-
- Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла
9 ответов · 6 просмотров
-
- QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?
7 ответов · 2 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость