QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?
Рейтинг: 71.7% · 16 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?
История фейла, выкладываю как есть, может кого убережет.
Задача: внутренний бот саппорта в конторе. Взял Qwen3-14B, выгрузил 40к пар вопрос-ответ из тикетницы за три года, почистил от мусора, привел к chatml. Unsloth, QLoRA, r=16, alpha=32, lr 2e-4, 3 эпохи на арендованной A100. Loss красиво падал все три эпохи, я радовался.
Результат: модель идеально копирует тон наших саппортов, вплоть до фирменного 'ваше обращение зарегистрировано'. И при этом стала ощутимо тупее. Путает продукты, уверенно выдумывает несуществующие тарифы, на простой вопрос про API отвечает шаблоном про сброс пароля. Базовый Qwen3-14B без всякого тюна отвечает по сути лучше, просто тоном робота.
Месяц вечеров в помойку. Кто проходил, ткните где косяк.
Задача: внутренний бот саппорта в конторе. Взял Qwen3-14B, выгрузил 40к пар вопрос-ответ из тикетницы за три года, почистил от мусора, привел к chatml. Unsloth, QLoRA, r=16, alpha=32, lr 2e-4, 3 эпохи на арендованной A100. Loss красиво падал все три эпохи, я радовался.
Результат: модель идеально копирует тон наших саппортов, вплоть до фирменного 'ваше обращение зарегистрировано'. И при этом стала ощутимо тупее. Путает продукты, уверенно выдумывает несуществующие тарифы, на простой вопрос про API отвечает шаблоном про сброс пароля. Базовый Qwen3-14B без всякого тюна отвечает по сути лучше, просто тоном робота.
Месяц вечеров в помойку. Кто проходил, ткните где косяк.
✔ Лучший ответ сформирован автоматически — sabaza
gpu2000 писал(а):файнтюн не умеет закладывать знания, он учит форму заезженная мантра, и верна она наполовину. continued pretraining на доменном корпусе знания закладывает нормально, практики полно. другое дело что у ТС не претрейн, а SFT на парах, и r=16 для знаний это вообще ни о чем. но говорить что файнтюн в принципе не умеет в знания неправильно. просто это другой бюджет: сначала проход по д…
Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?
3 эпохи на 40к примеров с lr 2e-4 это не файнтюн, это лоботомия. одной эпохи хватает почти всегда, lr ставь 5e-5, максимум 1e-4 для лоры. и подмешай процентов 15 общих инструкций в датасет, иначе catastrophic forgetting, что ты и поймал
Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?
вот это главный звоночек, и он не про гиперпараметры. файнтюн не умеет закладывать знания, он учит форму. ты показал модели 40к примеров, где на любой вопрос дается уверенный конкретный ответ, и она выучила именно это: всегда отвечай уверенно и конкретно. знаний про тарифы у нее не прибавилось, вот и сочиняет. факты должны приезжать через RAG в контекст, а лорой максимум стиль и формат подровнятьzfsandy писал(а):уверенно выдумывает несуществующие тарифы
Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?
✔ Лучший ответ — сформирован автоматически
заезженная мантра, и верна она наполовину. continued pretraining на доменном корпусе знания закладывает нормально, практики полно. другое дело что у ТС не претрейн, а SFT на парах, и r=16 для знаний это вообще ни о чем. но говорить что файнтюн в принципе не умеет в знания неправильно. просто это другой бюджет: сначала проход по докам в режиме претрейна, потом SFT, и только потом можно споритьgpu2000 писал(а):файнтюн не умеет закладывать знания, он учит форму
Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?
@sabaza, r=16 для 14B и 40к примеров мало, если уж учить, то r=64 и alpha 128. но честно, для саппорт-бота соглашусь с RAG-веткой. сам такой путь прошел в 24м, выкинул лору, поднял qdrant с тикетами поверх базовой модели, заработало за неделю
- spark_pilot
- Сообщения: 16
- Зарегистрирован: 15 май 2026, 05:44
Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?
а юристов спросили? в тикетах персональные данные клиентов, ФИО, телефоны, номера договоров. вы это на арендованную A100 неизвестно в каком регионе отправили. 152-ФЗ передает привет, а если ДЦ не российский, то еще и трансграничка
Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?
@sabaza, ну началось, в каждом треде про файнтюн найдется человек с 152-ФЗ. данные при нормальном пайплайне обезличиваются на этапе подготовки, один проход регулярок и NER. по теме: ТС, собери eval сет из 500 свежих тикетов, прогони базу против тюна вслепую, потом уже крути гиперпараметры. без метрики так и будешь месяцы в помойку носить
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Файнтюнил Qwen на базе тикетов через QLoRA и получил лоботомита, разбор факапа
4 ответов · 8 просмотров
-
- Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла
9 ответов · 7 просмотров
-
- Зафайнтюнил Qwen2.5-7B на тикетах саппорта, получил лоботомита. где я облажался
6 ответов · 4 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей