QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

zfsandy · Сообщение **zfsandy** » 16 май 2026, 12:25

История фейла, выкладываю как есть, может кого убережет.

Задача: внутренний бот саппорта в конторе. Взял Qwen3-14B, выгрузил 40к пар вопрос-ответ из тикетницы за три года, почистил от мусора, привел к chatml. Unsloth, QLoRA, r=16, alpha=32, lr 2e-4, 3 эпохи на арендованной A100. Loss красиво падал все три эпохи, я радовался.

Результат: модель идеально копирует тон наших саппортов, вплоть до фирменного 'ваше обращение зарегистрировано'. И при этом стала ощутимо тупее. Путает продукты, уверенно выдумывает несуществующие тарифы, на простой вопрос про API отвечает шаблоном про сброс пароля. Базовый Qwen3-14B без всякого тюна отвечает по сути лучше, просто тоном робота.

Месяц вечеров в помойку. Кто проходил, ткните где косяк.

kube_fan · Сообщение **kube_fan** » 16 май 2026, 16:42

3 эпохи на 40к примеров с lr 2e-4 это не файнтюн, это лоботомия. одной эпохи хватает почти всегда, lr ставь 5e-5, максимум 1e-4 для лоры. и подмешай процентов 15 общих инструкций в датасет, иначе catastrophic forgetting, что ты и поймал

rburr · Сообщение **rburr** » 16 май 2026, 18:51

loss красиво падал, хах. train loss падает всегда, он и на случайных метках упадет. eval сет вообще был?

gpu2000 · Сообщение **gpu2000** » 16 май 2026, 22:29

zfsandy писал(а):уверенно выдумывает несуществующие тарифы

вот это главный звоночек, и он не про гиперпараметры. файнтюн не умеет закладывать знания, он учит форму. ты показал модели 40к примеров, где на любой вопрос дается уверенный конкретный ответ, и она выучила именно это: всегда отвечай уверенно и конкретно. знаний про тарифы у нее не прибавилось, вот и сочиняет. факты должны приезжать через RAG в контекст, а лорой максимум стиль и формат подровнять

sabaza · Сообщение **sabaza** » 16 май 2026, 22:50

gpu2000 писал(а):файнтюн не умеет закладывать знания, он учит форму

заезженная мантра, и верна она наполовину. continued pretraining на доменном корпусе знания закладывает нормально, практики полно. другое дело что у ТС не претрейн, а SFT на парах, и r=16 для знаний это вообще ни о чем. но говорить что файнтюн в принципе не умеет в знания неправильно. просто это другой бюджет: сначала проход по докам в режиме претрейна, потом SFT, и только потом можно спорить

nodice · Сообщение **nodice** » 17 май 2026, 02:40

@sabaza, r=16 для 14B и 40к примеров мало, если уж учить, то r=64 и alpha 128. но честно, для саппорт-бота соглашусь с RAG-веткой. сам такой путь прошел в 24м, выкинул лору, поднял qdrant с тикетами поверх базовой модели, заработало за неделю

spark_pilot · Сообщение **spark_pilot** » 17 май 2026, 03:42

а юристов спросили? в тикетах персональные данные клиентов, ФИО, телефоны, номера договоров. вы это на арендованную A100 неизвестно в каком регионе отправили. 152-ФЗ передает привет, а если ДЦ не российский, то еще и трансграничка

k8s2000 · Сообщение **k8s2000** » 17 май 2026, 05:34

@sabaza, ну началось, в каждом треде про файнтюн найдется человек с 152-ФЗ. данные при нормальном пайплайне обезличиваются на этапе подготовки, один проход регулярок и NER. по теме: ТС, собери eval сет из 500 свежих тикетов, прогони базу против тюна вслепую, потом уже крути гиперпараметры. без метрики так и будешь месяцы в помойку носить

QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Кто сейчас на конференции