QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Рейтинг: 71.7% · 16 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
zfsandy
Сообщения: 11
Зарегистрирован: 14 май 2026, 15:51

QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Сообщение zfsandy »

История фейла, выкладываю как есть, может кого убережет.

Задача: внутренний бот саппорта в конторе. Взял Qwen3-14B, выгрузил 40к пар вопрос-ответ из тикетницы за три года, почистил от мусора, привел к chatml. Unsloth, QLoRA, r=16, alpha=32, lr 2e-4, 3 эпохи на арендованной A100. Loss красиво падал все три эпохи, я радовался.

Результат: модель идеально копирует тон наших саппортов, вплоть до фирменного 'ваше обращение зарегистрировано'. И при этом стала ощутимо тупее. Путает продукты, уверенно выдумывает несуществующие тарифы, на простой вопрос про API отвечает шаблоном про сброс пароля. Базовый Qwen3-14B без всякого тюна отвечает по сути лучше, просто тоном робота.

Месяц вечеров в помойку. Кто проходил, ткните где косяк.
👍 ❤️1 🔥1 😄 🤔1
✔ Лучший ответ сформирован автоматически — sabaza
gpu2000 писал(а):файнтюн не умеет закладывать знания, он учит форму заезженная мантра, и верна она наполовину. continued pretraining на доменном корпусе знания закладывает нормально, практики полно. другое дело что у ТС не претрейн, а SFT на парах, и r=16 для знаний это вообще ни о чем. но говорить что файнтюн в принципе не умеет в знания неправильно. просто это другой бюджет: сначала проход по д…
Перейти к ответу →
Аватара пользователя
kube_fan
Сообщения: 35
Зарегистрирован: 20 май 2026, 13:00

Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Сообщение kube_fan »

3 эпохи на 40к примеров с lr 2e-4 это не файнтюн, это лоботомия. одной эпохи хватает почти всегда, lr ставь 5e-5, максимум 1e-4 для лоры. и подмешай процентов 15 общих инструкций в датасет, иначе catastrophic forgetting, что ты и поймал
👍 ❤️1 🔥 😄2 🤔
Аватара пользователя
rburr
Сообщения: 77
Зарегистрирован: 12 май 2026, 17:53

Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Сообщение rburr »

loss красиво падал, хах. train loss падает всегда, он и на случайных метках упадет. eval сет вообще был?
👍1 ❤️1 🔥2 😄 🤔
Аватара пользователя
gpu2000
Сообщения: 7
Зарегистрирован: 18 май 2026, 16:46

Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Сообщение gpu2000 »

zfsandy писал(а):уверенно выдумывает несуществующие тарифы
вот это главный звоночек, и он не про гиперпараметры. файнтюн не умеет закладывать знания, он учит форму. ты показал модели 40к примеров, где на любой вопрос дается уверенный конкретный ответ, и она выучила именно это: всегда отвечай уверенно и конкретно. знаний про тарифы у нее не прибавилось, вот и сочиняет. факты должны приезжать через RAG в контекст, а лорой максимум стиль и формат подровнять
👍 ❤️ 🔥1 😄1 🤔
Аватара пользователя
sabaza
Сообщения: 39
Зарегистрирован: 12 май 2026, 00:38

Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Сообщение sabaza »

✔ Лучший ответ — сформирован автоматически
gpu2000 писал(а):файнтюн не умеет закладывать знания, он учит форму
заезженная мантра, и верна она наполовину. continued pretraining на доменном корпусе знания закладывает нормально, практики полно. другое дело что у ТС не претрейн, а SFT на парах, и r=16 для знаний это вообще ни о чем. но говорить что файнтюн в принципе не умеет в знания неправильно. просто это другой бюджет: сначала проход по докам в режиме претрейна, потом SFT, и только потом можно спорить
👍 ❤️1 🔥 😄 🤔2
Аватара пользователя
nodice
Сообщения: 36
Зарегистрирован: 10 май 2026, 23:58

Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Сообщение nodice »

@sabaza, r=16 для 14B и 40к примеров мало, если уж учить, то r=64 и alpha 128. но честно, для саппорт-бота соглашусь с RAG-веткой. сам такой путь прошел в 24м, выкинул лору, поднял qdrant с тикетами поверх базовой модели, заработало за неделю
👍1 ❤️ 🔥2 😄 🤔1
Аватара пользователя
spark_pilot
Сообщения: 16
Зарегистрирован: 15 май 2026, 05:44

Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Сообщение spark_pilot »

а юристов спросили? в тикетах персональные данные клиентов, ФИО, телефоны, номера договоров. вы это на арендованную A100 неизвестно в каком регионе отправили. 152-ФЗ передает привет, а если ДЦ не российский, то еще и трансграничка
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
k8s2000
Сообщения: 85
Зарегистрирован: 11 май 2026, 00:27

Re: QLoRA на 40к саппорт-тикетов: месяц работы, модель отупела. Где я облажался?

Сообщение k8s2000 »

@sabaza, ну началось, в каждом треде про файнтюн найдется человек с 152-ФЗ. данные при нормальном пайплайне обезличиваются на этапе подготовки, один проход регулярок и NER. по теме: ТС, собери eval сет из 500 свежих тикетов, прогони базу против тюна вслепую, потом уже крути гиперпараметры. без метрики так и будешь месяцы в помойку носить
👍1 ❤️1 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей