Файнтюнил Qwen на базе тикетов через QLoRA и получил лоботомита, разбор факапа

ansiblemain · Сообщение **ansiblemain** » 10 июн 2026, 16:32

Хотел саппорт-бота на своих данных. Выгрузил 12 тысяч тикетов из хелпдеска, почистил, собрал пары вопрос-ответ. Qwen3.5-14B, QLoRA через unsloth на одной 3090, r=16, alpha=32, lr 2e-4, 3 эпохи. Лосс падал красиво, я уже прикидывал, как премию просить.
На выходе: модель идеально скопировала стиль наших саппортов, вплоть до фирменного "ожидайте, заявка передана инженеру". Проблема в том, что она теперь отвечает так НА ВСЁ. Спрашиваю, сколько будет 2+2, отвечает, что заявка передана. Классический catastrophic forgetting, читал про него, думал, меня не коснётся.
Перезапустил с одной эпохой и lr 5e-5, лоботомия ушла, но фактам по продукту модель так и не научилась, путает версии и выдумывает несуществующие настройки. Похоже, мне с самого начала нужен был RAG, а не файнтюн. Кто-нибудь получал реальный профит от тюна на доменных данных или это у всех один и тот же грабельный маршрут?

coder_vlad · Сообщение **coder_vlad** » 10 июн 2026, 19:17

обряд инициации, все через лоботомита проходят. мой первый тюн на 7B отвечал на любой вопрос рецептом борща, потому что в датасет затесалась пачка кулинарки с форума. до сих пор ржу

kube22 · Сообщение **kube22** » 10 июн 2026, 22:35

Датасет у тебя и есть проблема. 12к однотипных пар, модель выучила формат и забила на всё остальное. Стандартное лечение: подмешать процентов 30-40 общих инструкций (saiga-датасеты, alpaca-ru, что угодно generic), тогда стиль выучится, а мозги останутся. lr 2e-4 для 14B многовато, я бы 1e-4 потолком ставил. Ну и факты файнтюном не вбивают, тюн это про тон и формат. Старая мантра, но все хотят проверить на себе.

davkar · Сообщение **davkar** » 11 июн 2026, 01:09

ansiblemain писал(а):Похоже, мне с самого начала нужен был RAG, а не файнтюн

с оговоркой. чистый RAG поверх базовой модели отвечает правильно, но казённо, и юзеры это чувствуют. у нас в проде гибрид: 8B затюнена только на стиль и структуру ответа (около 3к примеров, одна эпоха), а факты тянет ретривер, bge-m3 плюс qdrant. связка бьёт голую 32B без тюна и по качеству, и по скорости. так что свой файнтюн не выкидывай, просто убери из него факты и оставь манеру

rdnckavn · Сообщение **rdnckavn** » 11 июн 2026, 02:27

а безопасника ты спросил? в тикетах телефоны, инн, номера договоров. затюнишь, а потом модель выплюнет чужой номер случайному юзеру. у нас за такой эксперимент голову открутили бы ещё на этапе выгрузки из хелпдеска, и правильно сделали бы

Файнтюнил Qwen на базе тикетов через QLoRA и получил лоботомита, разбор факапа

Файнтюнил Qwen на базе тикетов через QLoRA и получил лоботомита, разбор факапа

Re: Файнтюнил Qwen на базе тикетов через QLoRA и получил лоботомита, разбор факапа

Re: Файнтюнил Qwen на базе тикетов через QLoRA и получил лоботомита, разбор факапа

Re: Файнтюнил Qwen на базе тикетов через QLoRA и получил лоботомита, разбор факапа

Re: Файнтюнил Qwen на базе тикетов через QLoRA и получил лоботомита, разбор факапа

Кто сейчас на конференции