Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Version · Сообщение **Version** » 13 май 2026, 09:42

Расскажу, как убил неделю, чтобы вы так не делали.

Задача: научить модель отвечать в стиле нашего саппорта, с нашими формулировками и знанием продукта. Выгрузил из хелпдеска 8 тысяч закрытых тикетов как есть, вопрос клиента плюс ответ оператора, сконвертил в шарегпт формат. Unsloth, QLoRA на 3090: r=32, alpha=64, lr 2e-4, 3 эпохи, batch 2 с grad accum 8. Училось часа четыре, лосс падал красиво, с 1.8 до 0.4.

Результат. Модель действительно отвечает голосом саппорта. Проблема в том, что ТОЛЬКО им. Спрашиваю про погоду, отвечает ваше обращение зарегистрировано, ожидайте. Прошу функцию на питоне, извиняется за доставленные неудобства. Половину фактов о продукте при этом путает. Стиль выучила, знаний нет, а заодно забыла все, что умела раньше.

Где я облажался конкретно? Подозреваю, что сразу везде, но интересно, что главное.

maverick5 · Сообщение **maverick5** » 13 май 2026, 13:40

@Version, lr 2e-4 для 14B это конский, такие лернинги для лор на мелочи типа 1-3B. на 14B ставь 5e-5 и одну эпоху. 3 эпохи на 8к примеров, модель тупо выучила датасет наизусть, твой лосс 0.4 ровно об этом и говорит

sergeyserov · Сообщение **sergeyserov** » 13 май 2026, 15:25

Version писал(а):Выгрузил из хелпдеска 8 тысяч закрытых тикетов как есть

вот тут главная могила, а не в гиперпараметрах. как есть значит, что в датасете половина ответов это перезагрузите роутер, обращение передано специалисту и спасибо за ожидание. ты буквально учил модель отписываться. сначала чистка: выкинуть шаблонные ответы, дедупликация, оставить только тикеты, где оператор реально решил вопрос с конкретикой. из 8к после чистки останется тысячи полторы, и это нормально, качество тут бьет количество

barbs · Сообщение **barbs** » 13 май 2026, 20:00

классическое катастрофическое забывание, на чистом узком датасете по-другому и не бывает. подмешай 10-15% общих инструкций, любой открытый русский инстракт-сет сойдет, чтобы базовые навыки не вымывались. и target_modules глянь: если указал все подряд, попробуй только q_proj и v_proj, деградации заметно меньше

bruce01 · Сообщение **bruce01** » 13 май 2026, 21:54

а знания продукта файнтюном вообще не вливают, лора это про стиль и формат. факты в лоре не живут, они либо в базовой модели, либо в контексте. так что факты путает не потому что плохо учил, метод просто не для этого. под знания тебе rag поверх уже файнтюненной модели

icu2 · Сообщение **icu2** » 14 май 2026, 02:50

maverick5 писал(а):на 14B ставь 5e-5 и одну эпоху

lr тут вторичен, проверь лучше chat template. qwen3 обучен с thinking блоками, и если датасет сконвертирован без учета шаблона или с кривыми ролями, модель ломается ровно как у ОП, залипает в одном формате ответа. видел такое уже раза три, у анслота в ноутбуках для qwen3 это отдельно разжевано. и да, лосс падал красиво без eval сплита это ни о чем. отложи 5% тикетов и смотри eval loss, он у тебя наверняка рос уже с середины первой эпохи

burg0809 · Сообщение **burg0809** » 14 май 2026, 07:24

оффтоп, но какой power limit ставил на 3090 для тренировки? моя на 350 ваттах через два часа уходит в тротлинг, не пойму, это норм для qlora или пора пасту менять

kazuom · Сообщение **kazuom** » 11 июн 2026, 11:39

bruce01 писал(а):факты в лоре не живут, они либо в базовой модели, либо в контексте

слишком категорично. живут, если каждый факт в датасете перефразирован раз по 10-20. на одинаковых формулировках не закрепляется, а на вариациях вполне, сам так вшивал спеку внутреннего api в 8B, работало. другое дело, что для тикетов саппорта это месяц возни с синтетикой, и rag банально дешевле раз в сто. так что вывод у тебя верный, аргумент кривой

solidity2024

@burg0809, 350 ватт для qlora это ты печку топишь. ставь power limit 280, скорость упадет процента на 3-5, температуры на 10-15 градусов ниже. и тротлит у 3090 обычно не чип, а память. глянь в hwinfo memory junction, если там за 100, то паста не спасет, надо термопрокладки на vram менять, у 3090 они с завода так себе

dannii · Сообщение **dannii** » 12 июн 2026, 05:32

ОП, прежде чем перезапускать тюн, сделай совсем тупой тест: базовый qwen3, в системник 15 лучших тикетов плюс выжимка по продукту. у нас такой сетап без всякого обучения закрыл процентов 80 сценариев саппорта, и никто неделю не страдал. файнтюн в итоге оказался нужен примерно никому

Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Кто сейчас на конференции