Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Рейтинг: 20.7% · 1 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
Version
Сообщения: 68
Зарегистрирован: 11 май 2026, 03:17

Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Сообщение Version »

Расскажу, как убил неделю, чтобы вы так не делали.

Задача: научить модель отвечать в стиле нашего саппорта, с нашими формулировками и знанием продукта. Выгрузил из хелпдеска 8 тысяч закрытых тикетов как есть, вопрос клиента плюс ответ оператора, сконвертил в шарегпт формат. Unsloth, QLoRA на 3090: r=32, alpha=64, lr 2e-4, 3 эпохи, batch 2 с grad accum 8. Училось часа четыре, лосс падал красиво, с 1.8 до 0.4.

Результат. Модель действительно отвечает голосом саппорта. Проблема в том, что ТОЛЬКО им. Спрашиваю про погоду, отвечает ваше обращение зарегистрировано, ожидайте. Прошу функцию на питоне, извиняется за доставленные неудобства. Половину фактов о продукте при этом путает. Стиль выучила, знаний нет, а заодно забыла все, что умела раньше.

Где я облажался конкретно? Подозреваю, что сразу везде, но интересно, что главное.
👍 ❤️2 🔥1 😄1 🤔
✔ Лучший ответ сформирован автоматически — sergeyserov
Version писал(а):Выгрузил из хелпдеска 8 тысяч закрытых тикетов как есть вот тут главная могила, а не в гиперпараметрах. как есть значит, что в датасете половина ответов это перезагрузите роутер, обращение передано специалисту и спасибо за ожидание. ты буквально учил модель отписываться. сначала чистка: выкинуть шаблонные ответы, дедупликация, оставить только тикеты, где оператор реально решил во…
Перейти к ответу →
Аватара пользователя
maverick5
Сообщения: 4
Зарегистрирован: 19 май 2026, 11:11

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Сообщение maverick5 »

@Version, lr 2e-4 для 14B это конский, такие лернинги для лор на мелочи типа 1-3B. на 14B ставь 5e-5 и одну эпоху. 3 эпохи на 8к примеров, модель тупо выучила датасет наизусть, твой лосс 0.4 ровно об этом и говорит
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
sergeyserov
Сообщения: 56
Зарегистрирован: 12 май 2026, 05:59

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Сообщение sergeyserov »

✔ Лучший ответ — сформирован автоматически
Version писал(а):Выгрузил из хелпдеска 8 тысяч закрытых тикетов как есть
вот тут главная могила, а не в гиперпараметрах. как есть значит, что в датасете половина ответов это перезагрузите роутер, обращение передано специалисту и спасибо за ожидание. ты буквально учил модель отписываться. сначала чистка: выкинуть шаблонные ответы, дедупликация, оставить только тикеты, где оператор реально решил вопрос с конкретикой. из 8к после чистки останется тысячи полторы, и это нормально, качество тут бьет количество
👍1 ❤️2 🔥 😄 🤔
Аватара пользователя
barbs
Сообщения: 50
Зарегистрирован: 19 май 2026, 04:16

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Сообщение barbs »

классическое катастрофическое забывание, на чистом узком датасете по-другому и не бывает. подмешай 10-15% общих инструкций, любой открытый русский инстракт-сет сойдет, чтобы базовые навыки не вымывались. и target_modules глянь: если указал все подряд, попробуй только q_proj и v_proj, деградации заметно меньше
👍1 ❤️2 🔥 😄 🤔
Аватара пользователя
bruce01
Сообщения: 15
Зарегистрирован: 10 май 2026, 23:21

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Сообщение bruce01 »

а знания продукта файнтюном вообще не вливают, лора это про стиль и формат. факты в лоре не живут, они либо в базовой модели, либо в контексте. так что факты путает не потому что плохо учил, метод просто не для этого. под знания тебе rag поверх уже файнтюненной модели
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
icu2
Сообщения: 65
Зарегистрирован: 14 май 2026, 06:04

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Сообщение icu2 »

maverick5 писал(а):на 14B ставь 5e-5 и одну эпоху
lr тут вторичен, проверь лучше chat template. qwen3 обучен с thinking блоками, и если датасет сконвертирован без учета шаблона или с кривыми ролями, модель ломается ровно как у ОП, залипает в одном формате ответа. видел такое уже раза три, у анслота в ноутбуках для qwen3 это отдельно разжевано. и да, лосс падал красиво без eval сплита это ни о чем. отложи 5% тикетов и смотри eval loss, он у тебя наверняка рос уже с середины первой эпохи
👍1 ❤️1 🔥1 😄 🤔1
Аватара пользователя
burg0809
Сообщения: 22
Зарегистрирован: 15 май 2026, 01:05

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Сообщение burg0809 »

оффтоп, но какой power limit ставил на 3090 для тренировки? моя на 350 ваттах через два часа уходит в тротлинг, не пойму, это норм для qlora или пора пасту менять
👍 ❤️1 🔥 😄 🤔1
Аватара пользователя
kazuom
Сообщения: 21
Зарегистрирован: 22 май 2026, 16:23

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Сообщение kazuom »

bruce01 писал(а):факты в лоре не живут, они либо в базовой модели, либо в контексте
слишком категорично. живут, если каждый факт в датасете перефразирован раз по 10-20. на одинаковых формулировках не закрепляется, а на вариациях вполне, сам так вшивал спеку внутреннего api в 8B, работало. другое дело, что для тикетов саппорта это месяц возни с синтетикой, и rag банально дешевле раз в сто. так что вывод у тебя верный, аргумент кривой
👍1 ❤️ 🔥 😄 🤔2
Аватара пользователя
solidity2024
Сообщения: 40
Зарегистрирован: 11 май 2026, 02:34

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Сообщение solidity2024 »

@burg0809, 350 ватт для qlora это ты печку топишь. ставь power limit 280, скорость упадет процента на 3-5, температуры на 10-15 градусов ниже. и тротлит у 3090 обычно не чип, а память. глянь в hwinfo memory junction, если там за 100, то паста не спасет, надо термопрокладки на vram менять, у 3090 они с завода так себе
👍1 ❤️1 🔥 😄 🤔1
Аватара пользователя
dannii
Сообщения: 20
Зарегистрирован: 13 май 2026, 20:46

Re: Зафайнтюнил Qwen3 14B на тикетах саппорта и получил лоботомита. Вскрытие фейла

Сообщение dannii »

ОП, прежде чем перезапускать тюн, сделай совсем тупой тест: базовый qwen3, в системник 15 лучших тикетов плюс выжимка по продукту. у нас такой сетап без всякого обучения закрыл процентов 80 сценариев саппорта, и никто неделю не страдал. файнтюн в итоге оказался нужен примерно никому
👍1 ❤️ 🔥2 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость