Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Рейтинг: 43.9% · 3 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
misha12
Сообщения: 67
Зарегистрирован: 11 май 2026, 04:09

Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Сообщение misha12 »

Файнтюню Qwen2.5-7B-Instruct под русскоязычную поддержку на 12к диалогов через LoRA, и упёрся в то что модель либо не учится либо забывает базу и начинает нести чушь. Конфиг сейчас такой: rank 16, alpha 32, lr 2e-4, 3 эпохи, target_modules только q_proj и v_proj. Карта одна, 4090 24гб, влезаю в bf16 с батчем 4 и grad accum 8. После обучения на тестовых вопросах модель отвечает шаблонно и теряет способность в обычный диалог. Кто реально доводил до прода такие файнтюны, какие настройки давали адекватный результат, и где я мог накосячить с данными или лром.
👍 ❤️ 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — coder_vlad
@golang23, ок давай по делу, потому что советы выше частично верные но без системы. я года полтора кручу LoRA файнтюны под русские домены, вот что реально дало результат на похожей задаче (саппорт, ~15к пар). Данные. Сначала проверь не в лр дело а в данных. Если у тебя 12к диалогов и модель отвечает шаблонно, скорее всего у тебя в датасете однотипные ответы и она просто выучила паттерн. Глянь рас…
Перейти к ответу →
Аватара пользователя
qcdeed
Сообщения: 57
Зарегистрирован: 11 май 2026, 20:16

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Сообщение qcdeed »

target_modules только q_proj и v_proj это твоя главная ошибка. бери все линейные слои: q,k,v,o,gate,up,down. на 7б разница огромная, особенно если домен отличается от базового претрейна
👍 ❤️ 🔥1 😄1 🤔
Аватара пользователя
golang23
Сообщения: 7
Зарегистрирован: 17 май 2026, 22:14

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Сообщение golang23 »

@автор lr 2e-4 на 3 эпохи это перебор для 12к примеров, ты модель пережигаешь. попробуй 1e-4 и одну эпоху для начала, посмотри на eval loss. если падает а потом растёт это оверфит
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
seniorsamurai
Сообщения: 44
Зарегистрирован: 15 май 2026, 19:29

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Сообщение seniorsamurai »

qcdeed писал(а):бери все линейные слои: q,k,v,o,gate,up,down
это да но тогда rank 16 маловато станет, при всех модулях имеет смысл поднять до 32-64 иначе адаптер не вытянет. и alpha держи равной rank или 2*rank, не больше, иначе градиенты скачут
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
coder_vlad
Сообщения: 72
Зарегистрирован: 11 май 2026, 01:57

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Сообщение coder_vlad »

✔ Лучший ответ — сформирован автоматически
@golang23, ок давай по делу, потому что советы выше частично верные но без системы. я года полтора кручу LoRA файнтюны под русские домены, вот что реально дало результат на похожей задаче (саппорт, ~15к пар).

Данные. Сначала проверь не в лр дело а в данных. Если у тебя 12к диалогов и модель отвечает шаблонно, скорее всего у тебя в датасете однотипные ответы и она просто выучила паттерн. Глянь распределение длин ответов и уникальность первых 10 токенов. У меня было что 40 процентов ответов начинались с Здравствуйте, и модель это и заучила в первую очередь. Почистил, стало живее.

Формат. Обязательно бери ровно тот chat template что у Qwen, через tokenizer.apply_chat_template, не собирай промпт руками. И маскируй лосс на токенах юзера, считай лосс только по ответу ассистента (train_on_responses_only в unsloth или руками через labels=-100). Если ты учишь модель предсказывать и реплики юзера тоже, получаешь ровно деградацию диалога которую описываешь.

Гиперпараметры что у меня сошлись: все линейные модули, rank 32 alpha 32, lr 1e-4 с косинусом и warmup 3 процента, 2 эпохи, weight decay 0.01, batch 4 grad accum 4. lora_dropout 0.05. На 4090 влезает.

Забывание базы. То что модель тупеет в обычном диалоге это классика, лечится подмешиванием 10-20 процентов общих инструкций не из твоего домена. Я брал кусок из открытого saiga датасета, перемешивал. После этого модель и домен знает и в свободный разговор может.

И замеряй не только на трейн лоссе. Сделай хоть 50 ручных тестовых вопросов которых нет в трейне и прогоняй после каждого чекпойнта глазами. eval loss обманчив.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
magic123
Сообщения: 18
Зарегистрирован: 12 май 2026, 12:59

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Сообщение magic123 »

unsloth короче ставь и не мучайся, он сам нормальные дефолты подставляет и в 2 раза быстрее на 4090. ручками собирать template в 2026 это мазохизм
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
asyncpro
Сообщения: 17
Зарегистрирован: 15 май 2026, 10:37

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Сообщение asyncpro »

coder_vlad писал(а):подмешиванием 10-20 процентов общих инструкций не из твоего домена
вот это ключевое что все забывают. без реплея модель всегда схлопывается в домен. плюс единственный нормальный совет в треде это считать лосс только по ответам. остальное вторично
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
koneko2
Сообщения: 11
Зарегистрирован: 19 май 2026, 11:18

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Сообщение koneko2 »

а зачем вообще файнтюнить под саппорт, RAG + хороший системный промпт даёт 80 процентов результата за день работы вместо недели с тренировкой. файнтюн нужен когда у тебя стиль/формат жёсткий или domain language которого в базе нет
👍3 ❤️ 🔥 😄 🤔
Аватара пользователя
maja33
Сообщения: 38
Зарегистрирован: 12 май 2026, 10:17

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Сообщение maja33 »

@khovanskiy_dev по моему опыту 12к маловато всё равно, я бы добил хотя бы до 30-40к аугментацией через ту же модель (перефраз вопросов). качество прыгнуло заметно когда вышел за 25к
👍1 ❤️2 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость