Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

misha12 · Сообщение **misha12** » 04 июн 2026, 03:08

Файнтюню Qwen2.5-7B-Instruct под русскоязычную поддержку на 12к диалогов через LoRA, и упёрся в то что модель либо не учится либо забывает базу и начинает нести чушь. Конфиг сейчас такой: rank 16, alpha 32, lr 2e-4, 3 эпохи, target_modules только q_proj и v_proj. Карта одна, 4090 24гб, влезаю в bf16 с батчем 4 и grad accum 8. После обучения на тестовых вопросах модель отвечает шаблонно и теряет способность в обычный диалог. Кто реально доводил до прода такие файнтюны, какие настройки давали адекватный результат, и где я мог накосячить с данными или лром.

qcdeed · Сообщение **qcdeed** » 04 июн 2026, 06:57

target_modules только q_proj и v_proj это твоя главная ошибка. бери все линейные слои: q,k,v,o,gate,up,down. на 7б разница огромная, особенно если домен отличается от базового претрейна

golang23 · Сообщение **golang23** » 04 июн 2026, 11:09

@автор lr 2e-4 на 3 эпохи это перебор для 12к примеров, ты модель пережигаешь. попробуй 1e-4 и одну эпоху для начала, посмотри на eval loss. если падает а потом растёт это оверфит

seniorsamurai

qcdeed писал(а):бери все линейные слои: q,k,v,o,gate,up,down

это да но тогда rank 16 маловато станет, при всех модулях имеет смысл поднять до 32-64 иначе адаптер не вытянет. и alpha держи равной rank или 2*rank, не больше, иначе градиенты скачут

coder_vlad · Сообщение **coder_vlad** » 04 июн 2026, 18:12

@golang23, ок давай по делу, потому что советы выше частично верные но без системы. я года полтора кручу LoRA файнтюны под русские домены, вот что реально дало результат на похожей задаче (саппорт, ~15к пар).

Данные. Сначала проверь не в лр дело а в данных. Если у тебя 12к диалогов и модель отвечает шаблонно, скорее всего у тебя в датасете однотипные ответы и она просто выучила паттерн. Глянь распределение длин ответов и уникальность первых 10 токенов. У меня было что 40 процентов ответов начинались с Здравствуйте, и модель это и заучила в первую очередь. Почистил, стало живее.

Формат. Обязательно бери ровно тот chat template что у Qwen, через tokenizer.apply_chat_template, не собирай промпт руками. И маскируй лосс на токенах юзера, считай лосс только по ответу ассистента (train_on_responses_only в unsloth или руками через labels=-100). Если ты учишь модель предсказывать и реплики юзера тоже, получаешь ровно деградацию диалога которую описываешь.

Гиперпараметры что у меня сошлись: все линейные модули, rank 32 alpha 32, lr 1e-4 с косинусом и warmup 3 процента, 2 эпохи, weight decay 0.01, batch 4 grad accum 4. lora_dropout 0.05. На 4090 влезает.

Забывание базы. То что модель тупеет в обычном диалоге это классика, лечится подмешиванием 10-20 процентов общих инструкций не из твоего домена. Я брал кусок из открытого saiga датасета, перемешивал. После этого модель и домен знает и в свободный разговор может.

И замеряй не только на трейн лоссе. Сделай хоть 50 ручных тестовых вопросов которых нет в трейне и прогоняй после каждого чекпойнта глазами. eval loss обманчив.

magic123 · Сообщение **magic123** » 04 июн 2026, 19:07

unsloth короче ставь и не мучайся, он сам нормальные дефолты подставляет и в 2 раза быстрее на 4090. ручками собирать template в 2026 это мазохизм

asyncpro · Сообщение **asyncpro** » 04 июн 2026, 21:06

coder_vlad писал(а):подмешиванием 10-20 процентов общих инструкций не из твоего домена

вот это ключевое что все забывают. без реплея модель всегда схлопывается в домен. плюс единственный нормальный совет в треде это считать лосс только по ответам. остальное вторично

koneko2 · Сообщение **koneko2** » 04 июн 2026, 23:57

а зачем вообще файнтюнить под саппорт, RAG + хороший системный промпт даёт 80 процентов результата за день работы вместо недели с тренировкой. файнтюн нужен когда у тебя стиль/формат жёсткий или domain language которого в базе нет

maja33 · Сообщение **maja33** » 05 июн 2026, 01:40

@khovanskiy_dev по моему опыту 12к маловато всё равно, я бы добил хотя бы до 30-40к аугментацией через ту же модель (перефраз вопросов). качество прыгнуло заметно когда вышел за 25к

Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Re: Файнтюн Qwen2.5 7B на своих данных через LoRA, какие гиперпараметры реально работают

Кто сейчас на конференции