Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит
Рейтинг: 48.7% · 7 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит
Зафайнтюнил Llama 3.1 8B через LoRA на нашем датасете поддержки (30к диалогов на русском), на валидации все метрики красивые, exact match по интентам 0.91 против 0.78 у базовой. Выкатили в прод на реальные тикеты, операторы воют что стало хуже базовой, модель путается, выдумывает несуществующие тарифы. Как так, на валидации же лучше? Где я наврал себе с метриками.
✔ Лучший ответ сформирован автоматически — wasm_enjoyer
byrdie писал(а):на валидации же лучше потому что валидация у тебя протухла или текла. Самый частый кейс: дедупликацию не делал перед сплитом, и почти одинаковые диалоги попали и в трейн и в вал. Модель их по сути запомнила. Прогони дедуп по эмбеддингам (хоть e5-large), выкинь near-duplicates с косинусом выше 0.95, пересплить по времени а не рандомом, и переоцени. Готов поспорить что твои 0.91 сло…
- wasm_enjoyer
- Сообщения: 33
- Зарегистрирован: 17 май 2026, 14:35
Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит
✔ Лучший ответ — сформирован автоматически
потому что валидация у тебя протухла или текла. Самый частый кейс: дедупликацию не делал перед сплитом, и почти одинаковые диалоги попали и в трейн и в вал. Модель их по сути запомнила. Прогони дедуп по эмбеддингам (хоть e5-large), выкинь near-duplicates с косинусом выше 0.95, пересплить по времени а не рандомом, и переоцени. Готов поспорить что твои 0.91 сложатся до 0.8 и ниже, и тогда разрыв с продом объяснится. И да, intent accuracy выкинь, собери небольшой золотой набор из 200 реальных свежих тикетов и размечай руками faithfulness и helpfulness, хоть на трёх асессорах. Оффлайн метрика которая не коррелирует с проддовой болью это просто самообман в красивых цифрах.byrdie писал(а):на валидации же лучше
- spark_pilot
- Сообщения: 16
- Зарегистрирован: 15 май 2026, 05:44
Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит
не факт что ранг виноват. Я на r=64 нормально учил без катастрофы. Скорее число эпох и lr. Если 5+ эпох на 30к и lr 2e-4 то да, спалил. Но списывать всё на ранг неправильно, у меня r=128 жил отлично на 50к когда early stopping по нормальной метрике стоялklapproth писал(а):если ты на r=64 alpha 128 30к примеров крутил много эпох то ты переобучил адаптер
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Accuracy 0.97 на проде модель оказалась бесполезной, как мы прокололись на метрике
7 ответов · 1 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость