Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Рейтинг: 48.7% · 7 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
byrdie
Сообщения: 2
Зарегистрирован: 21 май 2026, 03:39

Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Сообщение byrdie »

Зафайнтюнил Llama 3.1 8B через LoRA на нашем датасете поддержки (30к диалогов на русском), на валидации все метрики красивые, exact match по интентам 0.91 против 0.78 у базовой. Выкатили в прод на реальные тикеты, операторы воют что стало хуже базовой, модель путается, выдумывает несуществующие тарифы. Как так, на валидации же лучше? Где я наврал себе с метриками.
👍3 ❤️1 🔥1 😄2 🤔
✔ Лучший ответ сформирован автоматически — wasm_enjoyer
byrdie писал(а):на валидации же лучше потому что валидация у тебя протухла или текла. Самый частый кейс: дедупликацию не делал перед сплитом, и почти одинаковые диалоги попали и в трейн и в вал. Модель их по сути запомнила. Прогони дедуп по эмбеддингам (хоть e5-large), выкинь near-duplicates с косинусом выше 0.95, пересплить по времени а не рандомом, и переоцени. Готов поспорить что твои 0.91 сло…
Перейти к ответу →
Аватара пользователя
rupaniii
Сообщения: 13
Зарегистрирован: 14 май 2026, 06:37

Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Сообщение rupaniii »

@byrdie, классический лик. У тебя валидация скорее всего из того же распределения что трейн, а реальные тикеты другие. Покажи как сплитил
👍1 ❤️2 🔥 😄 🤔1
Аватара пользователя
magic123
Сообщения: 18
Зарегистрирован: 12 май 2026, 12:59

Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Сообщение magic123 »

exact match по интентам это вообще не та метрика которой стоит мерить генеративку. Ты меришь попал в класс или нет, а галлюцинации тарифов этим вообще не ловятся. Метрика не про то что болит у юзеров
👍4 ❤️ 🔥 😄 🤔
Аватара пользователя
wasm_enjoyer
Сообщения: 33
Зарегистрирован: 17 май 2026, 14:35

Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Сообщение wasm_enjoyer »

✔ Лучший ответ — сформирован автоматически
byrdie писал(а):на валидации же лучше
потому что валидация у тебя протухла или текла. Самый частый кейс: дедупликацию не делал перед сплитом, и почти одинаковые диалоги попали и в трейн и в вал. Модель их по сути запомнила. Прогони дедуп по эмбеддингам (хоть e5-large), выкинь near-duplicates с косинусом выше 0.95, пересплить по времени а не рандомом, и переоцени. Готов поспорить что твои 0.91 сложатся до 0.8 и ниже, и тогда разрыв с продом объяснится. И да, intent accuracy выкинь, собери небольшой золотой набор из 200 реальных свежих тикетов и размечай руками faithfulness и helpfulness, хоть на трёх асессорах. Оффлайн метрика которая не коррелирует с проддовой болью это просто самообман в красивых цифрах.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
markcack
Сообщения: 22
Зарегистрирован: 12 май 2026, 01:49

Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Сообщение markcack »

+1 про сплит по времени. рандом сплит на диалогах поддержки это сразу лик, у тебя сезонность и одни и те же юзеры в трейне и вале
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
klapproth
Сообщения: 6
Зарегистрирован: 13 май 2026, 19:30

Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Сообщение klapproth »

@markcack, а лора какого ранга? если ты на r=64 alpha 128 30к примеров крутил много эпох то ты переобучил адаптер на трейн, отсюда и выдуманные тарифы, модель воспроизводит паттерны трейна а не реальность
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
spark_pilot
Сообщения: 16
Зарегистрирован: 15 май 2026, 05:44

Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Сообщение spark_pilot »

klapproth писал(а):если ты на r=64 alpha 128 30к примеров крутил много эпох то ты переобучил адаптер
не факт что ранг виноват. Я на r=64 нормально учил без катастрофы. Скорее число эпох и lr. Если 5+ эпох на 30к и lr 2e-4 то да, спалил. Но списывать всё на ранг неправильно, у меня r=128 жил отлично на 50к когда early stopping по нормальной метрике стоял
👍 ❤️1 🔥2 😄 🤔1
Аватара пользователя
k8s2000
Сообщения: 85
Зарегистрирован: 11 май 2026, 00:27

Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Сообщение k8s2000 »

выдумывает тарифы это вообще про данные а не про обучение. У тебя в трейне тарифы которых уже нет? модель честно их выучила. Чистить надо источник
👍1 ❤️1 🔥 😄2 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость