Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

byrdie · Сообщение **byrdie** » 31 май 2026, 19:29

Зафайнтюнил Llama 3.1 8B через LoRA на нашем датасете поддержки (30к диалогов на русском), на валидации все метрики красивые, exact match по интентам 0.91 против 0.78 у базовой. Выкатили в прод на реальные тикеты, операторы воют что стало хуже базовой, модель путается, выдумывает несуществующие тарифы. Как так, на валидации же лучше? Где я наврал себе с метриками.

rupaniii · Сообщение **rupaniii** » 31 май 2026, 23:00

@byrdie, классический лик. У тебя валидация скорее всего из того же распределения что трейн, а реальные тикеты другие. Покажи как сплитил

magic123 · Сообщение **magic123** » 31 май 2026, 23:36

exact match по интентам это вообще не та метрика которой стоит мерить генеративку. Ты меришь попал в класс или нет, а галлюцинации тарифов этим вообще не ловятся. Метрика не про то что болит у юзеров

wasm_enjoyer

byrdie писал(а):на валидации же лучше

потому что валидация у тебя протухла или текла. Самый частый кейс: дедупликацию не делал перед сплитом, и почти одинаковые диалоги попали и в трейн и в вал. Модель их по сути запомнила. Прогони дедуп по эмбеддингам (хоть e5-large), выкинь near-duplicates с косинусом выше 0.95, пересплить по времени а не рандомом, и переоцени. Готов поспорить что твои 0.91 сложатся до 0.8 и ниже, и тогда разрыв с продом объяснится. И да, intent accuracy выкинь, собери небольшой золотой набор из 200 реальных свежих тикетов и размечай руками faithfulness и helpfulness, хоть на трёх асессорах. Оффлайн метрика которая не коррелирует с проддовой болью это просто самообман в красивых цифрах.

markcack · Сообщение **markcack** » 01 июн 2026, 06:06

+1 про сплит по времени. рандом сплит на диалогах поддержки это сразу лик, у тебя сезонность и одни и те же юзеры в трейне и вале

klapproth · Сообщение **klapproth** » 01 июн 2026, 08:41

@markcack, а лора какого ранга? если ты на r=64 alpha 128 30к примеров крутил много эпох то ты переобучил адаптер на трейн, отсюда и выдуманные тарифы, модель воспроизводит паттерны трейна а не реальность

spark_pilot · Сообщение **spark_pilot** » 01 июн 2026, 11:26

klapproth писал(а):если ты на r=64 alpha 128 30к примеров крутил много эпох то ты переобучил адаптер

не факт что ранг виноват. Я на r=64 нормально учил без катастрофы. Скорее число эпох и lr. Если 5+ эпох на 30к и lr 2e-4 то да, спалил. Но списывать всё на ранг неправильно, у меня r=128 жил отлично на 50к когда early stopping по нормальной метрике стоял

k8s2000 · Сообщение **k8s2000** » 01 июн 2026, 11:45

выдумывает тарифы это вообще про данные а не про обучение. У тебя в трейне тарифы которых уже нет? модель честно их выучила. Чистить надо источник

Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Re: Дообучение llama 3 на русских данных, accuracy выросла а в проде модель тупит

Кто сейчас на конференции