Файнтюн или RAG для базы знаний, спорим уже неделю в команде
Рейтинг: 20.7% · 1 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Файнтюн или RAG для базы знаний, спорим уже неделю в команде
Холивар у нас в команде на ровном месте. Половина хочет файнтюнить Qwen2.5 на нашей документации чтобы модель знала продукт, вторая половина орёт что это бред и нужен только RAG. Бюджет на 4090 или аренду A100 в Селектеле есть. Кто прав? Задача чтобы саппорт-бот точно отвечал по нашим 8к страниц доков, которые ещё и меняются раз в неделю.
✔ Лучший ответ сформирован автоматически — RabbitNerd
Вот это правильное разделение, распишу потому что спор реально вечный и обе стороны частично правы. Правило простое. RAG это про знание что, файнтюн это про поведение как. Факты, цифры, актуальные процедуры, всё что меняется, только RAG. Дёшево обновлять, переиндексировал базу и готово, никакого переобучения. Для вашего кейса с еженедельными изменениями доков это безусловная основа. Файнтюн имеет…
Re: Файнтюн или RAG для базы знаний, спорим уже неделю в команде
плюсую, это решающий аргумент. файнтюн запекает знание в веса на момент обучения. поменялась цена в доке, всё, модель уверенно врёт старую и даже не знает что устарела. RAG достаёт актуальный документ в рантайме. для часто меняющихся фактов файнтюн это закладка миныwasmnerd писал(а):доки меняются раз в неделю и вы хотите файнтюнить?
Re: Файнтюн или RAG для базы знаний, спорим уже неделю в команде
вы оба путаете что чему учит. файнтюн не для фактов, факты в RAG. файнтюн для стиля, формата ответа, тона, для доменной лексики и для того чтобы модель перестала лить воду и отвечала как ваш саппорт. это ортогональные штуки а не или-или
- RabbitNerd
- Сообщения: 11
- Зарегистрирован: 25 май 2026, 05:20
Re: Файнтюн или RAG для базы знаний, спорим уже неделю в команде
✔ Лучший ответ — сформирован автоматически
Вот это правильное разделение, распишу потому что спор реально вечный и обе стороны частично правы.
Правило простое. RAG это про знание что, файнтюн это про поведение как.
Факты, цифры, актуальные процедуры, всё что меняется, только RAG. Дёшево обновлять, переиндексировал базу и готово, никакого переобучения. Для вашего кейса с еженедельными изменениями доков это безусловная основа.
Файнтюн имеет смысл поверх, когда базовая модель плохо держит ваш формат. Скажем нужно чтобы бот всегда отвечал по структуре проблема-причина-решение, использовал ваши внутренние термины правильно, не извинялся по десять раз и не лил маркетинг. На голом промпте это шатко, LoRA на паре тысяч хороших примеров диалогов саппорта стабилизирует поведение. Дообучать раз в квартал, не еженедельно.
Экономика. LoRA на Qwen2.5-7B влезает в одну 4090 за ночь, не нужна A100. Аренда A100 в Селектеле порядка 150-200 рублей в час, для дообучения 7B это лишнее, для 32B да. Но прежде чем тратить хоть рубль на файнтюн, выжмите RAG до предела, нормальный реранкер и чанкинг, и хороший системный промпт. В 80 процентах случаев после этого файнтюн оказывается не нужен вообще. Начните с RAG, измерьте качество, и только если упираетесь именно в формат и тон, добавляйте LoRA. Не наоборот.
Правило простое. RAG это про знание что, файнтюн это про поведение как.
Факты, цифры, актуальные процедуры, всё что меняется, только RAG. Дёшево обновлять, переиндексировал базу и готово, никакого переобучения. Для вашего кейса с еженедельными изменениями доков это безусловная основа.
Файнтюн имеет смысл поверх, когда базовая модель плохо держит ваш формат. Скажем нужно чтобы бот всегда отвечал по структуре проблема-причина-решение, использовал ваши внутренние термины правильно, не извинялся по десять раз и не лил маркетинг. На голом промпте это шатко, LoRA на паре тысяч хороших примеров диалогов саппорта стабилизирует поведение. Дообучать раз в квартал, не еженедельно.
Экономика. LoRA на Qwen2.5-7B влезает в одну 4090 за ночь, не нужна A100. Аренда A100 в Селектеле порядка 150-200 рублей в час, для дообучения 7B это лишнее, для 32B да. Но прежде чем тратить хоть рубль на файнтюн, выжмите RAG до предела, нормальный реранкер и чанкинг, и хороший системный промпт. В 80 процентах случаев после этого файнтюн оказывается не нужен вообще. Начните с RAG, измерьте качество, и только если упираетесь именно в формат и тон, добавляйте LoRA. Не наоборот.
- burnedsegfault
- Сообщения: 2
- Зарегистрирован: 05 июн 2026, 09:03
Re: Файнтюн или RAG для базы знаний, спорим уже неделю в команде
с qlora и в 24гб 14B можно впихнуть если батч 1 и градиент чекпоинтинг. но за ночь это оптимистично, у меня 7B на 5к примерах часа 4 на 4090 шло, 14B всю ночь и впритык по памятиRabbitNerd писал(а):LoRA на Qwen2.5-7B влезает в одну 4090 за ночь
- enjoyer_borya
- Сообщения: 3
- Зарегистрирован: 15 май 2026, 02:57
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- LoRA vs полный файнтюн в 2026 — кто-нибудь реально видит разницу в качестве?
11 ответов · 553 просмотров
-
-
- Как считать токены и не разориться на Claude Code в команде — реальные цифры
9 ответов · 19 просмотров
-
-
- Агенты пишут больше половины PR в команде — ревью стало бутылочным горлышком. Как разруливаете?
5 ответов · 9 просмотров
-
- Файнтюнил Qwen на базе тикетов через QLoRA и получил лоботомита, разбор факапа
4 ответов · 9 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость