QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

vim_sre · Сообщение **vim_sre** » 27 май 2026, 09:02

Всем привет. Читал что QLoRA якобы позволяет дообучить Llama 3 70B на одной A100 80GB. У меня доступ к одной такой карте в облаке (Lambda Labs, ~1.1$/час). Задача — файн-тюнинг на ~40k примеров для задачи классификации+извлечения сущностей в юридических текстах. Кто реально пробовал? Это вообще работает или надо брать минимум 2 карты? Интересует конкретика: batch size, gradient accumulation, сколько времени займёт, во что обойдётся.

thumper416 · Сообщение **thumper416** » 27 май 2026, 15:02

Реально работает, сам делал в апреле. Конфиг который у меня завёлся: модель Llama-3-70B-Instruct в 4bit через bitsandbytes, LoRA rank=32, alpha=64, target_modules=["q_proj","v_proj","k_proj","o_proj","gate_proj","up_proj","down_proj"], lr=2e-4 cosine с warmup_ratio=0.05, batch_size=1, gradient_accumulation=16. На 40k примеров с длиной до 512 токенов — 3 эпохи за ~14 часов. Итого ~15 долларов на Lambda. Работает, но вылетает если примеры длиннее 1024 токенов — KV-кэш не влезает.

Manuelriere · Сообщение **Manuelriere** » 27 май 2026, 23:19

@vim_sre, У меня с 70B на одной A100 постоянно OOM при eval если не отключить gradient checkpointing для валидации отдельно. Решил так: добавил `eval_accumulation_steps=4` в TrainingArguments и `per_device_eval_batch_size=1`. Ещё важный момент — используй Unsloth если не используешь, у них патченный движок под QLoRA, на тех же данных у меня стало на 35% быстрее и памяти меньше жрёт. pip install unsloth, и FastLanguageModel.from_pretrained вместо стандартного AutoModel.

misha12 · Сообщение **misha12** » 28 май 2026, 07:17

Для юридических текстов на русском — вы точно Llama 3 хотите, а не что-то с нормальным русским претрейном? У Llama 3 русский так себе в базе, дообучение помогает но стартовая точка слабее чем у того же Qwen2.5-72B или Mistral-Nemo. Я бы посмотрел на Qwen2.5-72B-Instruct — он и в 4bit на A100 80GB встаёт, и русский у него значительно лучше из коробки.

ama123 · Сообщение **ama123** » 28 май 2026, 14:24

Поддержу про Qwen2.5. Мы в конторе дообучали обе модели на похожей задаче (договоры, претензии). На нашем тестовом сете Qwen2.5-72B после QLoRA дал F1=0.91 по сущностям, Llama 3 70B — 0.87 при том же объёме обучающих данных. Разница ощутимая. Правда у Qwen лицензия более ограничительная для коммерции — проверьте если продукт.

davkar · Сообщение **davkar** » 28 май 2026, 17:22

@Manuelriere, Если совсем бюджетно и нужна скорость итераций — рекомендую сначала обкатать всё на 8B модели (Llama 3.1 8B или Qwen2.5-7B), там одна A100 вообще летает, batch можно поднять до 4-8. Когда пайплайн отлажен — переходи на 70B. Иначе рискуешь потратить 50 долларов на отладку конфига.

ansible777 · Сообщение **ansible777** » 29 май 2026, 01:44

Итого по треду: QLoRA на 70B на одной A100 80GB — реально, ~15-20 долларов на 40k примеров 3 эпохи. Главные грабли: длинные последовательности (держи до 1024), eval OOM (eval_accumulation_steps), и выбор базовой модели под русский язык. Unsloth сильно ускоряет. Спасибо всем!

kube_fan · Сообщение **kube_fan** » 09 июн 2026, 01:22

Добавлю момент, который в треде не прозвучал: на юридических текстах длина решает больше, чем rank. Договоры в 512 токенов тупо не влезают — я резал по секциям с перекрытием и склеивал предсказания на инференсе, это дало больший прирост по F1, чем все игры с alpha и lr вместе взятые. И включите sample packing: короткие претензии забивают батч паддингом, у меня packing сократил время эпохи почти на треть на тех же данных.

Reesee · Сообщение **Reesee** » 09 июн 2026, 11:23

@ama123, про лицензию Qwen уточню, чтобы людей не пугать: у 2.5-72B не Apache, но коммерческое использование разрешено, ограничение срабатывает только на сервисах со 100M+ MAU. Для юридического SaaS это чистая формальность. А вот ваши цифры интереснее лицензии: 0.91 против 0.87 — вы спаны сущностей по точному совпадению считали или с частичным? На частичном разрыв между моделями обычно сжимается.

async2010 · Сообщение **async2010** » 09 июн 2026, 16:53

@davkar, поддержу с одной оговоркой: гиперпараметры с 8B на 70B один в один не переносятся. lr пришлось опускать с 2e-4 до 1e-4, иначе на 70B лосс скакал. Но сам подход золотой — пайплайн данных, шаблон промпта и скрипт метрик отлаживаются на маленькой модели идеально. У меня баг в разметке eval-сета вскрылся именно на 8B за полдоллара, а не на 70B за двадцать.

QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Кто сейчас на конференции