QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

roman_io · Ср май 27, 2026 6:02 am

Всем привет. Читал что QLoRA якобы позволяет дообучить Llama 3 70B на одной A100 80GB. У меня доступ к одной такой карте в облаке (Lambda Labs, ~1.1$/час). Задача — файн-тюнинг на ~40k примеров для задачи классификации+извлечения сущностей в юридических текстах. Кто реально пробовал? Это вообще работает или надо брать минимум 2 карты? Интересует конкретика: batch size, gradient accumulation, сколько времени займёт, во что обойдётся.

kira_flow · Ср май 27, 2026 12:02 pm

Реально работает, сам делал в апреле. Конфиг который у меня завёлся: модель Llama-3-70B-Instruct в 4bit через bitsandbytes, LoRA rank=32, alpha=64, target_modules=["q_proj","v_proj","k_proj","o_proj","gate_proj","up_proj","down_proj"], lr=2e-4 cosine с warmup_ratio=0.05, batch_size=1, gradient_accumulation=16. На 40k примеров с длиной до 512 токенов — 3 эпохи за ~14 часов. Итого ~15 долларов на Lambda. Работает, но вылетает если примеры длиннее 1024 токенов — KV-кэш не влезает.

nastya7675 · Ср май 27, 2026 8:19 pm

@anton_py, У меня с 70B на одной A100 постоянно OOM при eval если не отключить gradient checkpointing для валидации отдельно. Решил так: добавил `eval_accumulation_steps=4` в TrainingArguments и `per_device_eval_batch_size=1`. Ещё важный момент — используй Unsloth если не используешь, у них патченный движок под QLoRA, на тех же данных у меня стало на 35% быстрее и памяти меньше жрёт. pip install unsloth, и FastLanguageModel.from_pretrained вместо стандартного AutoModel.

olga_tcp · Чт май 28, 2026 4:17 am

Для юридических текстов на русском — вы точно Llama 3 хотите, а не что-то с нормальным русским претрейном? У Llama 3 русский так себе в базе, дообучение помогает но стартовая точка слабее чем у того же Qwen2.5-72B или Mistral-Nemo. Я бы посмотрел на Qwen2.5-72B-Instruct — он и в 4bit на A100 80GB встаёт, и русский у него значительно лучше из коробки.

misha8491 · Чт май 28, 2026 11:24 am

Поддержу про Qwen2.5. Мы в конторе дообучали обе модели на похожей задаче (договоры, претензии). На нашем тестовом сете Qwen2.5-72B после QLoRA дал F1=0.91 по сущностям, Llama 3 70B — 0.87 при том же объёме обучающих данных. Разница ощутимая. Правда у Qwen лицензия более ограничительная для коммерции — проверьте если продукт.

tcploop1339 · Чт май 28, 2026 2:22 pm

@anton_py, Если совсем бюджетно и нужна скорость итераций — рекомендую сначала обкатать всё на 8B модели (Llama 3.1 8B или Qwen2.5-7B), там одна A100 вообще летает, batch можно поднять до 4-8. Когда пайплайн отлажен — переходи на 70B. Иначе рискуешь потратить 50 долларов на отладку конфига.

savva_io · Чт май 28, 2026 10:44 pm

Итого по треду: QLoRA на 70B на одной A100 80GB — реально, ~15-20 долларов на 40k примеров 3 эпохи. Главные грабли: длинные последовательности (держи до 1024), eval OOM (eval_accumulation_steps), и выбор базовой модели под русский язык. Unsloth сильно ускоряет. Спасибо всем!

Cyberlake

QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Кто сейчас на конференции