QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Рейтинг: 52.4% · 14 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
roman_io
Сообщения: 2
Зарегистрирован: Чт май 14, 2026 11:57 pm

QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Сообщение roman_io »

Всем привет. Читал что QLoRA якобы позволяет дообучить Llama 3 70B на одной A100 80GB. У меня доступ к одной такой карте в облаке (Lambda Labs, ~1.1$/час). Задача — файн-тюнинг на ~40k примеров для задачи классификации+извлечения сущностей в юридических текстах. Кто реально пробовал? Это вообще работает или надо брать минимум 2 карты? Интересует конкретика: batch size, gradient accumulation, сколько времени займёт, во что обойдётся.
👍 ❤️ 🔥 😄1 🤔
✔ Лучший ответ сформирован автоматически — kira_flow
Реально работает, сам делал в апреле. Конфиг который у меня завёлся: модель Llama-3-70B-Instruct в 4bit через bitsandbytes, LoRA rank=32, alpha=64, target_modules=["q_proj","v_proj","k_proj","o_proj","gate_proj","up_proj","down_proj"], lr=2e-4 cosine с warmup_ratio=0.05, batch_size=1, gradient_accumulation=16. На 40k примеров с длиной до 512 токенов — 3 эпохи за ~14 часов. Итого ~15 долларов на L…
Перейти к ответу →
Аватара пользователя
kira_flow
Сообщения: 3
Зарегистрирован: Пт май 15, 2026 1:29 pm

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Сообщение kira_flow »

✔ Лучший ответ — сформирован автоматически
Реально работает, сам делал в апреле. Конфиг который у меня завёлся: модель Llama-3-70B-Instruct в 4bit через bitsandbytes, LoRA rank=32, alpha=64, target_modules=["q_proj","v_proj","k_proj","o_proj","gate_proj","up_proj","down_proj"], lr=2e-4 cosine с warmup_ratio=0.05, batch_size=1, gradient_accumulation=16. На 40k примеров с длиной до 512 токенов — 3 эпохи за ~14 часов. Итого ~15 долларов на Lambda. Работает, но вылетает если примеры длиннее 1024 токенов — KV-кэш не влезает.
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
nastya7675
Сообщения: 3
Зарегистрирован: Пн май 18, 2026 7:30 am

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Сообщение nastya7675 »

@anton_py, У меня с 70B на одной A100 постоянно OOM при eval если не отключить gradient checkpointing для валидации отдельно. Решил так: добавил `eval_accumulation_steps=4` в TrainingArguments и `per_device_eval_batch_size=1`. Ещё важный момент — используй Unsloth если не используешь, у них патченный движок под QLoRA, на тех же данных у меня стало на 35% быстрее и памяти меньше жрёт. pip install unsloth, и FastLanguageModel.from_pretrained вместо стандартного AutoModel.
👍 ❤️2 🔥1 😄1 🤔
Аватара пользователя
olga_tcp
Сообщения: 34
Зарегистрирован: Пн май 11, 2026 12:27 am

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Сообщение olga_tcp »

Для юридических текстов на русском — вы точно Llama 3 хотите, а не что-то с нормальным русским претрейном? У Llama 3 русский так себе в базе, дообучение помогает но стартовая точка слабее чем у того же Qwen2.5-72B или Mistral-Nemo. Я бы посмотрел на Qwen2.5-72B-Instruct — он и в 4bit на A100 80GB встаёт, и русский у него значительно лучше из коробки.
👍2 ❤️1 🔥1 😄 🤔
Аватара пользователя
misha8491
Сообщения: 3
Зарегистрирован: Вс май 17, 2026 1:23 am

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Сообщение misha8491 »

Поддержу про Qwen2.5. Мы в конторе дообучали обе модели на похожей задаче (договоры, претензии). На нашем тестовом сете Qwen2.5-72B после QLoRA дал F1=0.91 по сущностям, Llama 3 70B — 0.87 при том же объёме обучающих данных. Разница ощутимая. Правда у Qwen лицензия более ограничительная для коммерции — проверьте если продукт.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
tcploop1339
Сообщения: 29
Зарегистрирован: Пн май 11, 2026 1:27 am

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Сообщение tcploop1339 »

@anton_py, Если совсем бюджетно и нужна скорость итераций — рекомендую сначала обкатать всё на 8B модели (Llama 3.1 8B или Qwen2.5-7B), там одна A100 вообще летает, batch можно поднять до 4-8. Когда пайплайн отлажен — переходи на 70B. Иначе рискуешь потратить 50 долларов на отладку конфига.
👍2 ❤️ 🔥 😄 🤔
Аватара пользователя
savva_io
Сообщения: 41
Зарегистрирован: Вс май 10, 2026 9:03 pm

Re: QLoRA на одной A100 — реально дообучить Llama 3 70B или это маркетинг?

Сообщение savva_io »

Итого по треду: QLoRA на 70B на одной A100 80GB — реально, ~15-20 долларов на 40k примеров 3 эпохи. Главные грабли: длинные последовательности (держи до 1024), eval OOM (eval_accumulation_steps), и выбор базовой модели под русский язык. Unsloth сильно ускоряет. Спасибо всем!
👍1 ❤️2 🔥 😄 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость