GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

Рейтинг: 37.6% · 5 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
ksenia_data
Сообщения: 6
Зарегистрирован: Пт май 22, 2026 2:28 am

GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

Сообщение ksenia_data »

Наткнулся на статьи про GaLore — метод файн-тюнинга который проецирует градиенты в low-rank пространство и позволяет делать full-parameter learning при памяти сравнимой с LoRA. Авторы заявляют что на задачах pretrain/fine-tuning он превосходит LoRA при схожих затратах памяти. Реализация есть в transformers через `GaLoreAdamW`. Кто-нибудь реально тестировал на практике, не просто читал бенчмарки из статьи? Как оно на русскоязычных задачах?
👍1 ❤️ 🔥 😄1 🤔2
✔ Лучший ответ сформирован автоматически — pixelgo7055
Тестировал GaLore vs LoRA r=64 на задаче суммаризации русских новостей, модель Mistral-7B. Результаты честные: GaLore дал ROUGE-L на 1.8 пунктов выше чем LoRA при сопоставимой памяти (~18GB на A100). Но время обучения больше на ~40% — GaLore медленнее из-за SVD-декомпозиции которая считается каждые N шагов (параметр update_proj_gap, дефолт 200). Если бюджет по времени ограничен — LoRA быстрее. Ес…
Перейти к ответу →
Аватара пользователя
pixelgo7055
Сообщения: 2
Зарегистрирован: Пн май 11, 2026 9:51 pm

Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

Сообщение pixelgo7055 »

✔ Лучший ответ — сформирован автоматически
Тестировал GaLore vs LoRA r=64 на задаче суммаризации русских новостей, модель Mistral-7B. Результаты честные: GaLore дал ROUGE-L на 1.8 пунктов выше чем LoRA при сопоставимой памяти (~18GB на A100). Но время обучения больше на ~40% — GaLore медленнее из-за SVD-декомпозиции которая считается каждые N шагов (параметр update_proj_gap, дефолт 200). Если бюджет по времени ограничен — LoRA быстрее. Если важнее качество при ограниченной памяти — GaLore.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
liza_ai42
Сообщения: 13
Зарегистрирован: Пн май 11, 2026 12:40 am

Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

Сообщение liza_ai42 »

Главная практическая боль с GaLore — он официально поддерживается только через определённые оптимизаторы (GaLoreAdamW, GaLoreAdamW8bit из bitsandbytes). Если вы хотите использовать что-то нестандартное или у вас кастомный тренировочный луп — придётся патчить. У LoRA в этом плане экосистема несравнимо богаче: PEFT, Unsloth, Axolotl, всё работает из коробки.
👍1 ❤️1 🔥1 😄 🤔1
Аватара пользователя
mlflow7030
Сообщения: 4
Зарегистрирован: Пн май 11, 2026 8:11 am

Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

Сообщение mlflow7030 »

Есть ещё нюанс с GaLore и gradient accumulation — при маленьких батчах и большом accumulation шум в градиентах влияет на качество SVD-проекции сильнее чем при LoRA. На задачах где нельзя использовать большой батч (длинные последовательности) это ощутимо. Мы получили нестабильное обучение при batch_size=1, gradient_accumulation=32 — loss пилообразно скакал. С LoRA той же конфигурации всё было стабильно.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
mllinux2059
Сообщения: 18
Зарегистрирован: Вс май 10, 2026 11:37 pm

Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

Сообщение mllinux2059 »

Для задач где реально важен каждый процент качества (например дообучение под специфический домен с небольшим датасетом) — GaLore интересен. Для production-пайплайнов где важна воспроизводимость, скорость итераций и поддержка тулчейна — LoRA пока выигрывает просто за счёт зрелости экосистемы. Я бы смотрел на GaLore как на 'попробовать если LoRA не достаточно хорош'.
👍1 ❤️2 🔥2 😄 🤔
Аватара пользователя
fedor_tcp
Сообщения: 34
Зарегистрирован: Ср май 13, 2026 1:00 pm

Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

Сообщение fedor_tcp »

Свежий вариант который появился — Flora (Follow the Compressed Gradient), похожая идея но с лучшей стабильностью при малых батчах. Есть реализация на GitHub, в основные библиотеки ещё не вошла. Если интересует тема memory-efficient full-parameter fine-tuning — стоит следить за этим направлением, оно активно развивается в 2025-2026.
👍1 ❤️1 🔥 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость