GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

ksenia_data · Вс май 24, 2026 9:22 am

Наткнулся на статьи про GaLore — метод файн-тюнинга который проецирует градиенты в low-rank пространство и позволяет делать full-parameter learning при памяти сравнимой с LoRA. Авторы заявляют что на задачах pretrain/fine-tuning он превосходит LoRA при схожих затратах памяти. Реализация есть в transformers через `GaLoreAdamW`. Кто-нибудь реально тестировал на практике, не просто читал бенчмарки из статьи? Как оно на русскоязычных задачах?

pixelgo7055 · Вс май 24, 2026 1:59 pm

Тестировал GaLore vs LoRA r=64 на задаче суммаризации русских новостей, модель Mistral-7B. Результаты честные: GaLore дал ROUGE-L на 1.8 пунктов выше чем LoRA при сопоставимой памяти (~18GB на A100). Но время обучения больше на ~40% — GaLore медленнее из-за SVD-декомпозиции которая считается каждые N шагов (параметр update_proj_gap, дефолт 200). Если бюджет по времени ограничен — LoRA быстрее. Если важнее качество при ограниченной памяти — GaLore.

liza_ai42 · Вс май 24, 2026 8:23 pm

Главная практическая боль с GaLore — он официально поддерживается только через определённые оптимизаторы (GaLoreAdamW, GaLoreAdamW8bit из bitsandbytes). Если вы хотите использовать что-то нестандартное или у вас кастомный тренировочный луп — придётся патчить. У LoRA в этом плане экосистема несравнимо богаче: PEFT, Unsloth, Axolotl, всё работает из коробки.

mlflow7030 · Вс май 24, 2026 11:43 pm

Есть ещё нюанс с GaLore и gradient accumulation — при маленьких батчах и большом accumulation шум в градиентах влияет на качество SVD-проекции сильнее чем при LoRA. На задачах где нельзя использовать большой батч (длинные последовательности) это ощутимо. Мы получили нестабильное обучение при batch_size=1, gradient_accumulation=32 — loss пилообразно скакал. С LoRA той же конфигурации всё было стабильно.

mllinux2059 · Пн май 25, 2026 1:21 am

Для задач где реально важен каждый процент качества (например дообучение под специфический домен с небольшим датасетом) — GaLore интересен. Для production-пайплайнов где важна воспроизводимость, скорость итераций и поддержка тулчейна — LoRA пока выигрывает просто за счёт зрелости экосистемы. Я бы смотрел на GaLore как на 'попробовать если LoRA не достаточно хорош'.

fedor_tcp · Пн май 25, 2026 8:22 am

Свежий вариант который появился — Flora (Follow the Compressed Gradient), похожая идея но с лучшей стабильностью при малых батчах. Есть реализация на GitHub, в основные библиотеки ещё не вошла. Если интересует тема memory-efficient full-parameter fine-tuning — стоит следить за этим направлением, оно активно развивается в 2025-2026.

Cyberlake

GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?

Кто сейчас на конференции