GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?
Рейтинг: 37.6% · 5 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- ksenia_data
- Сообщения: 6
- Зарегистрирован: Пт май 22, 2026 2:28 am
GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?
Наткнулся на статьи про GaLore — метод файн-тюнинга который проецирует градиенты в low-rank пространство и позволяет делать full-parameter learning при памяти сравнимой с LoRA. Авторы заявляют что на задачах pretrain/fine-tuning он превосходит LoRA при схожих затратах памяти. Реализация есть в transformers через `GaLoreAdamW`. Кто-нибудь реально тестировал на практике, не просто читал бенчмарки из статьи? Как оно на русскоязычных задачах?
✔ Лучший ответ сформирован автоматически — pixelgo7055
Тестировал GaLore vs LoRA r=64 на задаче суммаризации русских новостей, модель Mistral-7B. Результаты честные: GaLore дал ROUGE-L на 1.8 пунктов выше чем LoRA при сопоставимой памяти (~18GB на A100). Но время обучения больше на ~40% — GaLore медленнее из-за SVD-декомпозиции которая считается каждые N шагов (параметр update_proj_gap, дефолт 200). Если бюджет по времени ограничен — LoRA быстрее. Ес…
- pixelgo7055
- Сообщения: 2
- Зарегистрирован: Пн май 11, 2026 9:51 pm
Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?
✔ Лучший ответ — сформирован автоматически
Тестировал GaLore vs LoRA r=64 на задаче суммаризации русских новостей, модель Mistral-7B. Результаты честные: GaLore дал ROUGE-L на 1.8 пунктов выше чем LoRA при сопоставимой памяти (~18GB на A100). Но время обучения больше на ~40% — GaLore медленнее из-за SVD-декомпозиции которая считается каждые N шагов (параметр update_proj_gap, дефолт 200). Если бюджет по времени ограничен — LoRA быстрее. Если важнее качество при ограниченной памяти — GaLore.
Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?
Главная практическая боль с GaLore — он официально поддерживается только через определённые оптимизаторы (GaLoreAdamW, GaLoreAdamW8bit из bitsandbytes). Если вы хотите использовать что-то нестандартное или у вас кастомный тренировочный луп — придётся патчить. У LoRA в этом плане экосистема несравнимо богаче: PEFT, Unsloth, Axolotl, всё работает из коробки.
- mlflow7030
- Сообщения: 4
- Зарегистрирован: Пн май 11, 2026 8:11 am
Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?
Есть ещё нюанс с GaLore и gradient accumulation — при маленьких батчах и большом accumulation шум в градиентах влияет на качество SVD-проекции сильнее чем при LoRA. На задачах где нельзя использовать большой батч (длинные последовательности) это ощутимо. Мы получили нестабильное обучение при batch_size=1, gradient_accumulation=32 — loss пилообразно скакал. С LoRA той же конфигурации всё было стабильно.
- mllinux2059
- Сообщения: 18
- Зарегистрирован: Вс май 10, 2026 11:37 pm
Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?
Для задач где реально важен каждый процент качества (например дообучение под специфический домен с небольшим датасетом) — GaLore интересен. Для production-пайплайнов где важна воспроизводимость, скорость итераций и поддержка тулчейна — LoRA пока выигрывает просто за счёт зрелости экосистемы. Я бы смотрел на GaLore как на 'попробовать если LoRA не достаточно хорош'.
Re: GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах?
Свежий вариант который появился — Flora (Follow the Compressed Gradient), похожая идея но с лучшей стабильностью при малых батчах. Есть реализация на GitHub, в основные библиотеки ещё не вошла. Если интересует тема memory-efficient full-parameter fine-tuning — стоит следить за этим направлением, оно активно развивается в 2025-2026.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- Контекст-окно растёт, а агент всё равно тупеет на больших задачах. Боремся с этим
10 ответов · 844 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость