Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть
Рейтинг: 20.7% · 1 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть
Файнтюн qwen2.5 7b на двух 3090 (24гб каждая) валится в out of memory уже на втором шаге, хотя на бумаге должно влезать. Беру QLoRA через peft, bnb 4bit, batch 1, seq 2048, gradient checkpointing включен. На старте занято 19гб, потом скачок и OOM. accelerate с deepspeed zero2 пробовал, не помогло, наоборот стало хуже по скорости. Что я туплю? Хочется дообучить на своём датасете support-переписки, 40к пар, без аренды A100 за 130р/час.
✔ Лучший ответ сформирован автоматически — catbert1
@автор держи рабочий конфиг под 3090, я на нём гонял llama3 8b и qwen 7b, оба влезали с запасом. bnb config: load_in_4bit=True, bnb_4bit_quant_type='nf4', bnb_4bit_compute_dtype=torch.bfloat16, bnb_4bit_use_double_quant=True. lora r=16 alpha=32 на q_proj k_proj v_proj o_proj. оптимизатор НЕ adamw_torch а paged_adamw_8bit из bitsandbytes, это сразу минус 6-8гб. batch 1, grad accum 16 чтобы эффекти…
Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть
этот скачок почти всегда оптимизатор. adamw держит два стейта на параметр в fp32, и хотя ты учишь только lora-адаптеры, если случайно не заморозил базовые веса то он пытается аллоцировать под всё. проверь что requires_grad стоит только на адаптерах, через print_trainable_parameters. у меня было 0.1% обучаемых, а память жрало как будто full finetune, оказалось забыл prepare_model_for_kbit_training.qcdeed писал(а):на старте занято 19гб, потом скачок и OOM
Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть
✔ Лучший ответ — сформирован автоматически
@автор держи рабочий конфиг под 3090, я на нём гонял llama3 8b и qwen 7b, оба влезали с запасом. bnb config: load_in_4bit=True, bnb_4bit_quant_type='nf4', bnb_4bit_compute_dtype=torch.bfloat16, bnb_4bit_use_double_quant=True. lora r=16 alpha=32 на q_proj k_proj v_proj o_proj. оптимизатор НЕ adamw_torch а paged_adamw_8bit из bitsandbytes, это сразу минус 6-8гб. batch 1, grad accum 16 чтобы эффективный батч был нормальный. seq 1536 для саппорт-переписки за глаза. gradient_checkpointing=True и обязательно model.config.use_cache=False иначе чекпоинтинг конфликтует и ты получаешь варнинг и лишнюю память. при таком сетапе одна 3090 держит около 21гб, вторую вообще не трогаешь, просто запускай две независимые сессии на разных сидах если хочешь ансамбль. на 40к пар эпоха у меня шла минут 50.
- android_roman
- Сообщения: 45
- Зарегистрирован: 11 май 2026, 05:31
Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть
не всё RAG-ом решается. если задача в тон ответа и формат, а не в фактах, то файнтюн ровно то что нужно. саппорт это часто именно стиль и структура. так что мимо.android_roman писал(а):ты RAG нормальный собери и не мучайся
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- *arr-стек на сидбоксе через gluetun: VPN падает — и весь docker-стек встаёт колом
14 ответов · 948 просмотров
-
- Утечка памяти в Node, +2ГБ в сутки, рестарт каждую ночь по крону. Нашёл, делюсь
16 ответов · 669 просмотров
-
-
- LoRA vs полный файнтюн в 2026 — кто-нибудь реально видит разницу в качестве?
11 ответов · 553 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость