Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Рейтинг: 20.7% · 1 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
qcdeed
Сообщения: 57
Зарегистрирован: 11 май 2026, 20:16

Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Сообщение qcdeed »

Файнтюн qwen2.5 7b на двух 3090 (24гб каждая) валится в out of memory уже на втором шаге, хотя на бумаге должно влезать. Беру QLoRA через peft, bnb 4bit, batch 1, seq 2048, gradient checkpointing включен. На старте занято 19гб, потом скачок и OOM. accelerate с deepspeed zero2 пробовал, не помогло, наоборот стало хуже по скорости. Что я туплю? Хочется дообучить на своём датасете support-переписки, 40к пар, без аренды A100 за 130р/час.
👍1 ❤️2 🔥2 😄 🤔
✔ Лучший ответ сформирован автоматически — catbert1
@автор держи рабочий конфиг под 3090, я на нём гонял llama3 8b и qwen 7b, оба влезали с запасом. bnb config: load_in_4bit=True, bnb_4bit_quant_type='nf4', bnb_4bit_compute_dtype=torch.bfloat16, bnb_4bit_use_double_quant=True. lora r=16 alpha=32 на q_proj k_proj v_proj o_proj. оптимизатор НЕ adamw_torch а paged_adamw_8bit из bitsandbytes, это сразу минус 6-8гб. batch 1, grad accum 16 чтобы эффекти…
Перейти к ответу →
Аватара пользователя
svelte88
Сообщения: 63
Зарегистрирован: 12 май 2026, 11:49

Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Сообщение svelte88 »

seq 2048 при батче 1 это уже не мало для активаций. Скинь до 1024 и посмотри, влезет ли вообще. Если влезет, дальше уже играй длиной.
👍 ❤️1 🔥 😄 🤔
Аватара пользователя
nixos69
Сообщения: 35
Зарегистрирован: 12 май 2026, 17:56

Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Сообщение nixos69 »

deepspeed zero2 на двух картах через PCIe это боль, у тебя весь профит сжирает обмен градиентами по шине. На 3090 без nvlink бери просто ddp или вообще одну карту с zero offload в cpu. Я так же наступал.
👍 ❤️ 🔥1 😄 🤔1
Аватара пользователя
asyncmonk
Сообщения: 62
Зарегистрирован: 13 май 2026, 16:00

Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Сообщение asyncmonk »

qcdeed писал(а):на старте занято 19гб, потом скачок и OOM
этот скачок почти всегда оптимизатор. adamw держит два стейта на параметр в fp32, и хотя ты учишь только lora-адаптеры, если случайно не заморозил базовые веса то он пытается аллоцировать под всё. проверь что requires_grad стоит только на адаптерах, через print_trainable_parameters. у меня было 0.1% обучаемых, а память жрало как будто full finetune, оказалось забыл prepare_model_for_kbit_training.
👍 ❤️2 🔥1 😄 🤔1
Аватара пользователя
catbert1
Сообщения: 26
Зарегистрирован: 11 май 2026, 17:49

Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Сообщение catbert1 »

✔ Лучший ответ — сформирован автоматически
@автор держи рабочий конфиг под 3090, я на нём гонял llama3 8b и qwen 7b, оба влезали с запасом. bnb config: load_in_4bit=True, bnb_4bit_quant_type='nf4', bnb_4bit_compute_dtype=torch.bfloat16, bnb_4bit_use_double_quant=True. lora r=16 alpha=32 на q_proj k_proj v_proj o_proj. оптимизатор НЕ adamw_torch а paged_adamw_8bit из bitsandbytes, это сразу минус 6-8гб. batch 1, grad accum 16 чтобы эффективный батч был нормальный. seq 1536 для саппорт-переписки за глаза. gradient_checkpointing=True и обязательно model.config.use_cache=False иначе чекпоинтинг конфликтует и ты получаешь варнинг и лишнюю память. при таком сетапе одна 3090 держит около 21гб, вторую вообще не трогаешь, просто запускай две независимые сессии на разных сидах если хочешь ансамбль. на 40к пар эпоха у меня шла минут 50.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
guardia
Сообщения: 49
Зарегистрирован: 11 май 2026, 14:59

Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Сообщение guardia »

paged_adamw_8bit плюсую, разница реально драматичная. без него никак на консьюмерских картах.
👍 ❤️1 🔥1 😄 🤔
Аватара пользователя
android_roman
Сообщения: 45
Зарегистрирован: 11 май 2026, 05:31

Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Сообщение android_roman »

@guardia, а зачем тебе вообще файнтюн на саппорт-переписке? 40к пар это смешно, ты RAG нормальный собери и не мучайся. файнтюн на таком объёме выучит стиль и будет галлюцинировать факты которых в вопросе нет
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
postgres2
Сообщения: 66
Зарегистрирован: 11 май 2026, 17:56

Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Сообщение postgres2 »

android_roman писал(а):ты RAG нормальный собери и не мучайся
не всё RAG-ом решается. если задача в тон ответа и формат, а не в фактах, то файнтюн ровно то что нужно. саппорт это часто именно стиль и структура. так что мимо.
👍3 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость