Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

qcdeed · Сообщение **qcdeed** » 20 май 2026, 18:24

Файнтюн qwen2.5 7b на двух 3090 (24гб каждая) валится в out of memory уже на втором шаге, хотя на бумаге должно влезать. Беру QLoRA через peft, bnb 4bit, batch 1, seq 2048, gradient checkpointing включен. На старте занято 19гб, потом скачок и OOM. accelerate с deepspeed zero2 пробовал, не помогло, наоборот стало хуже по скорости. Что я туплю? Хочется дообучить на своём датасете support-переписки, 40к пар, без аренды A100 за 130р/час.

svelte88 · Сообщение **svelte88** » 20 май 2026, 19:44

seq 2048 при батче 1 это уже не мало для активаций. Скинь до 1024 и посмотри, влезет ли вообще. Если влезет, дальше уже играй длиной.

nixos69 · Сообщение **nixos69** » 20 май 2026, 21:17

deepspeed zero2 на двух картах через PCIe это боль, у тебя весь профит сжирает обмен градиентами по шине. На 3090 без nvlink бери просто ddp или вообще одну карту с zero offload в cpu. Я так же наступал.

asyncmonk · Сообщение **asyncmonk** » 21 май 2026, 01:24

qcdeed писал(а):на старте занято 19гб, потом скачок и OOM

этот скачок почти всегда оптимизатор. adamw держит два стейта на параметр в fp32, и хотя ты учишь только lora-адаптеры, если случайно не заморозил базовые веса то он пытается аллоцировать под всё. проверь что requires_grad стоит только на адаптерах, через print_trainable_parameters. у меня было 0.1% обучаемых, а память жрало как будто full finetune, оказалось забыл prepare_model_for_kbit_training.

catbert1 · Сообщение **catbert1** » 21 май 2026, 02:06

@автор держи рабочий конфиг под 3090, я на нём гонял llama3 8b и qwen 7b, оба влезали с запасом. bnb config: load_in_4bit=True, bnb_4bit_quant_type='nf4', bnb_4bit_compute_dtype=torch.bfloat16, bnb_4bit_use_double_quant=True. lora r=16 alpha=32 на q_proj k_proj v_proj o_proj. оптимизатор НЕ adamw_torch а paged_adamw_8bit из bitsandbytes, это сразу минус 6-8гб. batch 1, grad accum 16 чтобы эффективный батч был нормальный. seq 1536 для саппорт-переписки за глаза. gradient_checkpointing=True и обязательно model.config.use_cache=False иначе чекпоинтинг конфликтует и ты получаешь варнинг и лишнюю память. при таком сетапе одна 3090 держит около 21гб, вторую вообще не трогаешь, просто запускай две независимые сессии на разных сидах если хочешь ансамбль. на 40к пар эпоха у меня шла минут 50.

guardia · Сообщение **guardia** » 21 май 2026, 04:15

paged_adamw_8bit плюсую, разница реально драматичная. без него никак на консьюмерских картах.

android_roman

@guardia, а зачем тебе вообще файнтюн на саппорт-переписке? 40к пар это смешно, ты RAG нормальный собери и не мучайся. файнтюн на таком объёме выучит стиль и будет галлюцинировать факты которых в вопросе нет

postgres2 · Сообщение **postgres2** » 21 май 2026, 10:01

android_roman писал(а):ты RAG нормальный собери и не мучайся

не всё RAG-ом решается. если задача в тон ответа и формат, а не в фактах, то файнтюн ровно то что нужно. саппорт это часто именно стиль и структура. так что мимо.

Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Re: Файнтюн qwen2.5 7b на двух 3090 падает по памяти, как влезть

Кто сейчас на конференции