Файнтюн Qwen2.5-7B на LoRA жрёт всю память, как влезть в 24гб 3090

partha · Сообщение **partha** » 11 июн 2026, 20:07

Файнтюн Qwen2.5-7B на LoRA не влезает в 24гб видеопамяти на 3090, ловлю CUDA out of memory сразу на первом шаге. Датасет инструкций примерно 40к примеров, max_seq_len поставил 2048. Запускаю через trl SFTTrainer, bf16, rank 16. Оно отжирает все 24 гига и падает. Что крутить чтобы влезть, кроме как урезать длину до 512? У кого реально заводилось на одной 3090, поделитесь конфигом.

torch123 · Сообщение **torch123** » 11 июн 2026, 23:40

первое и главное, ты градиенты по optimizer чем считаешь? если adamw обычный, то он сам по себе на 7B сжирает кучу. ставь paged_adamw_8bit из bitsandbytes, сразу полегчает. и gradient_checkpointing включи, без него 2048 контекст ты не утянешь.

lena87 · Сообщение **lena87** » 12 июн 2026, 02:32

qlora тебе в руки. грузи базу в 4bit через bnb, load_in_4bit=True, nf4, double_quant. на 3090 7B в qlora влезает с запасом даже на 4096 если checkpointing включён. у меня крутится 7B на 4090 при batch 4 и seq 2048, занимает 19-20гб. на 3090 поставь batch 1 и копи градиенты.

android_roman

partha писал(а):max_seq_len поставил 2048

а ты уверен что тебе реально нужно 2048 на всех примерах? посчитай распределение длин токенов в датасете. у меня в инструкциях 90% укладывалось в 768, и я просто отрезал хвост в 1% длинных. эффект на качество ноль, а памяти и времени экономия огромная. народ зачем-то всегда лепит круглые степени двойки не глядя.

jpearce · Сообщение **jpearce** » 12 июн 2026, 05:35

подниму, тоже мучаюсь

egor13 · Сообщение **egor13** » 12 июн 2026, 07:25

lena87 писал(а):на 3090 7B в qlora влезает с запасом даже на 4096

влезать то влезает, но ты учти что qlora это не бесплатно по качеству. на ровном SFT разница с честным bf16 LoRA небольшая, согласен. но если у тебя датасет специфичный и ты гонишь много эпох, 4bit база местами начинает чудить, особенно на редких токенах и числах. я бы для прода честный lora в bf16 предпочёл, если задача позволяет. для эксперимента qlora ок.

nerd_max · Сообщение **nerd_max** » 12 июн 2026, 09:03

короче собрал рабочий конфиг на своей 3090, делюсь чтобы тему закрыть. Qwen2.5-7B-Instruct, qlora 4bit nf4 + double quant, lora rank 32 alpha 64 dropout 0.05, target все линейные проекции включая mlp. gradient_checkpointing True, use_reentrant False (иначе ворнинги и иногда тише течёт память). optim paged_adamw_8bit, lr 1e-4 косинус с warmup 3%. per_device_batch 1, grad_accum 16, итого эффективный батч 16. max_seq_len 1536, я померил датасет и больше реально не надо. bf16. Занимает примерно 21-22гб, оставляет воздух чтобы не падать на длинных примерах. 40к примеров 3 эпохи прогонялись часов за 6. flash_attention_2 поставь обязательно, без него и медленнее и память хуже. eval отключи во время трейна или делай раз в эпоху, иначе при eval подскакивает память и роняет. вот ровно на этом стабильно без OOM.

Kutz · Сообщение **Kutz** » 12 июн 2026, 10:20

@torch123, flash attention 2 на тройке ставится норм? у меня на 3090 sm86 вечно сборка падает на компиляции. собирал из исходников или колесо нашёл готовое?

Файнтюн Qwen2.5-7B на LoRA жрёт всю память, как влезть в 24гб 3090

Файнтюн Qwen2.5-7B на LoRA жрёт всю память, как влезть в 24гб 3090

Re: Файнтюн Qwen2.5-7B на LoRA жрёт всю память, как влезть в 24гб 3090

Re: Файнтюн Qwen2.5-7B на LoRA жрёт всю память, как влезть в 24гб 3090

Re: Файнтюн Qwen2.5-7B на LoRA жрёт всю память, как влезть в 24гб 3090

Re: Файнтюн Qwen2.5-7B на LoRA жрёт всю память, как влезть в 24гб 3090

Re: Файнтюн Qwen2.5-7B на LoRA жрёт всю память, как влезть в 24гб 3090

Re: Файнтюн Qwen2.5-7B на LoRA жрёт всю память, как влезть в 24гб 3090

Re: Файнтюн Qwen2.5-7B на LoRA жрёт всю память, как влезть в 24гб 3090

Кто сейчас на конференции