gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

rustenjoyer · Сообщение **rustenjoyer** » 11 июн 2026, 19:35

Карта одна, 3090 на 24 гига, оперативки 64. Хочу гонять gpt-oss-120b локально под кодинг, везде пишут что MoE и активных параметров мало, значит влезет. Поставил, и сразу облом: целиком в VRAM 120b в любом вменяемом кванте не лезет, начинается оффлоад экспертов в оперативку.

По цифрам у меня так: Q4 через llama.cpp, 30 с небольшим слоёв на карте, остальное на проце. Генерация 9-11 токенов в секунду, жить можно. Но prompt processing убивает: 20к контекста жуёт минуту с лишним, а для агентного кодинга это смерть, агент перечитывает контекст по двадцать раз за сессию.

Вопрос к тем кто реально живёт с этим сетапом, а не пересказывает реддит: это потолок 3090 на 120b или я где-то туплю с настройками? Может ud-кванты сильно меняют картину, или вообще забить и сидеть на 30b которая целиком в карту влезает?

Manuelriere · Сообщение **Manuelriere** » 11 июн 2026, 22:59

30b-a3b целиком в 24 гига влезает и летает под 60 токенов. 120b на одной карте это мазохизм, проверено.

kotlin123 · Сообщение **kotlin123** » 12 июн 2026, 02:18

Сидел ровно на этом полгода, вот что реально помогает на 3090 плюс 64 рам:

- бери не обычный Q4, а ud-кванты (unsloth dynamic), на 120b разница в качестве заметная при том же размере и влезает чуть плотнее.
- ключевое для оффлоада это override-tensor (-ot): экспертные слои руками кидаешь на проц, attention оставляешь на карте. тогда генерация не так проседает.
- prompt processing лечится flash attention (-fa) и батчем (-b/-ub) побольше, но физику не обманешь, упираешься в пропускную способность оперативки.

По цифрам у меня на тех же 24 гигах вышло 13-14 ток/с генерации и pp около 300, против твоих 11 и медленного pp. Но честно: для агентного кодинга где контекст постоянно перечитывается, 120b на одной карте всё равно больно. Я в итоге держу 30b-кодер для интерактива и поднимаю 120b только на ночные пакетные задачи.

stuartng · Сообщение **stuartng** » 12 июн 2026, 04:55

rustenjoyer писал(а):это потолок 3090 на 120b или я где-то туплю с настройками

и то и другое. настройками вытащишь процентов 30 сверху, но bandwidth оперативки это стена: ddr4 на 64 гига отдаёт около 50 гб/с, и эксперты которые ушли в рам читаются именно с этой скоростью. на ddr5 было бы ощутимо лучше, но на одной карте 120b в принципе компромисс.

markcack · Сообщение **markcack** » 12 июн 2026, 06:41

kotlin123 писал(а):держу 30b-кодер для интерактива и поднимаю 120b только на ночные пакетные задачи

правильный паттерн, но добавлю: для кода разница между 30b и 120b на практике меньше чем кажется. на круды и рефакторинг 30b-a3b закрывает процентов 90, а 120b реально вывозит только на сложной архитектуре где надо держать в голове весь модуль. так что ОП, прежде чем страдать с оффлоадом, честно прогони свои типичные задачи на 30b, может 120b тебе вообще не нужна.

b1llyn0m · Сообщение **b1llyn0m** » 12 июн 2026, 06:57

две 3090 за 130 решают вопрос целиком, 48 гигов и 120b влезает без оффлоада. да, дорого и гудит как пылесос, но если кодишь этим каждый день, окупается нервами.

gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

Re: gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

Re: gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

Re: gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

Re: gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

Re: gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

Кто сейчас на конференции