gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

Рейтинг: 64.6% · 12 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
rustenjoyer
Сообщения: 8
Зарегистрирован: 18 май 2026, 19:20

gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

Сообщение rustenjoyer »

Карта одна, 3090 на 24 гига, оперативки 64. Хочу гонять gpt-oss-120b локально под кодинг, везде пишут что MoE и активных параметров мало, значит влезет. Поставил, и сразу облом: целиком в VRAM 120b в любом вменяемом кванте не лезет, начинается оффлоад экспертов в оперативку.

По цифрам у меня так: Q4 через llama.cpp, 30 с небольшим слоёв на карте, остальное на проце. Генерация 9-11 токенов в секунду, жить можно. Но prompt processing убивает: 20к контекста жуёт минуту с лишним, а для агентного кодинга это смерть, агент перечитывает контекст по двадцать раз за сессию.

Вопрос к тем кто реально живёт с этим сетапом, а не пересказывает реддит: это потолок 3090 на 120b или я где-то туплю с настройками? Может ud-кванты сильно меняют картину, или вообще забить и сидеть на 30b которая целиком в карту влезает?
👍1 ❤️1 🔥 😄 🤔1
✔ Лучший ответ сформирован автоматически — kotlin123
Сидел ровно на этом полгода, вот что реально помогает на 3090 плюс 64 рам: - бери не обычный Q4, а ud-кванты (unsloth dynamic), на 120b разница в качестве заметная при том же размере и влезает чуть плотнее. - ключевое для оффлоада это override-tensor (-ot): экспертные слои руками кидаешь на проц, attention оставляешь на карте. тогда генерация не так проседает. - prompt processing лечится flash at…
Перейти к ответу →
Аватара пользователя
Manuelriere
Сообщения: 58
Зарегистрирован: 13 май 2026, 17:46

Re: gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

Сообщение Manuelriere »

30b-a3b целиком в 24 гига влезает и летает под 60 токенов. 120b на одной карте это мазохизм, проверено.
👍 ❤️ 🔥2 😄 🤔2
Аватара пользователя
kotlin123
Сообщения: 46
Зарегистрирован: 12 май 2026, 14:33

Re: gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

Сообщение kotlin123 »

✔ Лучший ответ — сформирован автоматически
Сидел ровно на этом полгода, вот что реально помогает на 3090 плюс 64 рам:

- бери не обычный Q4, а ud-кванты (unsloth dynamic), на 120b разница в качестве заметная при том же размере и влезает чуть плотнее.
- ключевое для оффлоада это override-tensor (-ot): экспертные слои руками кидаешь на проц, attention оставляешь на карте. тогда генерация не так проседает.
- prompt processing лечится flash attention (-fa) и батчем (-b/-ub) побольше, но физику не обманешь, упираешься в пропускную способность оперативки.

По цифрам у меня на тех же 24 гигах вышло 13-14 ток/с генерации и pp около 300, против твоих 11 и медленного pp. Но честно: для агентного кодинга где контекст постоянно перечитывается, 120b на одной карте всё равно больно. Я в итоге держу 30b-кодер для интерактива и поднимаю 120b только на ночные пакетные задачи.
👍1 ❤️ 🔥1 😄2 🤔
Аватара пользователя
stuartng
Сообщения: 9
Зарегистрирован: 13 май 2026, 21:58

Re: gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

Сообщение stuartng »

rustenjoyer писал(а):это потолок 3090 на 120b или я где-то туплю с настройками
и то и другое. настройками вытащишь процентов 30 сверху, но bandwidth оперативки это стена: ddr4 на 64 гига отдаёт около 50 гб/с, и эксперты которые ушли в рам читаются именно с этой скоростью. на ddr5 было бы ощутимо лучше, но на одной карте 120b в принципе компромисс.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
markcack
Сообщения: 22
Зарегистрирован: 12 май 2026, 01:49

Re: gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

Сообщение markcack »

kotlin123 писал(а):держу 30b-кодер для интерактива и поднимаю 120b только на ночные пакетные задачи
правильный паттерн, но добавлю: для кода разница между 30b и 120b на практике меньше чем кажется. на круды и рефакторинг 30b-a3b закрывает процентов 90, а 120b реально вывозит только на сложной архитектуре где надо держать в голове весь модуль. так что ОП, прежде чем страдать с оффлоадом, честно прогони свои типичные задачи на 30b, может 120b тебе вообще не нужна.
👍1 ❤️1 🔥 😄 🤔
Аватара пользователя
b1llyn0m
Сообщения: 70
Зарегистрирован: 11 май 2026, 07:32

Re: gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?

Сообщение b1llyn0m »

две 3090 за 130 решают вопрос целиком, 48 гигов и 120b влезает без оффлоада. да, дорого и гудит как пылесос, но если кодишь этим каждый день, окупается нервами.
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя