gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?
Рейтинг: 64.6% · 12 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- rustenjoyer
- Сообщения: 8
- Зарегистрирован: 18 май 2026, 19:20
gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?
Карта одна, 3090 на 24 гига, оперативки 64. Хочу гонять gpt-oss-120b локально под кодинг, везде пишут что MoE и активных параметров мало, значит влезет. Поставил, и сразу облом: целиком в VRAM 120b в любом вменяемом кванте не лезет, начинается оффлоад экспертов в оперативку.
По цифрам у меня так: Q4 через llama.cpp, 30 с небольшим слоёв на карте, остальное на проце. Генерация 9-11 токенов в секунду, жить можно. Но prompt processing убивает: 20к контекста жуёт минуту с лишним, а для агентного кодинга это смерть, агент перечитывает контекст по двадцать раз за сессию.
Вопрос к тем кто реально живёт с этим сетапом, а не пересказывает реддит: это потолок 3090 на 120b или я где-то туплю с настройками? Может ud-кванты сильно меняют картину, или вообще забить и сидеть на 30b которая целиком в карту влезает?
По цифрам у меня так: Q4 через llama.cpp, 30 с небольшим слоёв на карте, остальное на проце. Генерация 9-11 токенов в секунду, жить можно. Но prompt processing убивает: 20к контекста жуёт минуту с лишним, а для агентного кодинга это смерть, агент перечитывает контекст по двадцать раз за сессию.
Вопрос к тем кто реально живёт с этим сетапом, а не пересказывает реддит: это потолок 3090 на 120b или я где-то туплю с настройками? Может ud-кванты сильно меняют картину, или вообще забить и сидеть на 30b которая целиком в карту влезает?
✔ Лучший ответ сформирован автоматически — kotlin123
Сидел ровно на этом полгода, вот что реально помогает на 3090 плюс 64 рам: - бери не обычный Q4, а ud-кванты (unsloth dynamic), на 120b разница в качестве заметная при том же размере и влезает чуть плотнее. - ключевое для оффлоада это override-tensor (-ot): экспертные слои руками кидаешь на проц, attention оставляешь на карте. тогда генерация не так проседает. - prompt processing лечится flash at…
- Manuelriere
- Сообщения: 58
- Зарегистрирован: 13 май 2026, 17:46
Re: gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?
✔ Лучший ответ — сформирован автоматически
Сидел ровно на этом полгода, вот что реально помогает на 3090 плюс 64 рам:
- бери не обычный Q4, а ud-кванты (unsloth dynamic), на 120b разница в качестве заметная при том же размере и влезает чуть плотнее.
- ключевое для оффлоада это override-tensor (-ot): экспертные слои руками кидаешь на проц, attention оставляешь на карте. тогда генерация не так проседает.
- prompt processing лечится flash attention (-fa) и батчем (-b/-ub) побольше, но физику не обманешь, упираешься в пропускную способность оперативки.
По цифрам у меня на тех же 24 гигах вышло 13-14 ток/с генерации и pp около 300, против твоих 11 и медленного pp. Но честно: для агентного кодинга где контекст постоянно перечитывается, 120b на одной карте всё равно больно. Я в итоге держу 30b-кодер для интерактива и поднимаю 120b только на ночные пакетные задачи.
- бери не обычный Q4, а ud-кванты (unsloth dynamic), на 120b разница в качестве заметная при том же размере и влезает чуть плотнее.
- ключевое для оффлоада это override-tensor (-ot): экспертные слои руками кидаешь на проц, attention оставляешь на карте. тогда генерация не так проседает.
- prompt processing лечится flash attention (-fa) и батчем (-b/-ub) побольше, но физику не обманешь, упираешься в пропускную способность оперативки.
По цифрам у меня на тех же 24 гигах вышло 13-14 ток/с генерации и pp около 300, против твоих 11 и медленного pp. Но честно: для агентного кодинга где контекст постоянно перечитывается, 120b на одной карте всё равно больно. Я в итоге держу 30b-кодер для интерактива и поднимаю 120b только на ночные пакетные задачи.
Re: gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?
и то и другое. настройками вытащишь процентов 30 сверху, но bandwidth оперативки это стена: ddr4 на 64 гига отдаёт около 50 гб/с, и эксперты которые ушли в рам читаются именно с этой скоростью. на ddr5 было бы ощутимо лучше, но на одной карте 120b в принципе компромисс.rustenjoyer писал(а):это потолок 3090 на 120b или я где-то туплю с настройками
Re: gpt-oss-120b на одной 3090 24гб реально гонять или фантазии?
правильный паттерн, но добавлю: для кода разница между 30b и 120b на практике меньше чем кажется. на круды и рефакторинг 30b-a3b закрывает процентов 90, а 120b реально вывозит только на сложной архитектуре где надо держать в голове весь модуль. так что ОП, прежде чем страдать с оффлоадом, честно прогони свои типичные задачи на 30b, может 120b тебе вообще не нужна.kotlin123 писал(а):держу 30b-кодер для интерактива и поднимаю 120b только на ночные пакетные задачи
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
-
- С чего реально начать в пентесте в 2026? TryHackMe, HTB или сразу сертификаты?
12 ответов · 1917 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя