Вторая 3090 с Авито или одна 5090: на чём жить с локальными LLM в 2026?

jwil1440 · Сообщение **jwil1440** » 09 июн 2026, 08:52

Дозрел до апгрейда под локалки. Сейчас одна 3090, на ней крутится Qwen3-30B-A3B в Q4_K_M — летает под сотню токенов в секунду, но хочется модели поумнее: GLM-4.5-Air, gpt-oss-120b, может Qwen3-235B в жёстком кванте. Вариантов два: вторая 3090 с Авито (в Москве сейчас 55-65 тысяч за приличный экземпляр) или копить на 5090, которая у нас стоит конских 260-300 тысяч. Смущает вот что: 3090 с Авито — лотерея после майнеров, а у 5090 всего 32 гига, то есть для 100B+ MoE всё равно мало. Кто реально живёт на двух 3090 — насколько боль с питанием и температурами? NVLink для инференса вообще нужен? БП на 1000 Вт хватит?

Rhemix · Сообщение **Rhemix** » 09 июн 2026, 10:35

@jwil1440, Полтора года на двух 3090, обе с Авито. NVLink для инференса не нужен вообще, llama.cpp и exllama раскидывают слои по PCIe без проблем. Главное — сразу ставь power limit 280 Вт через nvidia-smi -pl 280: потеря скорости процента три, зато температуры и БП живут. GLM-4.5-Air в Q4_K_M идёт около 20 т/с, для агентского кодинга хватает. По Авито: проси продавца прогнать тест памяти и смотри на термопрокладки — у половины карт память за 100 градусов под нагрузкой, это переборка ещё за 3-4 тысячи. 1000 Вт впритык, я бы брал 1200.

valru · Сообщение **valru** » 09 июн 2026, 13:39

Непопулярное мнение: в 2026 вторая видеокарта — уже не главный апгрейд. Эпоха плотных 70B прошла, всё интересное — MoE с малым числом активных параметров. У gpt-oss-120b активных всего 5.1B, у GLM-4.5-Air — 12B. llama.cpp давно умеет --n-cpu-moe: общие слои и KV-кэш на GPU, эксперты в оперативке. На моей связке 4090 + 96 ГБ DDR5-6000 gpt-oss-120b в родном MXFP4 выдаёт 25-28 т/с, Qwen3-235B-A22B в Q3 — около 8, медленно, но для ночных фоновых задач терпимо. 128 ГБ DDR5 стоят дешевле одной 3090 с Авито и не превращают комнату в серверную. Я бы оставил одну GPU и вложился в память и материнку с четырьмя слотами.

kernel2 · Сообщение **kernel2** » 09 июн 2026, 15:40

Третий путь — бу Mac Studio. M2 Ultra на 128 ГБ в Москве отдают примерно за 350, унифицированная память решает. Но prompt processing медленный, на больших контекстах под кодинг будет уныло, плюс с экзотикой типа свежих квантов вечно ждёшь поддержку в MLX. Для чата хорошо, для агентов — спорно.

tiger71 · Сообщение **tiger71** » 09 июн 2026, 17:21

А зачем вообще поумнее? Это серьёзный вопрос, не подкол. Я полгода гонял GLM-4.5-Air, потом честно сравнил на своих задачах с Qwen3-30B-A3B — разница есть, но она не стоит x2 по железу. Если кейс — автодополнение, разбор логов и черновики, то и 30B за глаза. Сначала сформулируй задачу, потом считай ватты.

icu2 · Сообщение **icu2** » 09 июн 2026, 20:43

Про бытовуху никто не сказал: две 3090 под нагрузкой — это 700+ Вт тепла в комнату. Летом в хрущёвке без кондиционера это филиал ада, проверено на себе. Андервольт обязателен. И посмотри на проводку, если дом старый: у меня автомат выбивало, когда жена включала чайник параллельно с инференсом.

Вторая 3090 с Авито или одна 5090: на чём жить с локальными LLM в 2026?

Вторая 3090 с Авито или одна 5090: на чём жить с локальными LLM в 2026?

Re: Вторая 3090 с Авито или одна 5090: на чём жить с локальными LLM в 2026?

Re: Вторая 3090 с Авито или одна 5090: на чём жить с локальными LLM в 2026?

Re: Вторая 3090 с Авито или одна 5090: на чём жить с локальными LLM в 2026?

Re: Вторая 3090 с Авито или одна 5090: на чём жить с локальными LLM в 2026?

Re: Вторая 3090 с Авито или одна 5090: на чём жить с локальными LLM в 2026?

Кто сейчас на конференции