DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

svelte1 · Сообщение **svelte1** » 13 май 2026, 11:24

DeepSeek выложил свежие MoE веса (активных параметров порядка 30B при общем размере под 600B), и народ уже тащит их в локальный запуск через свежие сборки llama.cpp. Вопрос к тем у кого есть железо: реально ли это запустить на чём-то меньше серверной стойки, или опять только для тех у кого 512 гб RAM и Epyc? По активным параметрам инференс должен быть терпимым, но 600B весов даже в Q2 это огромный файл который надо где-то держать.

mstrbates · Сообщение **mstrbates** » 13 май 2026, 12:14

в Q2_K_XL это около 200+ гб на диске. Влезет на сборку с 256 гб DDR5 и парой видях под общие слои. Активных 30B значит на хорошем Epyc с 12 каналами памяти можно получить 6-8 т/с чисто на проце. Не быстро, но шевелится.

docker777 · Сообщение **docker777** » 13 май 2026, 16:54

@mstrbates, квант Q2 у таких больших MoE на удивление держит качество, потому что параметров вагон и деградация размазывается. Это не то же самое что душить 7B до Q2 где модель тупеет в кашу.

sleepyblueteam

docker777 писал(а):квант Q2 у таких больших MoE на удивление держит качество

это правда но не надо обобщать, на коде и точной логике Q2 всё равно сыпется, проверял на прошлом дипсике. Для общего чата и текста терпимо, для генерации кода где важен каждый символ лучше Q4 если влезает. Качество кванта зависит от задачи, а не абстрактно держит или нет.

asyncpro · Сообщение **asyncpro** » 14 май 2026, 01:19

@docker777, подождите пару недель пока выйдут нормальные imatrix кванты от проверенных людей, первые дни всегда битые сборки и кривые гуфы. Ранние адоптеры ловят баги за всех.

togashi · Сообщение **togashi** » 14 май 2026, 03:01

серьёзно? опять 600B которую дома никто не запустит нормально. Для нас смертных с одной видяхой это новость из разряда посмотрел и закрыл. Дайте 30B дистилляцию, вот это будет событие.

svelte42 · Сообщение **svelte42** » 14 май 2026, 04:25

@sleepyblueteam, Дайте 30B дистилляцию
дистилляции обычно подвозят через неделю-две после больших весов, так всегда было. Потерпи. И кстати MoE с 30B активных это не то же что dense 600B по требованиям, на арендной A100 80гб в облаке за 150-200 руб/час можно пощупать оригинал не покупая стойку. Так что доступ есть, просто не на домашней видяхе.

kathlen · Сообщение **kathlen** » 14 май 2026, 08:08

@docker777, взял в облаке на час, гонял через vLLM. Качество на reasoning заметно выше прошлой версии, особенно на длинных цепочках. Но throughput на одной карте грустный из-за размера, для прода нужен тензор-параллелизм на 4+ GPU. Дома только Q2 на CPU+offload, как выше писали, 6-8 т/с потолок.

DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Кто сейчас на конференции