DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Рейтинг: 37.6% · 5 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
svelte1
Сообщения: 30
Зарегистрирован: 13 май 2026, 13:06

DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Сообщение svelte1 »

DeepSeek выложил свежие MoE веса (активных параметров порядка 30B при общем размере под 600B), и народ уже тащит их в локальный запуск через свежие сборки llama.cpp. Вопрос к тем у кого есть железо: реально ли это запустить на чём-то меньше серверной стойки, или опять только для тех у кого 512 гб RAM и Epyc? По активным параметрам инференс должен быть терпимым, но 600B весов даже в Q2 это огромный файл который надо где-то держать.
👍3 ❤️ 🔥2 😄2 🤔
✔ Лучший ответ сформирован автоматически — sleepyblueteam
docker777 писал(а):квант Q2 у таких больших MoE на удивление держит качество это правда но не надо обобщать, на коде и точной логике Q2 всё равно сыпется, проверял на прошлом дипсике. Для общего чата и текста терпимо, для генерации кода где важен каждый символ лучше Q4 если влезает. Качество кванта зависит от задачи, а не абстрактно держит или нет.
Перейти к ответу →
Аватара пользователя
mstrbates
Сообщения: 88
Зарегистрирован: 11 май 2026, 00:45

Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Сообщение mstrbates »

в Q2_K_XL это около 200+ гб на диске. Влезет на сборку с 256 гб DDR5 и парой видях под общие слои. Активных 30B значит на хорошем Epyc с 12 каналами памяти можно получить 6-8 т/с чисто на проце. Не быстро, но шевелится.
👍2 ❤️1 🔥1 😄 🤔
Аватара пользователя
docker777
Сообщения: 10
Зарегистрирован: 11 май 2026, 17:52

Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Сообщение docker777 »

@mstrbates, квант Q2 у таких больших MoE на удивление держит качество, потому что параметров вагон и деградация размазывается. Это не то же самое что душить 7B до Q2 где модель тупеет в кашу.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
sleepyblueteam
Сообщения: 7
Зарегистрирован: 15 май 2026, 10:38

Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Сообщение sleepyblueteam »

✔ Лучший ответ — сформирован автоматически
docker777 писал(а):квант Q2 у таких больших MoE на удивление держит качество
это правда но не надо обобщать, на коде и точной логике Q2 всё равно сыпется, проверял на прошлом дипсике. Для общего чата и текста терпимо, для генерации кода где важен каждый символ лучше Q4 если влезает. Качество кванта зависит от задачи, а не абстрактно держит или нет.
👍1 ❤️ 🔥 😄1 🤔
Аватара пользователя
asyncpro
Сообщения: 17
Зарегистрирован: 15 май 2026, 10:37

Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Сообщение asyncpro »

@docker777, подождите пару недель пока выйдут нормальные imatrix кванты от проверенных людей, первые дни всегда битые сборки и кривые гуфы. Ранние адоптеры ловят баги за всех.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
togashi
Сообщения: 50
Зарегистрирован: 10 май 2026, 23:57

Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Сообщение togashi »

серьёзно? опять 600B которую дома никто не запустит нормально. Для нас смертных с одной видяхой это новость из разряда посмотрел и закрыл. Дайте 30B дистилляцию, вот это будет событие.
👍 ❤️1 🔥3 😄 🤔
Аватара пользователя
svelte42
Сообщения: 21
Зарегистрирован: 11 май 2026, 01:03

Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Сообщение svelte42 »

@sleepyblueteam, Дайте 30B дистилляцию
дистилляции обычно подвозят через неделю-две после больших весов, так всегда было. Потерпи. И кстати MoE с 30B активных это не то же что dense 600B по требованиям, на арендной A100 80гб в облаке за 150-200 руб/час можно пощупать оригинал не покупая стойку. Так что доступ есть, просто не на домашней видяхе.
👍 ❤️1 🔥 😄1 🤔1
Аватара пользователя
kathlen
Сообщения: 4
Зарегистрирован: 16 май 2026, 10:46

Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе

Сообщение kathlen »

@docker777, взял в облаке на час, гонял через vLLM. Качество на reasoning заметно выше прошлой версии, особенно на длинных цепочках. Но throughput на одной карте грустный из-за размера, для прода нужен тензор-параллелизм на 4+ GPU. Дома только Q2 на CPU+offload, как выше писали, 6-8 т/с потолок.
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость