DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе
Рейтинг: 37.6% · 5 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе
DeepSeek выложил свежие MoE веса (активных параметров порядка 30B при общем размере под 600B), и народ уже тащит их в локальный запуск через свежие сборки llama.cpp. Вопрос к тем у кого есть железо: реально ли это запустить на чём-то меньше серверной стойки, или опять только для тех у кого 512 гб RAM и Epyc? По активным параметрам инференс должен быть терпимым, но 600B весов даже в Q2 это огромный файл который надо где-то держать.
✔ Лучший ответ сформирован автоматически — sleepyblueteam
docker777 писал(а):квант Q2 у таких больших MoE на удивление держит качество это правда но не надо обобщать, на коде и точной логике Q2 всё равно сыпется, проверял на прошлом дипсике. Для общего чата и текста терпимо, для генерации кода где важен каждый символ лучше Q4 если влезает. Качество кванта зависит от задачи, а не абстрактно держит или нет.
Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе
в Q2_K_XL это около 200+ гб на диске. Влезет на сборку с 256 гб DDR5 и парой видях под общие слои. Активных 30B значит на хорошем Epyc с 12 каналами памяти можно получить 6-8 т/с чисто на проце. Не быстро, но шевелится.
Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе
@mstrbates, квант Q2 у таких больших MoE на удивление держит качество, потому что параметров вагон и деградация размазывается. Это не то же самое что душить 7B до Q2 где модель тупеет в кашу.
- sleepyblueteam
- Сообщения: 7
- Зарегистрирован: 15 май 2026, 10:38
Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе
✔ Лучший ответ — сформирован автоматически
это правда но не надо обобщать, на коде и точной логике Q2 всё равно сыпется, проверял на прошлом дипсике. Для общего чата и текста терпимо, для генерации кода где важен каждый символ лучше Q4 если влезает. Качество кванта зависит от задачи, а не абстрактно держит или нет.docker777 писал(а):квант Q2 у таких больших MoE на удивление держит качество
Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе
@docker777, подождите пару недель пока выйдут нормальные imatrix кванты от проверенных людей, первые дни всегда битые сборки и кривые гуфы. Ранние адоптеры ловят баги за всех.
Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе
@sleepyblueteam, Дайте 30B дистилляцию
дистилляции обычно подвозят через неделю-две после больших весов, так всегда было. Потерпи. И кстати MoE с 30B активных это не то же что dense 600B по требованиям, на арендной A100 80гб в облаке за 150-200 руб/час можно пощупать оригинал не покупая стойку. Так что доступ есть, просто не на домашней видяхе.
дистилляции обычно подвозят через неделю-две после больших весов, так всегда было. Потерпи. И кстати MoE с 30B активных это не то же что dense 600B по требованиям, на арендной A100 80гб в облаке за 150-200 руб/час можно пощупать оригинал не покупая стойку. Так что доступ есть, просто не на домашней видяхе.
Re: DeepSeek выкатил новые MoE веса, кто уже пощупал на своём железе
@docker777, взял в облаке на час, гонял через vLLM. Качество на reasoning заметно выше прошлой версии, особенно на длинных цепочках. Но throughput на одной карте грустный из-за размера, для прода нужен тензор-параллелизм на 4+ GPU. Дома только Q2 на CPU+offload, как выше писали, 6-8 т/с потолок.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя