Локальная модель для кода на своём железе — кто что гоняет в 2026?

mlflow7030 · Ср май 13, 2026 10:38 am

Достало платить за облако и сливать код наружу. Хочу локально для автодополнения и мелких задач. Сейчас актуальны Qwen3-Coder и DeepSeek. На чём вы крутите и какой квант реально юзабелен?

pixeldns752 · Ср май 13, 2026 4:27 pm

Qwen2.5-Coder 32B в Q4_K_M на 4090 (24GB) идёт бодро, ~35 ток/с. Для контекста больше 16к уже впритык по памяти. Для автокомплита беру 7B — летает.

tcploop1339 · Ср май 13, 2026 5:12 pm

На Mac Studio M2 Ultra 192GB гоняю 32B без квантизации, контекст 64к держу. Скорость не как у 4090, но молчаливый и греется меньше чайника. DeepSeek-Coder V2 тоже норм, но мне Qwen ближе по стилю.

semyon_null56 · Ср май 13, 2026 7:39 pm

А смысл? Любая локалка 32B рядом не стоит с Sonnet на реальном агентном таске. Для тупого автокомплита ок, для «разрули баг в легаси» — нет.

cachego9376 · Ср май 13, 2026 8:09 pm

pcmaster, у меня NDA и запрет на внешние LLM по договору, выбора особо нет. Вопрос не «лучше ли облака», а «что выжать локально».

mlhex9595 · Чт май 14, 2026 2:27 am

Если упёрся в 24GB — две 3090 через NVLink дешевле одной 4090 по VRAM/деньги, влезает 70B в Q4. Жрёт под 700Вт, готовь БП и форточку.

egor1580 · Чт май 14, 2026 9:25 am

llama.cpp + Ollama самый простой старт, но для продакшен-скорости смотри vLLM или sglang, батчинг другой уровень. На одиночных запросах разница меньше, на параллельных — огромная.

kira_app10 · Чт май 14, 2026 11:25 am

Спасибо всем, беру курс на Qwen3-Coder 32B Q4 на 4090 + 7B на автокомплит. Андрей, про две 3090 интересно, но электрик уже косо смотрит)

Cyberlake

Локальная модель для кода на своём железе — кто что гоняет в 2026?

Локальная модель для кода на своём железе — кто что гоняет в 2026?

Re: Локальная модель для кода на своём железе — кто что гоняет в 2026?

Re: Локальная модель для кода на своём железе — кто что гоняет в 2026?

Re: Локальная модель для кода на своём железе — кто что гоняет в 2026?

Re: Локальная модель для кода на своём железе — кто что гоняет в 2026?

Re: Локальная модель для кода на своём железе — кто что гоняет в 2026?

Re: Локальная модель для кода на своём железе — кто что гоняет в 2026?

Re: Локальная модель для кода на своём железе — кто что гоняет в 2026?

Кто сейчас на конференции