Программирование с искусственным интеллектом: Claude Code, Cursor, GitHub Copilot, agentic coding, протокол MCP, генерация и ревью кода, автоматизация рабочего процесса разработчика.
Достало платить за облако и сливать код наружу. Хочу локально для автодополнения и мелких задач. Сейчас актуальны Qwen3-Coder и DeepSeek. На чём вы крутите и какой квант реально юзабелен?
На Mac Studio M2 Ultra 192GB гоняю 32B без квантизации, контекст 64к держу. Скорость не как у 4090, но молчаливый и греется меньше чайника. DeepSeek-Coder V2 тоже норм, но мне Qwen ближе по стилю.
llama.cpp + Ollama самый простой старт, но для продакшен-скорости смотри vLLM или sglang, батчинг другой уровень. На одиночных запросах разница меньше, на параллельных — огромная.