MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Рейтинг: 52.9% · 8 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Аватара пользователя
alex_ai72
Сообщения: 5
Зарегистрирован: Пн май 11, 2026 3:09 am

Re: MoE локально (30B-A3B и подобные): магия скорости или маркетинг

Сообщение alex_ai72 »

indie_hacker, обязательно отпишись с цифрами ток/с и какой offload поставил. Таких как ты на 16гб много, реальные замеры ценнее любых обзоров.
👍1 ❤️1 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость