Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Рейтинг: 64.6% · 7 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
johnmal
Сообщения: 22
Зарегистрирован: 21 май 2026, 18:40

Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Сообщение johnmal »

Вышел Llama 4 Scout 17B активных параметров (MoE, 109B всего), Meta заявляет что он влезает в 24GB VRAM при Q4_K_M квантизации. У меня RTX 4090, попробовал через ollama с моделью llama4:scout-q4. Первые впечатления — генерация ~18 токен/сек, что для 17B активных честно. На длинных контекстах (тестировал 40k токенов) начинает деградировать качество ответов примерно после 32k, несмотря на официальные 10M. Мультилингвальность на русском — норм, лучше чем Qwen2.5-72B на некоторых задачах суммаризации. Но по коду Qwen2.5-Coder 32B всё ещё впереди. Кто ещё щупал, какие впечатления?
👍 ❤️ 🔥3 😄 🤔
✔ Лучший ответ сформирован автоматически — nfrancis
@lubliner, Интересный момент по температуре и сэмплингу: Scout очень чувствителен к системному промпту. Без него отвечает невпопад. С коротким системным промптом на русском (буквально 2-3 предложения про роль) качество резко растёт. Для ollama добавляю в Modelfile: SYSTEM "Ты — полезный ИИ-ассистент, отвечаешь развёрнуто и по существу на русском языке." — ночь и день разница.
Перейти к ответу →
Аватара пользователя
deno9
Сообщения: 17
Зарегистрирован: 22 май 2026, 11:52

Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Сообщение deno9 »

Тестировал на двух 3090 через llama.cpp tensor_split. Q4_K_M весит ~55GB, на одну 4090 не лезет без офлоада на CPU. Если офлоадить 20 слоёв на RAM — скорость падает до 7 токен/сек, уже неудобно. Реально комфортный запуск — либо двойная 4090/3090, либо ждать Q2 квантизаций, они влезают в 24GB но качество на русском заметно просаживается.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
burneddeadlock
Сообщения: 24
Зарегистрирован: 21 май 2026, 15:44

Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Сообщение burneddeadlock »

@deno9, Я пробовал IQ3_XS от bartowski — 32GB файл, влезает в 24GB с небольшим запасом. Скорость 22 токен/сек на 4090. По бенчам на русскоязычных задачах (суммаризация, QA) держит уровень Mistral Large Instruct, местами лучше. Для кода — скромнее. Вывод: если у вас одна 24GB карта и нужен универсальный ассистент, а не кодер — Scout IQ3_XS вполне рабочий вариант.
👍1 ❤️2 🔥 😄 🤔
Аватара пользователя
lubliner
Сообщения: 8
Зарегистрирован: 08 июн 2026, 17:03

Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Сообщение lubliner »

@deno9, А кто-нибудь запускал через vLLM с AWQ? На A100 80GB влезает Q8 целиком, там уже 45-50 токен/сек. Для домашнего использования конечно overkill, но мы в офисе подняли как shared-инстанс на 8 человек через Open WebUI — получился нормальный внутренний сервис без подписок.
👍1 ❤️ 🔥 😄 🤔
Аватара пользователя
svelte88
Сообщения: 63
Зарегистрирован: 12 май 2026, 11:49

Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Сообщение svelte88 »

@lubliner, Главное разочарование — tool calling. Официально поддерживается, но на практике при сложных схемах JSON (вложенные объекты, arrays of objects) модель регулярно генерирует невалидный JSON. Пришлось добавить валидацию и retry через Outlines с grammar sampling. Для простых инструментов (get_weather, search) работает нормально, для агентских пайплайнов пока сырая.
👍3 ❤️1 🔥 😄 🤔
Аватара пользователя
hogan20
Сообщения: 71
Зарегистрирован: 13 май 2026, 12:49

Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Сообщение hogan20 »

Для сравнения: на той же машине Qwen2.5-72B-Instruct Q4_K_M даёт ~9 токен/сек и требует 46GB (2x3090 или CPU-офлоад), но качество ответов на русском и знание рунет-контекста заметно выше. Scout быстрее, но Qwen умнее на языковых задачах. Зависит от задачи — универсального победителя пока нет.
👍2 ❤️ 🔥1 😄 🤔1
Аватара пользователя
nfrancis
Сообщения: 20
Зарегистрирован: 17 май 2026, 23:25

Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Сообщение nfrancis »

✔ Лучший ответ — сформирован автоматически
@lubliner, Интересный момент по температуре и сэмплингу: Scout очень чувствителен к системному промпту. Без него отвечает невпопад. С коротким системным промптом на русском (буквально 2-3 предложения про роль) качество резко растёт. Для ollama добавляю в Modelfile: SYSTEM "Ты — полезный ИИ-ассистент, отвечаешь развёрнуто и по существу на русском языке." — ночь и день разница.
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя