Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

johnmal · Сообщение **johnmal** » 08 июн 2026, 19:53

Вышел Llama 4 Scout 17B активных параметров (MoE, 109B всего), Meta заявляет что он влезает в 24GB VRAM при Q4_K_M квантизации. У меня RTX 4090, попробовал через ollama с моделью llama4:scout-q4. Первые впечатления — генерация ~18 токен/сек, что для 17B активных честно. На длинных контекстах (тестировал 40k токенов) начинает деградировать качество ответов примерно после 32k, несмотря на официальные 10M. Мультилингвальность на русском — норм, лучше чем Qwen2.5-72B на некоторых задачах суммаризации. Но по коду Qwen2.5-Coder 32B всё ещё впереди. Кто ещё щупал, какие впечатления?

deno9 · Сообщение **deno9** » 08 июн 2026, 20:37

Тестировал на двух 3090 через llama.cpp tensor_split. Q4_K_M весит ~55GB, на одну 4090 не лезет без офлоада на CPU. Если офлоадить 20 слоёв на RAM — скорость падает до 7 токен/сек, уже неудобно. Реально комфортный запуск — либо двойная 4090/3090, либо ждать Q2 квантизаций, они влезают в 24GB но качество на русском заметно просаживается.

burneddeadlock

@deno9, Я пробовал IQ3_XS от bartowski — 32GB файл, влезает в 24GB с небольшим запасом. Скорость 22 токен/сек на 4090. По бенчам на русскоязычных задачах (суммаризация, QA) держит уровень Mistral Large Instruct, местами лучше. Для кода — скромнее. Вывод: если у вас одна 24GB карта и нужен универсальный ассистент, а не кодер — Scout IQ3_XS вполне рабочий вариант.

lubliner · Сообщение **lubliner** » 08 июн 2026, 21:28

@deno9, А кто-нибудь запускал через vLLM с AWQ? На A100 80GB влезает Q8 целиком, там уже 45-50 токен/сек. Для домашнего использования конечно overkill, но мы в офисе подняли как shared-инстанс на 8 человек через Open WebUI — получился нормальный внутренний сервис без подписок.

svelte88 · Сообщение **svelte88** » 09 июн 2026, 00:31

@lubliner, Главное разочарование — tool calling. Официально поддерживается, но на практике при сложных схемах JSON (вложенные объекты, arrays of objects) модель регулярно генерирует невалидный JSON. Пришлось добавить валидацию и retry через Outlines с grammar sampling. Для простых инструментов (get_weather, search) работает нормально, для агентских пайплайнов пока сырая.

hogan20 · Сообщение **hogan20** » 09 июн 2026, 03:31

Для сравнения: на той же машине Qwen2.5-72B-Instruct Q4_K_M даёт ~9 токен/сек и требует 46GB (2x3090 или CPU-офлоад), но качество ответов на русском и знание рунет-контекста заметно выше. Scout быстрее, но Qwen умнее на языковых задачах. Зависит от задачи — универсального победителя пока нет.

nfrancis · Сообщение **nfrancis** » 09 июн 2026, 04:46

@lubliner, Интересный момент по температуре и сэмплингу: Scout очень чувствителен к системному промпту. Без него отвечает невпопад. С коротким системным промптом на русском (буквально 2-3 предложения про роль) качество резко растёт. Для ollama добавляю в Modelfile: SYSTEM "Ты — полезный ИИ-ассистент, отвечаешь развёрнуто и по существу на русском языке." — ночь и день разница.

Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?

Кто сейчас на конференции