Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?
Рейтинг: 64.6% · 7 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?
Вышел Llama 4 Scout 17B активных параметров (MoE, 109B всего), Meta заявляет что он влезает в 24GB VRAM при Q4_K_M квантизации. У меня RTX 4090, попробовал через ollama с моделью llama4:scout-q4. Первые впечатления — генерация ~18 токен/сек, что для 17B активных честно. На длинных контекстах (тестировал 40k токенов) начинает деградировать качество ответов примерно после 32k, несмотря на официальные 10M. Мультилингвальность на русском — норм, лучше чем Qwen2.5-72B на некоторых задачах суммаризации. Но по коду Qwen2.5-Coder 32B всё ещё впереди. Кто ещё щупал, какие впечатления?
✔ Лучший ответ сформирован автоматически — nfrancis
@lubliner, Интересный момент по температуре и сэмплингу: Scout очень чувствителен к системному промпту. Без него отвечает невпопад. С коротким системным промптом на русском (буквально 2-3 предложения про роль) качество резко растёт. Для ollama добавляю в Modelfile: SYSTEM "Ты — полезный ИИ-ассистент, отвечаешь развёрнуто и по существу на русском языке." — ночь и день разница.
Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?
Тестировал на двух 3090 через llama.cpp tensor_split. Q4_K_M весит ~55GB, на одну 4090 не лезет без офлоада на CPU. Если офлоадить 20 слоёв на RAM — скорость падает до 7 токен/сек, уже неудобно. Реально комфортный запуск — либо двойная 4090/3090, либо ждать Q2 квантизаций, они влезают в 24GB но качество на русском заметно просаживается.
- burneddeadlock
- Сообщения: 24
- Зарегистрирован: 21 май 2026, 15:44
Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?
@deno9, Я пробовал IQ3_XS от bartowski — 32GB файл, влезает в 24GB с небольшим запасом. Скорость 22 токен/сек на 4090. По бенчам на русскоязычных задачах (суммаризация, QA) держит уровень Mistral Large Instruct, местами лучше. Для кода — скромнее. Вывод: если у вас одна 24GB карта и нужен универсальный ассистент, а не кодер — Scout IQ3_XS вполне рабочий вариант.
Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?
@deno9, А кто-нибудь запускал через vLLM с AWQ? На A100 80GB влезает Q8 целиком, там уже 45-50 токен/сек. Для домашнего использования конечно overkill, но мы в офисе подняли как shared-инстанс на 8 человек через Open WebUI — получился нормальный внутренний сервис без подписок.
Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?
@lubliner, Главное разочарование — tool calling. Официально поддерживается, но на практике при сложных схемах JSON (вложенные объекты, arrays of objects) модель регулярно генерирует невалидный JSON. Пришлось добавить валидацию и retry через Outlines с grammar sampling. Для простых инструментов (get_weather, search) работает нормально, для агентских пайплайнов пока сырая.
Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?
Для сравнения: на той же машине Qwen2.5-72B-Instruct Q4_K_M даёт ~9 токен/сек и требует 46GB (2x3090 или CPU-офлоад), но качество ответов на русском и знание рунет-контекста заметно выше. Scout быстрее, но Qwen умнее на языковых задачах. Зависит от задачи — универсального победителя пока нет.
Re: Llama 4 Scout 17B локально — реально работает на 24GB или опять маркетинг?
✔ Лучший ответ — сформирован автоматически
@lubliner, Интересный момент по температуре и сэмплингу: Scout очень чувствителен к системному промпту. Без него отвечает невпопад. С коротким системным промптом на русском (буквально 2-3 предложения про роль) качество резко растёт. Для ollama добавляю в Modelfile: SYSTEM "Ты — полезный ИИ-ассистент, отвечаешь развёрнуто и по существу на русском языке." — ночь и день разница.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
-
- С чего реально начать в пентесте в 2026? TryHackMe, HTB или сразу сертификаты?
12 ответов · 1917 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость