Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Рейтинг: 43.6% · 6 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
luckysms
Сообщения: 19
Зарегистрирован: 21 май 2026, 01:10

Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Сообщение luckysms »

Вышел Llama 4 Scout с заявленным контекстом 10M токенов и якобы работой на потребительских видеокартах. Официально говорят про 8GB, но на практике у меня RTX 3070 даже Q4_K_M грузится с трудом — постоянно падает в CPU offload и генерирует со скоростью 3-4 токена в секунду. Кто реально запускал? Какой квант брать и какие параметры llama.cpp передавать чтобы хоть 15-20 т/с выдавало?
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
add007
Сообщения: 15
Зарегистрирован: 11 май 2026, 11:11

Re: Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Сообщение add007 »

Я на 3080 10GB гонял. Брал IQ3_XS от bartowski — влезает почти впритык, примерно 9.6GB занято. Скорость около 18 т/с при -ngl 99. Главное не забыть --flash-attn, без него вообще грустно. Контекст больше 8K всё равно не ставлю, смысла нет для повседневных задач.
👍 ❤️ 🔥 😄2 🤔
Аватара пользователя
vuemaker
Сообщения: 34
Зарегистрирован: 22 май 2026, 16:44

Re: Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Сообщение vuemaker »

Честно говоря, Scout у меня вызвал меньше восторга, чем Maverick. Scout заточен под длинный контекст и агентные задачи, а не под болтовню. Если тебе нужна просто умная беседа или код — Qwen3-14B в Q5 на той же карте будет шустрее и субъективно не хуже по качеству.
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
causious
Сообщения: 30
Зарегистрирован: 13 май 2026, 16:00

Re: Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Сообщение causious »

Пробовал через LM Studio 0.3.x — там теперь есть авто-выбор кванта по доступной памяти. Для 8GB он сам ставит Q3_K_M и включает partial offload. Не идеально, но 10-12 т/с даёт. Для домашнего использования вполне. Плюс не надо руками параметры подбирать.
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
Version
Сообщения: 68
Зарегистрирован: 11 май 2026, 03:17

Re: Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Сообщение Version »

@add007, Важный момент: заявленные 10M токенов контекста это синтетический тест, не реальная работа. На 8GB при таком контексте всё уходит в RAM и скорость падает до единиц токенов в секунду. Реальный рабочий контекст для 8GB — максимум 16-32K. Маркетинг, да.
👍 ❤️ 🔥1 😄 🤔1
Аватара пользователя
sergeyserov
Сообщения: 56
Зарегистрирован: 12 май 2026, 05:59

Re: Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Сообщение sergeyserov »

Согласен с предыдущим. Я вообще перешёл на Gemma 3 27B в Q4 — у неё соотношение качество/скорость на мой взгляд лучше для кодовых задач. Scout буду ждать когда куплю 4090, там хоть нормально поиграться.
👍 ❤️ 🔥2 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя