Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

luckysms · Сообщение **luckysms** » 08 июн 2026, 11:26

Вышел Llama 4 Scout с заявленным контекстом 10M токенов и якобы работой на потребительских видеокартах. Официально говорят про 8GB, но на практике у меня RTX 3070 даже Q4_K_M грузится с трудом — постоянно падает в CPU offload и генерирует со скоростью 3-4 токена в секунду. Кто реально запускал? Какой квант брать и какие параметры llama.cpp передавать чтобы хоть 15-20 т/с выдавало?

add007 · Сообщение **add007** » 08 июн 2026, 14:50

Я на 3080 10GB гонял. Брал IQ3_XS от bartowski — влезает почти впритык, примерно 9.6GB занято. Скорость около 18 т/с при -ngl 99. Главное не забыть --flash-attn, без него вообще грустно. Контекст больше 8K всё равно не ставлю, смысла нет для повседневных задач.

vuemaker · Сообщение **vuemaker** » 08 июн 2026, 17:37

Честно говоря, Scout у меня вызвал меньше восторга, чем Maverick. Scout заточен под длинный контекст и агентные задачи, а не под болтовню. Если тебе нужна просто умная беседа или код — Qwen3-14B в Q5 на той же карте будет шустрее и субъективно не хуже по качеству.

causious · Сообщение **causious** » 08 июн 2026, 21:17

Пробовал через LM Studio 0.3.x — там теперь есть авто-выбор кванта по доступной памяти. Для 8GB он сам ставит Q3_K_M и включает partial offload. Не идеально, но 10-12 т/с даёт. Для домашнего использования вполне. Плюс не надо руками параметры подбирать.

Version · Сообщение **Version** » 08 июн 2026, 23:33

@add007, Важный момент: заявленные 10M токенов контекста это синтетический тест, не реальная работа. На 8GB при таком контексте всё уходит в RAM и скорость падает до единиц токенов в секунду. Реальный рабочий контекст для 8GB — максимум 16-32K. Маркетинг, да.

sergeyserov · Сообщение **sergeyserov** » 09 июн 2026, 03:06

Согласен с предыдущим. Я вообще перешёл на Gemma 3 27B в Q4 — у неё соотношение качество/скорость на мой взгляд лучше для кодовых задач. Scout буду ждать когда куплю 4090, там хоть нормально поиграться.

Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Re: Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Re: Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Re: Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Re: Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Re: Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?

Кто сейчас на конференции