Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?
Рейтинг: 43.6% · 6 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?
Вышел Llama 4 Scout с заявленным контекстом 10M токенов и якобы работой на потребительских видеокартах. Официально говорят про 8GB, но на практике у меня RTX 3070 даже Q4_K_M грузится с трудом — постоянно падает в CPU offload и генерирует со скоростью 3-4 токена в секунду. Кто реально запускал? Какой квант брать и какие параметры llama.cpp передавать чтобы хоть 15-20 т/с выдавало?
Re: Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?
Я на 3080 10GB гонял. Брал IQ3_XS от bartowski — влезает почти впритык, примерно 9.6GB занято. Скорость около 18 т/с при -ngl 99. Главное не забыть --flash-attn, без него вообще грустно. Контекст больше 8K всё равно не ставлю, смысла нет для повседневных задач.
Re: Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?
Честно говоря, Scout у меня вызвал меньше восторга, чем Maverick. Scout заточен под длинный контекст и агентные задачи, а не под болтовню. Если тебе нужна просто умная беседа или код — Qwen3-14B в Q5 на той же карте будет шустрее и субъективно не хуже по качеству.
Re: Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?
Пробовал через LM Studio 0.3.x — там теперь есть авто-выбор кванта по доступной памяти. Для 8GB он сам ставит Q3_K_M и включает partial offload. Не идеально, но 10-12 т/с даёт. Для домашнего использования вполне. Плюс не надо руками параметры подбирать.
Re: Llama 4 Scout на 8GB VRAM — реально запустить или маркетинг?
@add007, Важный момент: заявленные 10M токенов контекста это синтетический тест, не реальная работа. На 8GB при таком контексте всё уходит в RAM и скорость падает до единиц токенов в секунду. Реальный рабочий контекст для 8GB — максимум 16-32K. Маркетинг, да.
- sergeyserov
- Сообщения: 56
- Зарегистрирован: 12 май 2026, 05:59
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
-
- С чего реально начать в пентесте в 2026? TryHackMe, HTB или сразу сертификаты?
12 ответов · 1917 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя