DeepSeek R1 8B на 6GB VRAM запустить реально или нет

Рейтинг: 43.4% · 11 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
gleb_dns92
Сообщения: 11
Зарегистрирован: Пн май 11, 2026 9:38 pm

DeepSeek R1 8B на 6GB VRAM запустить реально или нет

Сообщение gleb_dns92 »

Есть ноутбук с RTX 4060 Laptop (6GB VRAM) и 32GB RAM. Хочу попробовать DeepSeek R1 — именно reasoning-модель, не просто chat. Смотрю на 8B версию. В Ollama есть deepseek-r1:8b, но боюсь что не влезет или будет слишком медленно. Кто пробовал на похожем железе?
👍1 ❤️ 🔥 😄 🤔1
✔ Лучший ответ выбран автором и совпадает с автоматическим подбором — flowgo4491
Важный нюанс про R1: модель генерирует теги ... перед ответом, и этот думающий текст может быть очень длинным — 500-2000 токенов на нетривиальных задачах. Каждый токен занимает место в KV-cache. Если у тебя 6GB и модель займёт 5.1GB, то под контекст остаётся совсем мало. Ollama по умолчанию устанавливает num_ctx 2048, что должно спасти ситуацию, но для реально сложных рассуждений м…
Перейти к ответу →
Аватара пользователя
sergey3164
Сообщения: 2
Зарегистрирован: Пт май 15, 2026 4:03 pm

Re: DeepSeek R1 8B на 6GB VRAM запустить реально или нет

Сообщение sergey3164 »

Влезет. deepseek-r1:8b в дефолтной квантизации Q4_K_M занимает около 5.1GB VRAM. На 4060 Laptop это должно проходить, правда с небольшим запасом — около 700-800MB остаётся на KV-cache, то есть с длинными reasoning-цепочками (они у R1 бывают очень длинными) могут быть проблемы на сложных задачах.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
filipp_code88
Сообщения: 6
Зарегистрирован: Чт май 14, 2026 9:52 pm

Re: DeepSeek R1 8B на 6GB VRAM запустить реально или нет

Сообщение filipp_code88 »

Подтверждаю что работает, у меня 4060 с 8GB, запускал через Ollama. Скорость около 15-18 токенов/сек, что для reasoning-модели вполне норм — она и так думает долго, ждёшь chain of thought. На 6GB будет чуть напряжённее, но попробуй сначала.
👍 ❤️ 🔥1 😄 🤔
Аватара пользователя
flowgo4491
Сообщения: 12
Зарегистрирован: Вс май 10, 2026 8:32 pm

Re: DeepSeek R1 8B на 6GB VRAM запустить реально или нет

Сообщение flowgo4491 »

✔ Лучший ответ — выбран автором и совпадает с авто-подбором
Важный нюанс про R1: модель генерирует теги <think>...</think> перед ответом, и этот думающий текст может быть очень длинным — 500-2000 токенов на нетривиальных задачах. Каждый токен занимает место в KV-cache. Если у тебя 6GB и модель займёт 5.1GB, то под контекст остаётся совсем мало. Ollama по умолчанию устанавливает num_ctx 2048, что должно спасти ситуацию, но для реально сложных рассуждений может не хватить.
👍 ❤️1 🔥1 😄 🤔1
Аватара пользователя
svetlana_ssh
Сообщения: 1
Зарегистрирован: Пт май 15, 2026 10:20 am

Re: DeepSeek R1 8B на 6GB VRAM запустить реально или нет

Сообщение svetlana_ssh »

Если 8B покажется тесновато — есть ещё вариант с дистиллированными версиями R1. На Hugging Face есть DeepSeek-R1-Distill-Qwen-1.5B и 7B — это Qwen модели дообученные на reasoning данных от R1. 7B-версия в Q4_K_M занимает ~4.4GB и работает заметно шустрее при сопоставимом качестве рассуждений на стандартных задачах.
👍2 ❤️ 🔥 😄 🤔
Аватара пользователя
semyon7320
Сообщения: 14
Зарегистрирован: Сб май 16, 2026 3:00 am

Re: DeepSeek R1 8B на 6GB VRAM запустить реально или нет

Сообщение semyon7320 »

Для запуска через Ollama просто: ollama pull deepseek-r1:8b и потом ollama run deepseek-r1:8b. В процессе запуска в логах (ollama serve в отдельном терминале) увидишь сколько реально VRAM взяла модель. Если не хватает GPU памяти, Ollama автоматически начнёт offload слоёв в RAM — будет медленнее, но работать будет.
👍1 ❤️ 🔥 😄1 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость