▲ За 10
▼ Против 20
Рейтинг: 19.2 % · 30 голосов
Войдите, чтобы голосовать
×
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
roman_js5
Сообщения: 26 Зарегистрирован: Пн май 11, 2026 12:17 am
Сообщение
roman_js5 » Вт июн 02, 2026 11:23 pm
lurker42, бери Ollama или llama-server. API есть, GGUF тянет любой, VRAM не отжирает всю. vLLM подключишь когда юзеров станет больше одного.
webproxy2636
Сообщения: 11 Зарегистрирован: Вс май 10, 2026 10:00 pm
Сообщение
webproxy2636 » Ср июн 03, 2026 8:01 am
lurker42, +1 к Ollama для старта. Когда упрёшься в потолок по конкуренции, тогда vLLM. Не раньше.
kira_api82
Сообщения: 29 Зарегистрирован: Вт май 12, 2026 8:49 am
Сообщение
kira_api82 » Ср июн 03, 2026 9:00 am
Ещё момент: vLLM апдейтится агрессивно, ломающие изменения прилетают регулярно. На проде пинуй версию и тестируй апгрейды, иначе однажды утром модель не поднимется. Нас так пару раз кусало.
jscode1641
Сообщения: 32 Зарегистрирован: Ср май 13, 2026 9:49 am
Сообщение
jscode1641 » Ср июн 03, 2026 10:30 am
Резюме треда: один юзер = llama.cpp/Ollama, много юзеров и throughput = vLLM, edge/оффлайн = llama.cpp. Формат моделей не путаем. Всё, можно закрывать.
cachego9376
Сообщения: 22 Зарегистрирован: Вт май 12, 2026 2:46 pm
Сообщение
cachego9376 » Чт июн 04, 2026 7:13 am
perf_freak, идеальное саммари, добавлю в закладки чтобы кидать ссылку вместо ответа в следующих десяти тредах.
Поделиться темой:
✈ Telegram
VK
⧉ Копировать ссылку
Поделиться…
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость