Взял две Tesla P40 с авито под 70B, лучше бы не брал
Рейтинг: 52.4% · 14 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- rust_ninja
- Сообщения: 2
- Зарегистрирован: 12 май 2026, 15:00
Взял две Tesla P40 с авито под 70B, лучше бы не брал
Короче история. В апреле увидел на авито две P40 по 18500 у барыги из Новосиба, продавал партией после разбора серверов. Подумал, 48 гигов врама за 37к, халява же, 70B влезет в Q4. Взял.
Что по факту. Карты серверные, своего охлаждения нет, купил турбинки на озоне по 1400, шум как у пылесоса. Дальше выяснилось что паскаль это 2016 год и fp16 там кастрированный, считается фактически через fp32. Llama-3.3-70B Q4_K_M запустилась, выдает 4.2 t/s генерации. Но это полбеды. Обработка промпта 60-80 t/s, то есть закинул файл на 8к токенов и ждешь две минуты до первого слова.
Пробовал -sm row, стало 5.1 t/s, ну такое. vLLM на паскале уже официально не собирается. В итоге риг гудит, жрет 500 ватт из розетки и проигрывает по удобству бесплатному лимиту на опенроутере. Не повторяйте моих ошибок.
Что по факту. Карты серверные, своего охлаждения нет, купил турбинки на озоне по 1400, шум как у пылесоса. Дальше выяснилось что паскаль это 2016 год и fp16 там кастрированный, считается фактически через fp32. Llama-3.3-70B Q4_K_M запустилась, выдает 4.2 t/s генерации. Но это полбеды. Обработка промпта 60-80 t/s, то есть закинул файл на 8к токенов и ждешь две минуты до первого слова.
Пробовал -sm row, стало 5.1 t/s, ну такое. vLLM на паскале уже официально не собирается. В итоге риг гудит, жрет 500 ватт из розетки и проигрывает по удобству бесплатному лимиту на опенроутере. Не повторяйте моих ошибок.
✔ Лучший ответ сформирован автоматически — nixos69
@rust_ninja, не соглашусь что ноль. у меня пара p40 третий год пашет, но я на них держу qwen 14b и эмбеддинги для rag, для такого они норм. 70b на паскалях это ты сам себе злой буратино, тут вопросов нет. и кстати flash attention в llama.cpp на p40 работает, -fa включал? у меня промпт процессинг с ним процентов на 30 бодрее
Re: Взял две Tesla P40 с авито под 70B, лучше бы не брал
✔ Лучший ответ — сформирован автоматически
@rust_ninja, не соглашусь что ноль. у меня пара p40 третий год пашет, но я на них держу qwen 14b и эмбеддинги для rag, для такого они норм. 70b на паскалях это ты сам себе злой буратино, тут вопросов нет. и кстати flash attention в llama.cpp на p40 работает, -fa включал? у меня промпт процессинг с ним процентов на 30 бодрее
Re: Взял две Tesla P40 с авито под 70B, лучше бы не брал
@rust_ninja, повезло еще что рабочие пришли. мне в том году под видом p40 приехала m40 с перебитой наклейкой. авито деньги вернул, но только после месяца переписки с поддержкой
- seniorsamurai
- Сообщения: 44
- Зарегистрирован: 15 май 2026, 19:29
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
- *arr стек настроил, а Usenet vs торренты в 2026 — что реально лучше для автоматизации?
10 ответов · 1106 просмотров
-
-
-
-
- Стоит ли доверять облачным менеджерам паролей типа Bitwarden или лучше KeePass
9 ответов · 23 просмотров
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость