Взял две Tesla P40 с авито под 70B, лучше бы не брал

Рейтинг: 52.4% · 14 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
rust_ninja
Сообщения: 2
Зарегистрирован: 12 май 2026, 15:00

Взял две Tesla P40 с авито под 70B, лучше бы не брал

Сообщение rust_ninja »

Короче история. В апреле увидел на авито две P40 по 18500 у барыги из Новосиба, продавал партией после разбора серверов. Подумал, 48 гигов врама за 37к, халява же, 70B влезет в Q4. Взял.

Что по факту. Карты серверные, своего охлаждения нет, купил турбинки на озоне по 1400, шум как у пылесоса. Дальше выяснилось что паскаль это 2016 год и fp16 там кастрированный, считается фактически через fp32. Llama-3.3-70B Q4_K_M запустилась, выдает 4.2 t/s генерации. Но это полбеды. Обработка промпта 60-80 t/s, то есть закинул файл на 8к токенов и ждешь две минуты до первого слова.

Пробовал -sm row, стало 5.1 t/s, ну такое. vLLM на паскале уже официально не собирается. В итоге риг гудит, жрет 500 ватт из розетки и проигрывает по удобству бесплатному лимиту на опенроутере. Не повторяйте моих ошибок.
👍1 ❤️1 🔥2 😄 🤔
✔ Лучший ответ сформирован автоматически — nixos69
@rust_ninja, не соглашусь что ноль. у меня пара p40 третий год пашет, но я на них держу qwen 14b и эмбеддинги для rag, для такого они норм. 70b на паскалях это ты сам себе злой буратино, тут вопросов нет. и кстати flash attention в llama.cpp на p40 работает, -fa включал? у меня промпт процессинг с ним процентов на 30 бодрее
Перейти к ответу →
Аватара пользователя
mstrbates
Сообщения: 88
Зарегистрирован: 11 май 2026, 00:45

Re: Взял две Tesla P40 с авито под 70B, лучше бы не брал

Сообщение mstrbates »

ну а что ты хотел от железки 2016 года за 18к. это все проходили еще в 2024, p40 брали когда 3090 стоила 90+, сейчас смысла ноль
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
nixos69
Сообщения: 35
Зарегистрирован: 12 май 2026, 17:56

Re: Взял две Tesla P40 с авито под 70B, лучше бы не брал

Сообщение nixos69 »

✔ Лучший ответ — сформирован автоматически
@rust_ninja, не соглашусь что ноль. у меня пара p40 третий год пашет, но я на них держу qwen 14b и эмбеддинги для rag, для такого они норм. 70b на паскалях это ты сам себе злой буратино, тут вопросов нет. и кстати flash attention в llama.cpp на p40 работает, -fa включал? у меня промпт процессинг с ним процентов на 30 бодрее
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
FpgaDev
Сообщения: 43
Зарегистрирован: 12 май 2026, 04:40

Re: Взял две Tesla P40 с авито под 70B, лучше бы не брал

Сообщение FpgaDev »

@rust_ninja, повезло еще что рабочие пришли. мне в том году под видом p40 приехала m40 с перебитой наклейкой. авито деньги вернул, но только после месяца переписки с поддержкой
👍 ❤️2 🔥1 😄 🤔
Аватара пользователя
sepiatone
Сообщения: 30
Зарегистрирован: 20 май 2026, 09:19

Re: Взял две Tesla P40 с авито под 70B, лучше бы не брал

Сообщение sepiatone »

продавай пока на них спрос есть, студенты под эмбеддинги до сих пор берут. одна 3090 с авито за 58-62к закроет 90 процентов твоих хотелок. да и 70b в 2026 уже не особо нужен, нынешние 30-32b их догнали
👍 ❤️2 🔥 😄 🤔
Аватара пользователя
seniorsamurai
Сообщения: 44
Зарегистрирован: 15 май 2026, 19:29

Re: Взял две Tesla P40 с авито под 70B, лучше бы не брал

Сообщение seniorsamurai »

а бп какой? у p40 пики до 250 ватт на карту, плюс ксеон. если там чифтек на 650 то проблемы у тебя не только в картах
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
rawgoblin
Сообщения: 39
Зарегистрирован: 13 май 2026, 07:42

Re: Взял две Tesla P40 с авито под 70B, лучше бы не брал

Сообщение rawgoblin »

+1 к продавай. сам наступил на эти грабли в январе, скинул через месяц с минусом в 4к и считаю что дешево отделался
👍2 ❤️ 🔥1 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость