Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Рейтинг: 34.2% · 2 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
Mom2
Сообщения: 19
Зарегистрирован: 11 май 2026, 03:18

Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Сообщение Mom2 »

Лежал без дела старый комп с 4060 Ti 16GB, в основном стоит 3090. По отдельности 70B никуда не лезет, а вместе 40 гигов VRAM. Решил попробовать rpc-server из llama.cpp, про который все знают и никто не пользуется.

На втором компе: rpc-server -p 50052 -H 0.0.0.0. На основном: llama-server -m Llama-3.3-70B-IQ3_M.gguf --rpc 192.168.1.42:50052 -ngl 99. Все, оно просто работает, слои раскидались сами.

Цифры: генерация 6.8 t/s, prompt processing около 60 t/s. Сеть гигабит, обычный домашний роутер. Боялся, что сеть станет бутылочным горлышком, но при послойном сплите между машинами летают только активации, это копейки, утилизация линка 5-7 процентов.

Нюансы. Первое: prompt processing просел сильнее чем генерация, на длинных промптах ждать тоскливо. Второе: rpc-server это голый TCP без авторизации и шифрования, наружу такое выставлять нельзя вообще. Третье: версии llama.cpp на обеих машинах должны совпадать вплоть до коммита, иначе невнятные падения.

Итого 70B дома за ноль дополнительных рублей. Доволен.
👍1 ❤️2 🔥1 😄 🤔
✔ Лучший ответ сформирован автоматически — semyon2026
Mom2 писал(а):prompt processing просел сильнее чем генерация, на длинных промптах ждать тоскливо частично лечится. поставь -ub 2048, батч побольше, чтобы реже гонять синхронизации между машинами. и --cache-reuse включи, при повторных запросах с общим префиксом не будет полного пересчета. у меня pp поднялся с 55 до 85 t/s на похожей связке. до одной машины все равно не дотянешь, природа такая, каж…
Перейти к ответу →
Аватара пользователя
seniorwarlock
Сообщения: 57
Зарегистрирован: 12 май 2026, 00:23

Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Сообщение seniorwarlock »

а по wifi заведется? кабель тянуть через всю квартиру неохота
👍 ❤️1 🔥 😄2 🤔1
Аватара пользователя
madem
Сообщения: 11
Зарегистрирован: 13 май 2026, 14:24

Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Сообщение madem »

заведется, но пинг по вайфаю скачет, а тут на каждый токен раундтрип между машинами. будет дергаться. кабель за 300 рублей с озона решает, не ленись
👍2 ❤️ 🔥2 😄 🤔
Аватара пользователя
py_wizard
Сообщения: 28
Зарегистрирован: 19 май 2026, 15:41

Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Сообщение py_wizard »

6.8 t/s на 70B в IQ3, при этом две машины жрут ватт 600 суммарно. вторая бу 3090 на авито стоит 55-60к и даст те же 48 гигов в одной тушке с вдвое большей скоростью. понимаю что за ноль рублей, но как постоянное решение ну такое
👍2 ❤️1 🔥 😄 🤔
Аватара пользователя
partha
Сообщения: 16
Зарегистрирован: 11 май 2026, 08:40

Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Сообщение partha »

py_wizard писал(а):вторая бу 3090 на авито стоит 55-60к и даст те же 48 гигов в одной тушке
если есть куда ее втыкать. у половины людей корпус и БП вторую трехслотовую печку не потянут, плюс райзер, плюс БП на киловатт, и вот уже не 55, а под 80. а тут железо уже есть и стоит по углам квартиры. для домашнего покрутить вечером вариант ТС честнее
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
depechie
Сообщения: 67
Зарегистрирован: 11 май 2026, 11:32

Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Сообщение depechie »

кстати rpc-server собирается и на маке. гонял связку m1 max 32GB плюс комп с 3080, металловский бэкенд с кудой нормально дружат через rpc. скорость не рекорд, но 70B в q3 завелся. у кого зоопарк железа, можно сшивать что есть
👍 ❤️2 🔥 😄 🤔
Аватара пользователя
semyon2026
Сообщения: 14
Зарегистрирован: 28 май 2026, 18:41

Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Сообщение semyon2026 »

✔ Лучший ответ — сформирован автоматически
Mom2 писал(а):prompt processing просел сильнее чем генерация, на длинных промптах ждать тоскливо
частично лечится. поставь -ub 2048, батч побольше, чтобы реже гонять синхронизации между машинами. и --cache-reuse включи, при повторных запросах с общим префиксом не будет полного пересчета. у меня pp поднялся с 55 до 85 t/s на похожей связке. до одной машины все равно не дотянешь, природа такая, каждый слой ждет предыдущий через сеть
👍1 ❤️ 🔥 😄1 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость