Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы
Рейтинг: 34.2% · 2 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы
Лежал без дела старый комп с 4060 Ti 16GB, в основном стоит 3090. По отдельности 70B никуда не лезет, а вместе 40 гигов VRAM. Решил попробовать rpc-server из llama.cpp, про который все знают и никто не пользуется.
На втором компе: rpc-server -p 50052 -H 0.0.0.0. На основном: llama-server -m Llama-3.3-70B-IQ3_M.gguf --rpc 192.168.1.42:50052 -ngl 99. Все, оно просто работает, слои раскидались сами.
Цифры: генерация 6.8 t/s, prompt processing около 60 t/s. Сеть гигабит, обычный домашний роутер. Боялся, что сеть станет бутылочным горлышком, но при послойном сплите между машинами летают только активации, это копейки, утилизация линка 5-7 процентов.
Нюансы. Первое: prompt processing просел сильнее чем генерация, на длинных промптах ждать тоскливо. Второе: rpc-server это голый TCP без авторизации и шифрования, наружу такое выставлять нельзя вообще. Третье: версии llama.cpp на обеих машинах должны совпадать вплоть до коммита, иначе невнятные падения.
Итого 70B дома за ноль дополнительных рублей. Доволен.
На втором компе: rpc-server -p 50052 -H 0.0.0.0. На основном: llama-server -m Llama-3.3-70B-IQ3_M.gguf --rpc 192.168.1.42:50052 -ngl 99. Все, оно просто работает, слои раскидались сами.
Цифры: генерация 6.8 t/s, prompt processing около 60 t/s. Сеть гигабит, обычный домашний роутер. Боялся, что сеть станет бутылочным горлышком, но при послойном сплите между машинами летают только активации, это копейки, утилизация линка 5-7 процентов.
Нюансы. Первое: prompt processing просел сильнее чем генерация, на длинных промптах ждать тоскливо. Второе: rpc-server это голый TCP без авторизации и шифрования, наружу такое выставлять нельзя вообще. Третье: версии llama.cpp на обеих машинах должны совпадать вплоть до коммита, иначе невнятные падения.
Итого 70B дома за ноль дополнительных рублей. Доволен.
✔ Лучший ответ сформирован автоматически — semyon2026
Mom2 писал(а):prompt processing просел сильнее чем генерация, на длинных промптах ждать тоскливо частично лечится. поставь -ub 2048, батч побольше, чтобы реже гонять синхронизации между машинами. и --cache-reuse включи, при повторных запросах с общим префиксом не будет полного пересчета. у меня pp поднялся с 55 до 85 t/s на похожей связке. до одной машины все равно не дотянешь, природа такая, каж…
- seniorwarlock
- Сообщения: 57
- Зарегистрирован: 12 май 2026, 00:23
Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы
6.8 t/s на 70B в IQ3, при этом две машины жрут ватт 600 суммарно. вторая бу 3090 на авито стоит 55-60к и даст те же 48 гигов в одной тушке с вдвое большей скоростью. понимаю что за ноль рублей, но как постоянное решение ну такое
Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы
если есть куда ее втыкать. у половины людей корпус и БП вторую трехслотовую печку не потянут, плюс райзер, плюс БП на киловатт, и вот уже не 55, а под 80. а тут железо уже есть и стоит по углам квартиры. для домашнего покрутить вечером вариант ТС честнееpy_wizard писал(а):вторая бу 3090 на авито стоит 55-60к и даст те же 48 гигов в одной тушке
Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы
кстати rpc-server собирается и на маке. гонял связку m1 max 32GB плюс комп с 3080, металловский бэкенд с кудой нормально дружат через rpc. скорость не рекорд, но 70B в q3 завелся. у кого зоопарк железа, можно сшивать что есть
- semyon2026
- Сообщения: 14
- Зарегистрирован: 28 май 2026, 18:41
Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы
✔ Лучший ответ — сформирован автоматически
частично лечится. поставь -ub 2048, батч побольше, чтобы реже гонять синхронизации между машинами. и --cache-reuse включи, при повторных запросах с общим префиксом не будет полного пересчета. у меня pp поднялся с 55 до 85 t/s на похожей связке. до одной машины все равно не дотянешь, природа такая, каждый слой ждет предыдущий через сетьMom2 писал(а):prompt processing просел сильнее чем генерация, на длинных промптах ждать тоскливо
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
- Serverless — это всё ещё хайп или реально дешевле? Посчитал Lambda vs обычный контейнер
8 ответов · 363 просмотров
-
- React Server Components — реально ли они нужны или Vercel просто навязывает свой хостинг?
6 ответов · 21 просмотров
-
- Serverless для AI-инференса — реально ли это в 2026 или нужны постоянные GPU?
6 ответов · 21 просмотров
-
-
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость