Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Mom2 · Сообщение **Mom2** » 29 май 2026, 08:33

Лежал без дела старый комп с 4060 Ti 16GB, в основном стоит 3090. По отдельности 70B никуда не лезет, а вместе 40 гигов VRAM. Решил попробовать rpc-server из llama.cpp, про который все знают и никто не пользуется.

На втором компе: rpc-server -p 50052 -H 0.0.0.0. На основном: llama-server -m Llama-3.3-70B-IQ3_M.gguf --rpc 192.168.1.42:50052 -ngl 99. Все, оно просто работает, слои раскидались сами.

Цифры: генерация 6.8 t/s, prompt processing около 60 t/s. Сеть гигабит, обычный домашний роутер. Боялся, что сеть станет бутылочным горлышком, но при послойном сплите между машинами летают только активации, это копейки, утилизация линка 5-7 процентов.

Нюансы. Первое: prompt processing просел сильнее чем генерация, на длинных промптах ждать тоскливо. Второе: rpc-server это голый TCP без авторизации и шифрования, наружу такое выставлять нельзя вообще. Третье: версии llama.cpp на обеих машинах должны совпадать вплоть до коммита, иначе невнятные падения.

Итого 70B дома за ноль дополнительных рублей. Доволен.

seniorwarlock

а по wifi заведется? кабель тянуть через всю квартиру неохота

madem · Сообщение **madem** » 29 май 2026, 16:07

заведется, но пинг по вайфаю скачет, а тут на каждый токен раундтрип между машинами. будет дергаться. кабель за 300 рублей с озона решает, не ленись

py_wizard · Сообщение **py_wizard** » 29 май 2026, 17:31

6.8 t/s на 70B в IQ3, при этом две машины жрут ватт 600 суммарно. вторая бу 3090 на авито стоит 55-60к и даст те же 48 гигов в одной тушке с вдвое большей скоростью. понимаю что за ноль рублей, но как постоянное решение ну такое

partha · Сообщение **partha** » 29 май 2026, 22:00

py_wizard писал(а):вторая бу 3090 на авито стоит 55-60к и даст те же 48 гигов в одной тушке

если есть куда ее втыкать. у половины людей корпус и БП вторую трехслотовую печку не потянут, плюс райзер, плюс БП на киловатт, и вот уже не 55, а под 80. а тут железо уже есть и стоит по углам квартиры. для домашнего покрутить вечером вариант ТС честнее

depechie · Сообщение **depechie** » 30 май 2026, 02:09

кстати rpc-server собирается и на маке. гонял связку m1 max 32GB плюс комп с 3080, металловский бэкенд с кудой нормально дружат через rpc. скорость не рекорд, но 70B в q3 завелся. у кого зоопарк железа, можно сшивать что есть

semyon2026 · Сообщение **semyon2026** » 30 май 2026, 02:57

Mom2 писал(а):prompt processing просел сильнее чем генерация, на длинных промптах ждать тоскливо

частично лечится. поставь -ub 2048, батч побольше, чтобы реже гонять синхронизации между машинами. и --cache-reuse включи, при повторных запросах с общим префиксом не будет полного пересчета. у меня pp поднялся с 55 до 85 t/s на похожей связке. до одной машины все равно не дотянешь, природа такая, каждый слой ждет предыдущий через сеть

Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Re: Растянул 70B на два компа через rpc-server llama.cpp, гигабитной сети хватило. Но есть нюансы

Кто сейчас на конференции