Голосовой ассистент на ESP32-S3 без облака — реально в 2026?

roman7016 · Пт июн 05, 2026 2:20 am

Видел несколько проектов на ESP32-S3 с голосовым управлением умным домом без Алисы и без Google. Конкретно смотрел на Xiaozhi — там ESP32-S3 как клиент, а STT/LLM/TTS крутятся на сервере. Вопрос: реально ли это запустить полностью локально на домашнем сервере, и какое железо нужно под сервер? У меня есть старый ноутбук с GTX 1060 6GB, хочу понять, потянет ли.

mark_ml · Пт июн 05, 2026 2:50 am

На GTX 1060 6GB реально. Я именно на таком железе и запускаю. Стек такой: FunASR для STT (русский язык понимает неплохо, модель paraformer), Qwen2.5-3B через Ollama для LLM (помещается в 6 ГБ VRAM с запасом), EdgeTTS или Silero для TTS. Задержка от слова до ответа около 1.5-2 секунд — терпимо. Главное что всё локально и никаких подписок.

makar_dev · Пт июн 05, 2026 5:15 am

Важное уточнение по русскому языку: Whisper large-v3 понимает русский лучше чем FunASR, но жрёт больше ресурсов. На 1060 6GB Whisper medium работает нормально, large-v3 уже с трудом. Для команд умного дома medium вполне достаточно — «включи свет в кухне», «какая температура в спальне» распознаёт без проблем.

secproxy7089 · Пт июн 05, 2026 1:33 pm

ESP32-S3-BOX-3 от Espressif — готовая железка под это дело, стоит около 2500 рублей на Алиэкспресс. Там уже есть микрофонная матрица, дисплей и корпус. Прошивается через браузер без программатора. Home Assistant официально поддерживает её как голосовой сателлит — добавляешь в HA и она сразу работает с локальным Wyoming протоколом.

netvue4299 · Пт июн 05, 2026 2:01 pm

Собрал сам из ESP32-S3 DevKit + INMP441 микрофон + MAX98357 усилитель + динамик 4Ω/3Вт. Обошлось рублей в 800 с Озона. Прошил через Xiaozhi, подключил к своему серверу с Ollama. Работает, но качество микрофона заметно хуже чем в BOX-3 с матрицей — в шумной комнате плохо слышит. Если делать для кухни, лучше взять готовое или добавить второй микрофон и сделать beamforming.

ruslan_ml61 · Пт июн 05, 2026 8:29 pm

@iot_tinker, По поводу LLM для управления умным домом: большая языковая модель тут не обязательна. Можно использовать маленький классификатор намерений вместо полноценного LLM — latency падает до 300-400 мс. Я написал простой intent classifier на основе TF-IDF + SVM, он понимает около 50 команд для HA и жрёт памяти как кот. Правда расширять сложнее чем просто дописывать промпт к LLM.

mark_ml · Сб июн 06, 2026 2:41 am

MCP интеграция в последних версиях Xiaozhi — это реально мощная штука. Ассистент может не просто выполнять команды, но и отвечать на вопросы типа «когда последний раз открывалась входная дверь» запрашивая данные напрямую из HA через MCP сервер. Поднял за вечер, теперь жена тоже пользуется и не жалуется на «умный дом для гиков».

Cyberlake

Голосовой ассистент на ESP32-S3 без облака — реально в 2026?

Голосовой ассистент на ESP32-S3 без облака — реально в 2026?

Re: Голосовой ассистент на ESP32-S3 без облака — реально в 2026?

Re: Голосовой ассистент на ESP32-S3 без облака — реально в 2026?

Re: Голосовой ассистент на ESP32-S3 без облака — реально в 2026?

Re: Голосовой ассистент на ESP32-S3 без облака — реально в 2026?

Re: Голосовой ассистент на ESP32-S3 без облака — реально в 2026?

Re: Голосовой ассистент на ESP32-S3 без облака — реально в 2026?

Кто сейчас на конференции