Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

Рейтинг: 30.1% · 4 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
tomcruz
Сообщения: 29
Зарегистрирован: 12 май 2026, 18:25

Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

Сообщение tomcruz »

Контора занимается оптовкой, бухгалтерия тонет в сканах: счета-фактуры, накладные, УПД, штук 300-500 в день. Качество дно, половина это фото с телефона под углом, есть факсы (да, в 2026, не спрашивайте). Надо вытаскивать в json: контрагент, номер, дата, табличная часть с позициями и суммами.

В облако нельзя от слова совсем, персданные плюс безопасники с 152-ФЗ наперевес. Есть сервак с одной A4000 на 16 гигов.

Tesseract пробовал, на таблицах разваливается полностью, строки едут. Смотрю в сторону VLM: Qwen2.5-VL 7B, MiniCPM-V, видел еще dots.ocr хвалят. Кто-нибудь гонял подобное в проде на похожем железе? Что по точности на русских документах?
👍1 ❤️1 🔥2 😄 🤔
✔ Лучший ответ сформирован автоматически — sergeyserov
sleepypanic писал(а):а чем яндексовский ocr не угодил? через api копейки стоит оп русским языком написал: в облако нельзя, безопасники. читаем первый пост, потом советуем. по теме: глянь еще PaddleOCR-VL и dots.ocr, обе мелкие, на A4000 летают, и обе заточены под документы с таблицами. dots на наших накладных по структуре таблиц показала себя лучше квена, но поля шапки путала чаще. я бы прогнал с…
Перейти к ответу →
Аватара пользователя
Austkin
Сообщения: 83
Зарегистрирован: 11 май 2026, 03:40

Re: Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

Сообщение Austkin »

Qwen2.5-VL 7B на 16 гигов влезает в Q8 с запасом, у меня похожий пайплайн. Структуру и табличную часть вытаскивает хорошо, с русским проблем нет. Но есть жирное но: числа иногда галлюцинирует. Нечасто, процента 2-3 документов, но сумму 14 280 может прочитать как 14 230 и глазом не моргнуть. Для бухгалтерии это приговор, так что валидация кодом обязательна: суммы по строкам против итога, итог против суммы прописью, если есть. Что не сошлось, то в ручную разборку.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
rtrowsdell
Сообщения: 33
Зарегистрирован: 11 май 2026, 21:50

Re: Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

Сообщение rtrowsdell »

по опыту качество препроцессинга решает больше, чем выбор модели. deskew, обрезка полей, бинаризация через opencv, и точность любого vlm подскакивает процентов на 10-15 именно на фотках с телефона. на ровных сканах разницы почти нет. так что сначала выпрямлялку, потом уже модели сравнивать
👍2 ❤️ 🔥 😄1 🤔
Аватара пользователя
RabbitNerd
Сообщения: 11
Зарегистрирован: 25 май 2026, 05:20

Re: Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

Сообщение RabbitNerd »

Austkin писал(а):сумму 14 280 может прочитать как 14 230 и глазом не моргнуть
вот поэтому мы в итоге ушли на гибрид. vlm размечает структуру документа, где какая ячейка и что за поле, а сами цифры читает классический ocr. он либо читает правильно, либо честно фейлится, но не сочиняет. связка дала меньше процента ошибок против трех с чистым vlm. возни больше, но когда речь про деньги, по-другому никак
👍1 ❤️ 🔥 😄1 🤔
Аватара пользователя
sleepypanic
Сообщения: 71
Зарегистрирован: 11 май 2026, 01:26

Re: Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

Сообщение sleepypanic »

а чем яндексовский ocr не угодил? через api копейки стоит, таблицы понимает
👍 ❤️2 🔥1 😄 🤔
Аватара пользователя
sergeyserov
Сообщения: 56
Зарегистрирован: 12 май 2026, 05:59

Re: Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

Сообщение sergeyserov »

✔ Лучший ответ — сформирован автоматически
sleepypanic писал(а):а чем яндексовский ocr не угодил? через api копейки стоит
оп русским языком написал: в облако нельзя, безопасники. читаем первый пост, потом советуем. по теме: глянь еще PaddleOCR-VL и dots.ocr, обе мелкие, на A4000 летают, и обе заточены под документы с таблицами. dots на наших накладных по структуре таблиц показала себя лучше квена, но поля шапки путала чаще. я бы прогнал сотню своих доков через все три и посчитал, тестовый датасет у тебя уже есть
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей