Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?
Рейтинг: 30.1% · 4 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?
Контора занимается оптовкой, бухгалтерия тонет в сканах: счета-фактуры, накладные, УПД, штук 300-500 в день. Качество дно, половина это фото с телефона под углом, есть факсы (да, в 2026, не спрашивайте). Надо вытаскивать в json: контрагент, номер, дата, табличная часть с позициями и суммами.
В облако нельзя от слова совсем, персданные плюс безопасники с 152-ФЗ наперевес. Есть сервак с одной A4000 на 16 гигов.
Tesseract пробовал, на таблицах разваливается полностью, строки едут. Смотрю в сторону VLM: Qwen2.5-VL 7B, MiniCPM-V, видел еще dots.ocr хвалят. Кто-нибудь гонял подобное в проде на похожем железе? Что по точности на русских документах?
В облако нельзя от слова совсем, персданные плюс безопасники с 152-ФЗ наперевес. Есть сервак с одной A4000 на 16 гигов.
Tesseract пробовал, на таблицах разваливается полностью, строки едут. Смотрю в сторону VLM: Qwen2.5-VL 7B, MiniCPM-V, видел еще dots.ocr хвалят. Кто-нибудь гонял подобное в проде на похожем железе? Что по точности на русских документах?
✔ Лучший ответ сформирован автоматически — sergeyserov
sleepypanic писал(а):а чем яндексовский ocr не угодил? через api копейки стоит оп русским языком написал: в облако нельзя, безопасники. читаем первый пост, потом советуем. по теме: глянь еще PaddleOCR-VL и dots.ocr, обе мелкие, на A4000 летают, и обе заточены под документы с таблицами. dots на наших накладных по структуре таблиц показала себя лучше квена, но поля шапки путала чаще. я бы прогнал с…
Re: Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?
Qwen2.5-VL 7B на 16 гигов влезает в Q8 с запасом, у меня похожий пайплайн. Структуру и табличную часть вытаскивает хорошо, с русским проблем нет. Но есть жирное но: числа иногда галлюцинирует. Нечасто, процента 2-3 документов, но сумму 14 280 может прочитать как 14 230 и глазом не моргнуть. Для бухгалтерии это приговор, так что валидация кодом обязательна: суммы по строкам против итога, итог против суммы прописью, если есть. Что не сошлось, то в ручную разборку.
- rtrowsdell
- Сообщения: 33
- Зарегистрирован: 11 май 2026, 21:50
Re: Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?
по опыту качество препроцессинга решает больше, чем выбор модели. deskew, обрезка полей, бинаризация через opencv, и точность любого vlm подскакивает процентов на 10-15 именно на фотках с телефона. на ровных сканах разницы почти нет. так что сначала выпрямлялку, потом уже модели сравнивать
- RabbitNerd
- Сообщения: 11
- Зарегистрирован: 25 май 2026, 05:20
Re: Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?
вот поэтому мы в итоге ушли на гибрид. vlm размечает структуру документа, где какая ячейка и что за поле, а сами цифры читает классический ocr. он либо читает правильно, либо честно фейлится, но не сочиняет. связка дала меньше процента ошибок против трех с чистым vlm. возни больше, но когда речь про деньги, по-другому никакAustkin писал(а):сумму 14 280 может прочитать как 14 230 и глазом не моргнуть
- sleepypanic
- Сообщения: 71
- Зарегистрирован: 11 май 2026, 01:26
- sergeyserov
- Сообщения: 56
- Зарегистрирован: 12 май 2026, 05:59
Re: Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?
✔ Лучший ответ — сформирован автоматически
оп русским языком написал: в облако нельзя, безопасники. читаем первый пост, потом советуем. по теме: глянь еще PaddleOCR-VL и dots.ocr, обе мелкие, на A4000 летают, и обе заточены под документы с таблицами. dots на наших накладных по структуре таблиц показала себя лучше квена, но поля шапки путала чаще. я бы прогнал сотню своих доков через все три и посчитал, тестовый датасет у тебя уже естьsleepypanic писал(а):а чем яндексовский ocr не угодил? через api копейки стоит
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
-
- С чего реально начать в пентесте в 2026? TryHackMe, HTB или сразу сертификаты?
12 ответов · 1917 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей