Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

tomcruz · Сообщение **tomcruz** » 06 июн 2026, 21:05

Контора занимается оптовкой, бухгалтерия тонет в сканах: счета-фактуры, накладные, УПД, штук 300-500 в день. Качество дно, половина это фото с телефона под углом, есть факсы (да, в 2026, не спрашивайте). Надо вытаскивать в json: контрагент, номер, дата, табличная часть с позициями и суммами.

В облако нельзя от слова совсем, персданные плюс безопасники с 152-ФЗ наперевес. Есть сервак с одной A4000 на 16 гигов.

Tesseract пробовал, на таблицах разваливается полностью, строки едут. Смотрю в сторону VLM: Qwen2.5-VL 7B, MiniCPM-V, видел еще dots.ocr хвалят. Кто-нибудь гонял подобное в проде на похожем железе? Что по точности на русских документах?

Austkin · Сообщение **Austkin** » 07 июн 2026, 01:12

Qwen2.5-VL 7B на 16 гигов влезает в Q8 с запасом, у меня похожий пайплайн. Структуру и табличную часть вытаскивает хорошо, с русским проблем нет. Но есть жирное но: числа иногда галлюцинирует. Нечасто, процента 2-3 документов, но сумму 14 280 может прочитать как 14 230 и глазом не моргнуть. Для бухгалтерии это приговор, так что валидация кодом обязательна: суммы по строкам против итога, итог против суммы прописью, если есть. Что не сошлось, то в ручную разборку.

rtrowsdell · Сообщение **rtrowsdell** » 07 июн 2026, 01:42

по опыту качество препроцессинга решает больше, чем выбор модели. deskew, обрезка полей, бинаризация через opencv, и точность любого vlm подскакивает процентов на 10-15 именно на фотках с телефона. на ровных сканах разницы почти нет. так что сначала выпрямлялку, потом уже модели сравнивать

RabbitNerd · Сообщение **RabbitNerd** » 07 июн 2026, 04:24

Austkin писал(а):сумму 14 280 может прочитать как 14 230 и глазом не моргнуть

вот поэтому мы в итоге ушли на гибрид. vlm размечает структуру документа, где какая ячейка и что за поле, а сами цифры читает классический ocr. он либо читает правильно, либо честно фейлится, но не сочиняет. связка дала меньше процента ошибок против трех с чистым vlm. возни больше, но когда речь про деньги, по-другому никак

sleepypanic · Сообщение **sleepypanic** » 07 июн 2026, 05:55

а чем яндексовский ocr не угодил? через api копейки стоит, таблицы понимает

sergeyserov · Сообщение **sergeyserov** » 07 июн 2026, 08:17

sleepypanic писал(а):а чем яндексовский ocr не угодил? через api копейки стоит

оп русским языком написал: в облако нельзя, безопасники. читаем первый пост, потом советуем. по теме: глянь еще PaddleOCR-VL и dots.ocr, обе мелкие, на A4000 летают, и обе заточены под документы с таблицами. dots на наших накладных по структуре таблиц показала себя лучше квена, но поля шапки путала чаще. я бы прогнал сотню своих доков через все три и посчитал, тестовый датасет у тебя уже есть

Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

Re: Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

Re: Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

Re: Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

Re: Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

Re: Локальный VLM под сканы накладных, в облако нельзя. Что в 2026 реально жует таблицы?

Кто сейчас на конференции