Имя: Пароль:
1C
 
Сервисы распознавания полей и таблиц в документах
0 ИС-2
 
naïve
22.11.24
15:20
В продолжении тем про промт-инженеров операторов 1C.

Есть потребность не просто распознавать унифицированные формы, но произвольные документы и таблицы.

В моем понимании выглядит так - фотографируем документ и на выходе получаем JSN файл с информацией в каком поле какой текст и какие таблицы есть в документе.

Сейчас занят поиском таких сервисов.

Может кто-то реализовывал такую систему
1 Garykom
 
гуру
22.11.24
15:37
(0) Таких нет и невозможны без стандартизации форм/данных входящих документов
И во времена ИТ не нужны и вредны
Использовать стандарты/протоколы обмена данными между отправителем и получателем
2 Garykom
 
гуру
22.11.24
15:39
есть старый мем/байка про печать 3 камазов бумаги в одной конторе
чтобы перевести в соседнюю контору и там распознавать их
3 программистище
 
22.11.24
17:16
конторка Эффективные решения, делала конфигурацию: электронная загрузка документов, ну это так к слову, помню такое в 2009 году было, сейчас не смотрел, может они сервис организовали

они даже сотрудничали с ABBYY
4 Звездец
 
22.11.24
17:15
есть такое понятие, универсальное не может быть хорошим во всем. Перочинный ножик тебе в пример.

Сервис подобный сделать не проблема, но все-таки для нормального результата, его нужно будет обучать примерами того, что нужно распознавать. А если у тебя каждый раз новый документ, никак не похожий на предыдущий, то и результат будет никакой
5 Звездец
 
22.11.24
15:43
(3) сервис распознавания есть даже в типовых, но туда не все что угодно засовывать можно
6 Звездец
 
22.11.24
15:44
(2) как-то и у меня ФНС просила распечатать и принести то, что было подписано по ЭДО
7 CepeLLlka
 
22.11.24
15:45
(0)В 2024 идти по этой дорожке это бредятина
8 ИС-2
 
naïve
29.11.24
07:32
(7) согласен. Но система нужна для работы не УПД и чеками, данные по которым могу взять из интернета.
Ее цель облегчить работу с произвольными таблицами.
9 Лодырь
 
29.11.24
07:42
(8) Так речь про произвольные таблицы или про произвольные документы? Потому что правильно определить структуру формы и понять разбить абзацы на поля - это вообще небанальная задача так то. Сервисы распознавания (аля correct.su) конечно не ограничиваются только упд и чеками, но и даже могут настроить практически что угодно по вашей просьбе, но они все равно привязаны к шаблонам. Почему? Потому что их надо обучать, о чем указано в (4). Например мы используем активно такого рода распознавания, но ошибок достаточно много. Даже есть ошибки классификации типа документа.
10 Garykom
 
гуру
29.11.24
08:20
(6) это тупизна исполнителей
11 Garykom
 
гуру
29.11.24
08:24
(9) Не работает на практике с бумажными доками почти никак
Банально чуть похуже качество скана
Или еще прикол с нестандартным шрифтом
И все, приехали
Прога распознавания ничего не возьмет, даже крутая от ABBYY/Content AI
Чтобы смогла - придется посимвольно обучать
12 Garykom
 
гуру
29.11.24
08:27
(8) >цель облегчить работу с произвольными таблицами
позвонить/написать автору таблицы и попросить прислать исходник в электронном виде
подразумеваю не фото/скан а xls/xlsx
13 ИС-2
 
naïve
09.12.24
13:27
Появилась новая потребность - найти сервис, который проверит наличие печати и подписи на документе.

задача исключить на первичном уровне документы, которые приходят от клиентов совсем без подписи и печати.
Валидность печати пока проверять не надо.

Печать и подпись будут в определенном месте

Есть что-то где-нибудь подобное?
14 Волшебник
 
09.12.24
13:29
(13) На одном из мест работы наш программист написал интеллектуальный алгоритм по поиску синих точек. Потом доработали так, что печати могли быть любого цвета.

Подпись найти ещё сложнее.

И вообще невозможно определить, чья подпись, может секретарь расписался за гендира
15 Garykom
 
гуру
09.12.24
13:46
(13) Использовать ЭДО!

Для бумажных сканов для каждого контрагента хранить образцы печатей и подписей
Далее OpenCV
https://habr.com/ru/articles/742460/ - тут глянь комменты
например
https://habr.com/ru/articles/547218/
https://habr.com/ru/articles/736190/
16 maxab72
 
09.12.24
13:54
"может секретарь расписался за гендира" У моего приятеля была давно история. У него тогда было ИП, и надо было открыть в каком-то определенном банке расчетный счет. Он оформил документы, но сам поехать в банк не мог, слег с гриппом. Поехала его супруга, а в банке оказалось, что в бумагах опечатка, и надо их переделать. Ей перепечатали договор, и попросили принести с подписью мужа, а она возьми, и для экономии времени распишись за него (умела ставить подпись, очень похожую на подпись мужа). Эту подпись в банке сверили с росписью в паспорте приятеля, нашли схожей и приняли за образец. с тех пор ей пришлось подписывать все документы для этого банка.
17 СвинТуз
 
09.12.24
14:46
На одной из работ внешний контрагент выкладывал
файл, информацию из которого требовалось загрузить.
Файл был плохо структурированной таблицей эксель.

Ну в общем по цвету текста.
18 Волшебник
 
09.12.24
14:56
(16) Настало время охуительных историй... Конечно, это чушь. Если роспись сверили с паспортом мужа, то почему ей ПРИШЛОСЬ? Неужели муж не мог уже расписаться, как у СЕБЯ в паспорте? Жена стала расписываться лучше мужа? Ну хватит уже...
19 mmg
 
09.12.24
15:26
(13) Сейчас проверил на двух тестовых изображениях (с печатью-подписью и без).
GPT-4o-mini от OpenAI нормально отрабатывает. Можно пользоваться
20 Волшебник
 
09.12.24
15:34
(19) Это будет разглашением коммерческой информации. Пользоваться нельзя.