Имя: Пароль:
1C
 
Практический опыт OCR распознавания с использованием CuneiForm
, , ,
0 25-11
 
24.12.19
15:03
Поделитесь опытом. Если, например, имеется фотография паспорта, сделанная мобильным телефоном, удаётся ли определить, что это именно паспорт? И корректно распознать ФИО владельца и номер?
1 Кирпич
 
24.12.19
15:07
(0) Паспорт закрыт или открыт?
2 Кирпич
 
24.12.19
15:10
3 Юрий Лазаренко
 
24.12.19
15:14
(0) Корректно распознать - получится. Определить, что это паспорт - вряд ли.
4 palsergeich
 
24.12.19
15:16
ABBYY на сколько я помню разпознает тип документа и данные в нем.
Но стоит как самолет
5 palsergeich
 
24.12.19
15:18
А по поводу сабжа -не знаю, не трогал
6 25-11
 
24.12.19
15:34
(4) Ну да, поэтому пока рассматриваются бесплатные компоненты.
(2) он-лайн сервисы всё равно, наверное, попросят довольно много денег, если нужно распознать, например, большой архив - несколько десятков тысяч, к примеру.
7 25-11
 
24.12.19
16:30
(6) Не, вроде - копейки... Гугл 1.5 доллара за 1000 штук. Лучше, наверное, копать в этом направлении
8 Fish
 
24.12.19
16:33
(7) А закон о защите персональных данных - лесом?
9 25-11
 
24.12.19
17:29
(8) В этой части не совсем понятно... Ессно, контора имеет согласие каждого на обработку перс. данных. А распознавание - это же обработка. Или при этом важно какой сервис используется?
10 Krendel
 
24.12.19
17:32
(9) А гугл будет распозновать на Российских мощностях или штатовских?
11 25-11
 
24.12.19
17:54
(10) Т.е. это важно? А яндекс-облаку можно отдать на распознавание? Тоже ведь серверы где-то там...
12 Djelf
 
24.12.19
18:22
Интересная коллекция у (6) в несколько десятков тысяч сканов паспортов...
На такую коллекцию жаба душит FineReader купить?
13 25-11
 
24.12.19
20:08
(12) А finereader чем-то лучше, чем бесплатный CuneiForm? Его тоже можно программно из 1С использовать?
14 Лефмихалыч
 
24.12.19
20:47
(0) во-первых, эту поделину хрен заставишь работать. Можно, но затрахаешься.
Во-вторых, она распознает только буквы (некоторые) и скажет "я все, дальше сами".
В-третьих, если паспорт вверх ногами или немного под углом или это фотка ксерокопии или ... короче получишь 30% букв с точностью до 30%, перед этим (см пункт 1) изрядно вспотев.

есть сервисы (в т.ч. российские), которые совмещают OCR c ИИ, умеют переворачивать, определять тип документа и т.д. и т.п. Вот с ними надо дружить. А эти все куни-куюни - это залепа и шляпа.
15 Лефмихалыч
 
24.12.19
20:47
яндекс тот же вижн, или гугл, или маилру или еще 100500 их разных
16 Лефмихалыч
 
24.12.19
20:48
(4) если сравнить с полной стоимостью курятника, который распознает вручную, то не такой уж и самолёт.
17 Djelf
 
24.12.19
21:47
(13) Сравни и доложи потом в этой теме.
18 25-11
 
24.12.19
23:09
(17) Я всё-таки сейчас больше гляжу в сторону он-лайн сервисов. Лефмихалыч - голова (14)
И вообще 1С подключать уже потом. Пусть какой-нибудь питоновский, наверное, распознаватель аккуратно всё разложит в структурированном виде.  
А уж затем 1С это всё читает.
19 Провинциальный 1сник
 
24.12.19
23:56
(13) Вообще даже бесплатный (идущий в комплекте со сканером) finereader sprint распознает заметно качественнее, чем cuneiform. Но спринт не умеет неинтерактивного или пакетного режима, так что для автоматизации ввода в программу не годится.
20 Злопчинский
 
25.12.19
00:56
млин... на инфостарте в поиске набрать слово паспорт лень
http://catalog.mista.ru/public/1164721/
21 uzerp2
 
25.12.19
10:20
вот здесь по распознаванию зоны MRZ паспорта описано
https://www.pyimagesearch.com/2015/11/30/detecting-machine-readable-zones-in-passport-images/

(сам не пробовал этот проект, но некоторые вещи этого чувака поднимал на питоне, замечаний не было)
22 Djelf
 
25.12.19
10:43
(18) Онлайн паспорта распознавать как то не айс...
В принципе CuneiForm нормально распознает текст, но только текст.
Но есть оболочка на C# Puma.NET https://archive.codeplex.com/?p=pumanet
Т.е. если предварительно отзонировать паспорт, то результат будет нормальным.
Вопрос в том сколько времени потребуется, чтобы дописать это зонирование...
23 25-11
 
25.12.19
12:19
(20) Спасибо! Не лень, конечно, а просто не пришло в голову. Я как-то ИС в последнее время не очень посещаю.