|
Запилил расширение для распознавания текста, нужна оценка деятельности =) | ☑ | ||
---|---|---|---|---|
0
trim89
12.03.19
✎
08:41
|
Доброго времени суток.
В свободное от прямых обязанностей время, сделал расширение, которое с помощью FineReader парсит сканы, pdf, а после загружает в 1с. Фишка в том, что настройку загрузки сделал очень гибкой, что позволяет загружать не только стандартные файлы (типа счет на оплату, торг-12 и прочее). Сперва протестировал у себя на отделе закупа. Они были сверх довольны, что больше не приходиться вручную вбивать особые файлы от вендера по 100 строк. Теперь вопросы сообществу. Актуальна ли такая штука в других сферах? Стоит ли развивать идею вплоть до коммерческого продукта? Может будет критика, пожелания, советы, свои идеи? https://yadi.sk/d/vmGs0w7BdT0utg В папке документация и само расширение. Заранее спасибо. |
|||
1
ПростоГен
12.03.19
✎
08:41
|
(0) А файнридер уже бесплатным стал?
|
|||
2
trim89
12.03.19
✎
08:42
|
(1) Нет, но все прекрасно знают где его достать
|
|||
3
ПростоГен
12.03.19
✎
08:43
|
(2) А, ну с таким подходом конечно, надо делать коммерческий продукт.
|
|||
4
Shur1cIT
12.03.19
✎
09:03
|
(0) уже есть бесплатные копоненты применяются в 1С Документооборот.
|
|||
5
Shur1cIT
12.03.19
✎
09:03
|
(4) копоненты = компоненты
|
|||
6
Garykom
гуру
12.03.19
✎
09:04
|
(0)
1. Расширить от платного FineReader'а в пользу других решений 2. "Ключ структуры" это замечательно, но не учтено что распознавание может быть проведено с ошибками в тексте и "Акт сверки расчетов бонуса ..." может превратиться в "Апт сварки раечетав бануса ..." 3. Самое вкусное это распознание и загрузка табличных частей - почти ничего нет в документации. Оно в натуре работает? Не верю, сам давно пробовал и проблем там выше крыше даже если выкинуть распознание сканов а брать файлы xls, dbf или html. |
|||
7
trim89
12.03.19
✎
09:04
|
(4) В документообороте, насколько помню, просто выделяется текст из документа для поиска этого документа. Речь а загрузке данных не идет.
|
|||
8
trim89
12.03.19
✎
09:09
|
(6) 1) Испробовал что можно. PUMA, tesseract, еще что то. Качество самого распознавания очень низкое
2) Собственно, это прописано в документации. По большому счету, нужно снова настройки делать. Возможно потом развитие. 3) А что мне писать? распарсилось, настроили, загрузили. На тестовых примерах работало. Проблем много, все не опишешь. На конкретные вопросы попытаюсь ответить. |
|||
9
Garykom
гуру
12.03.19
✎
09:14
|
||||
10
Fish
12.03.19
✎
09:15
|
(7) Так а кто мешает взять бесплатное распознавание от ДО, и уже на его основе загрузить данные? Имхо, это всяко лучше, чем с платным FineReader'ом.
|
|||
11
Garykom
гуру
12.03.19
✎
09:19
|
Это 1.
2. "Нечеткое сравнение строк" 3. Там до коммерческого продукта пилить и пилить. Я у себя стопарнул на определении какую подобрать правильную номенклатуру из имеющейся чтобы не плодить новую. Строки наименований номенклатуры от разных поставщиков отличаются сильно хотя это тоже самое. Задействовал все что можно вплоть до наиболее подходящего из https://tproger.ru/translations/top-machine-learning-algorithms/. Результаты некие есть но это не коробочный продукт а самопальный конструктор где кроме меня никто нифига не понимает )) |
|||
12
Shur1cIT
12.03.19
✎
09:19
|
(10) я понял в чем фишка, там не тупо распознование текста FineReader может распозновывать скан как документ, а не как текст те пределять где что в документе находиться
|
|||
13
trim89
12.03.19
✎
09:20
|
(9) они платные, насколько я понял. В чем отличие от https://cloud.ocrsdk.com?
|
|||
14
trim89
12.03.19
✎
09:21
|
(10) Что такое ДО?
|
|||
15
Timon1405
12.03.19
✎
09:21
|
(14) 1С:Документооборот
|
|||
16
trim89
12.03.19
✎
09:23
|
(15) Не подходит, распознование ДО не сохраняет структуру документа, поэтому сложная структура, то будет каша, из которой мало что вытянешь Во всяком случае, когда смотрел, было так.
|
|||
17
Shur1cIT
12.03.19
✎
09:24
|
(15) документооборот тупо распознаёт текст как текст, а не как документ.тоесть он не вернет тебе структуру документа предётся самостоятельно искать где у тебя товары где контрагент итд
|
|||
18
Garykom
гуру
12.03.19
✎
09:26
|
Забейте на распознавание не проблема человеку отметить вручную где табличка.
Да и заполнение шапки это наименьшая из проблем. Короче есть табличка Экселя с данными - плиз засуньте это в ТЧ документа. Причем входная табличка может быть любого формата как отправителю в голову придет. И внутри все что угодно а надо подобрать из нашей базы по справочникам. |
|||
19
trim89
12.03.19
✎
09:27
|
(11) Нечеткое сравнение - это хорошо, гляну накануне. По подбору, по наименованию никто и не смотрит. Если сейчас закуп загружает, то смотрится по артикулу поставщика, а они все занесены как доп реквизиты, поэтому находит.
|
|||
20
Garykom
гуру
12.03.19
✎
09:27
|
Я еще не встретил не одного менагера который не смог бы по электронке скинуть документ в XLS формате, копию присланных бумажных.
|
|||
21
Garykom
гуру
12.03.19
✎
09:30
|
(19) Если "артикул поставщика" запрятан внутри длинной строки наименования?
А если артикулы сцуко повторяются и надо еще дополнительные данные анализировать чтобы знать какой выбрать, причем товары одного производителя разные перепродавцы-поставщики предлагают с разными строками наименований и по разному артикул в них запрятан. |
|||
22
trim89
12.03.19
✎
09:30
|
(18) Как бы да, но у меня не совсем так. На данный момент, считается что таблица не может быть прям любой любой. Есть шапка, возможно многоуровневая, под ней идут строки, это закрывает 90% всех нужд. А внутри, действительно что угодно, по этому что угодно пытаюсь информацию вытянуть.
|
|||
23
elCust
12.03.19
✎
09:31
|
Было бы круто распознавать ценник. К примеру в магазине сфоткал ценник, он ушел с МК на сервер, там распознался и в базу.
|
|||
24
Garykom
гуру
12.03.19
✎
09:32
|
(22) У вас автоматизация мартышкиного труда.
Если есть печатная форма то она откуда то взялась так? Так блин позвоните/напишите туда откуда и попросите прислать в XLS (мы сча просим а лучше в DBF или XML) |
|||
25
trim89
12.03.19
✎
09:33
|
(21) обычно артикул выделяется в отдельной колонке. Я не выдаю супер универсальное решение от всех проблем, на все времена, поэтому если артикул запрятан, то это плохо.
|
|||
26
trim89
12.03.19
✎
09:34
|
(24) К примеру, работаем с Samsung, у них с сайта выгружаются определенные данные, только в pdf. Притом портянки.
|
|||
27
Garykom
гуру
12.03.19
✎
09:34
|
(25) Обычно ничего не выделяется к сожалению, часто артикула нет и по ключевым словам/цифрам вперед анализ проводить что это у тебя и что наиболее подходит из твоей номенклатуры.
Короче у тебя какое то решение но слишком узкое к вашей задаче и в других условиях обычно нафик не нужное. |
|||
28
Garykom
гуру
12.03.19
✎
09:35
|
(26) Молодцы и что PDF разобрать не смогли? Там надеюсь текст внутри а не картинки.
|
|||
29
Garykom
гуру
12.03.19
✎
09:36
|
(26) И да думаете в Samsung не люди как менагерами работают? И там не 1С стоит в РФ ? Которая кроме как в PDF еще и в XLS умеет.
|
|||
30
trim89
12.03.19
✎
09:36
|
(23) Были похожие идеи, но пока до этого далеко
|
|||
31
trim89
12.03.19
✎
09:39
|
(29) Конкретно с сайта нельзя выгрузить другое, с манагерами говорить бесполезно, что бы формат изменить. В общем, считаете что это бесполезно, я понял.
|
|||
32
Garykom
гуру
12.03.19
✎
09:40
|
(31) Не бесполезно а слишком узко и малоприменимо кроме как ситуациях очень похожих на вашу.
|
|||
33
Nyoko
12.03.19
✎
09:42
|
(31) карточку PDF из https://egrul.nalog.ru/index.html прочитает ?
|
|||
34
trim89
12.03.19
✎
09:45
|
(32) не соглашусь
|
|||
35
Sysanin_1ц
12.03.19
✎
09:45
|
(31) Посмотри примеры реализации в 1с Гендальф и аналогичные инструменты. Раньше это было актуальней. Сейчас актуальнее переходить на электронный обмен документами. Работает быстрее и меньше проблем с настройками. Но где нибудь это еще может пригодиться. Нужно скооперироваться с бухгалтерскими конторами, им точно это нужно
|
|||
36
trim89
12.03.19
✎
09:47
|
(33) Не знаю, не пробовал. Не прочитает если там таблицы, где название колонок слева. На данный момент название колонок должны быть только сверху.
|
|||
37
Garykom
гуру
12.03.19
✎
09:49
|
Для общего развития и минутка юмора (баян конечно кто в теме)
https://ecm-journal.ru/post/Kak-otskanirovat-kamaz-bumagi.aspx «А у меня – сказа он – есть знакомый, который пишет софт для «налоговой службы», так вот он как-то рассказывал, что весной 2001 года ему сделали заказ на то, чтобы он отсканировал и распознал … ТРИ КОМНАТЫ БУМАГИ!» Тут уже выпали в осадок мы оба… |
|||
38
trim89
12.03.19
✎
09:50
|
(35) смотрел и гэндельф и efsol и entera. Это все не то. Они используют только шаблоны типовых документов. Какие то свои формы не загрузишь.
|
|||
39
RomaH
naïve
12.03.19
✎
09:51
|
(0)
про область применения - например у нас (медицина) гарантийные письма от страховых ... единственное как их к одному формату (PDF) привести - там и ворд и эксель сейчас сидит человек между почтой и МИС - открыть гарантийное - прочитать, найти пациента - прикрепить файл, скопировать ключевую инфу |
|||
40
trim89
12.03.19
✎
09:51
|
(35) Работает ЭДО, давно работает, но бумаги в разы больше, поэтому актуально.
|
|||
41
Garykom
гуру
12.03.19
✎
09:52
|
(39) Я как бы на это и намекаю, что сканирование/распознавание в задаче лишнее и можно этого избежать.
Сразу надо переходить к data mining |
|||
42
trim89
12.03.19
✎
09:57
|
(41) Тогда уж подскажите, есть ли в современных реалиях такой data mining, который все откроет, все найдет, все сделает, есть на русском языке и его может позволит бюджет небольшой фирмы? Если надо переходить, то давайте конкретные примеры.
|
|||
43
Garykom
гуру
12.03.19
✎
10:06
|
(42) Нету такого, пытался сам нечто похожее сделать для вытаскивания данных из табличных документов (если документ не табличный то сначала он приводится к табличному автоматом или с помощью оператора).
Сделать эту задачу хорошо уже близко к ИИ. |
|||
44
Юрий Лазаренко
12.03.19
✎
10:09
|
(2) Зачем доставать файнридер, если есть реально бесплатный https://ru.wikipedia.org/wiki/CuneiForm от Cognitive.
|
|||
45
trim89
12.03.19
✎
10:12
|
(44) CuneiForm тоже пробовал, качество плохое
|
|||
46
Юрий Лазаренко
12.03.19
✎
10:13
|
(45) А в чем именно плохое? У меня нормально распознавал.
|
|||
47
trim89
12.03.19
✎
10:16
|
(46) Я уже не помню, давно пробовал. Помню, что качество меня не устроило от слова совсем.
|
|||
48
Cyberhawk
12.03.19
✎
10:20
|
(18) ИР, загрузка табличных данных
|
|||
49
trim89
12.03.19
✎
10:50
|
Так как живу на дальних поступах нашей необъятной родины, то на сегодня мой дозор окончен. Завтра отвечу на сообщения.
|
|||
50
RayCon
12.03.19
✎
11:08
|
(0) Стукнись в скайп - расскажу, на каких рынках может быть востребовано. Кстати, вариант в (35) - один из них.
(42) В (43) верно сказано: нет => вот тебе ещё один рынок. |
|||
51
trim89
13.03.19
✎
04:20
|
(50) Искал в скайп по RayCon, не нашёл, по 599660677 - тоже. Собственно как написать?
|
|||
52
trim89
13.03.19
✎
04:43
|
(11) Почитал, стало интересно. А какие наработки? Какие задачи решали?
|
|||
53
hhhh
13.03.19
✎
05:57
|
(26) файлы pdf читает обычный метод 1с ИзвлечениеТекста.
ИзвлечениеТекста (TextExtraction) ИзвлечениеТекста (TextExtraction) Свойства: ИмяФайла (FileName) Методы: Записать (Write) ПолучитьТекст (GetText) Конструкторы: По имени файла Описание: Предназначен для извлечения текста из файлов произвольного формата. Используется только для операционных систем MS Windows NT 4.0, 2000, XP, Vista, 7 и выше. Доступность: Тонкий клиент, сервер, толстый клиент, внешнее соединение. |
|||
54
hhhh
13.03.19
✎
05:59
|
(53) + но к сожалению не работает на windows server. Приходится запускать на старых компах.
|
|||
55
trim89
13.03.19
✎
06:16
|
(54) А структуру файла сохраняет?
|
|||
56
RayCon
13.03.19
✎
11:45
|
(51) nicksheel
|
|||
57
Злопчинский
13.03.19
✎
16:56
|
(19) Посмотри на ИС в поиске "Удар по бездуховности" - там прям рабочий примерчик
|
|||
58
trim89
27.03.19
✎
06:48
|
Добавил нечёткий поиск, разделение по ролям. Кому интересно, качайте, смотрите.
|
|||
59
Йохохо
27.03.19
✎
07:01
|
(58) добавь пож инфы сколько будет стоить легально это пользовать
|
|||
60
trim89
27.03.19
✎
07:35
|
(59) Что касается конкретно распознавания, то это по прайсу ABBY. Так как используется преобразование картинка -> htm, то если помочь мне найти бесплатный аналог с качественным распознаванием, значит бесплатно сделаю. Что касается моей обработки, конкретные цифры не обдумывались. Пока распространяется чтобы просто понять, насколько это актуально, насколько корректно работает, что можно ещё придумать и добавить.
|
|||
61
Йохохо
27.03.19
✎
08:02
|
(60) у них есть какая то крутая распознавалка именно форм с шаблонами и индейцами. Если за деньги не лучше ли с ней? Актуально безусловно, но кому ты это продашь в текущем виде
|
|||
62
trim89
27.03.19
✎
08:22
|
(61) их крутая рспознавалка - это Flexicapture. Стоит глубоко за лям. Выгрузку в 1с нет, только в SAP. Плюс расходы на настройщика, интеграцию и прочее. Может кому-то и лучше, но небольшим фирмам тупо не по карману.
В текущем виде продаж и не ожидается. Для допиливания под коммерческие рельсы нужны предложения, отзывы от реальных людей, которые могут посмотреть, использовать и оценить текущий прототип. |
|||
63
Йохохо
27.03.19
✎
08:36
|
(62) ну тогда и напиши, что надо еще 4к рур на файнридер стд, сумма небольшая, зачем мараться
|
|||
64
HeKrendel
27.03.19
✎
08:40
|
(0) Познакомься,
https://efsol.ru/manuals/zagruzka-dokumentov-nachalo-rabotyi.html Решению уже лет 10 |
|||
65
HeKrendel
27.03.19
✎
08:42
|
В РФ смысла нет, 5-10 лет продукту осталось жить
|
|||
66
trim89
27.03.19
✎
09:07
|
(63) Кому то надо, кому то не надо. при использования облака ценник другой. про сломанные копии я вообще молчу. И опять таки, тут речь не про деньги
|
|||
67
trim89
27.03.19
✎
09:10
|
(64) Это не совсем то. Там ограниченный набор документов, нет гибкой настройки для загрузки, насколько я знаю.
|
|||
68
trim89
27.03.19
✎
09:12
|
(65) В смысле апокалипсис, ядерная война и прочее???
А если серьезно, это на уровне, нужно сейчас сносить все бенозоколонки, потому что электромобили по городу катаются. |
|||
69
HeKrendel
27.03.19
✎
09:17
|
(68) к 25 году все товары должны быть маркированы, ЭЦП будет у всех, нужна ли при этом бумага и принтера?
|
|||
70
trim89
27.03.19
✎
09:27
|
(69) Да, а ещё обещают начало колонизации марса, дешёвые компьютера с вычислительными мощностями мозга и прочее. Может это все и сбудется, но в любом случае до 25 года бумага будет точно.
|
|||
71
Мимохожий Однако
27.03.19
✎
09:37
|
(70)ОФФ.
Не горячись. Понятно, что своё дитя ближе к сердцу. Однако есть и другие решения не хуже твоего. Сначала определись с критериями к программе, а потом сравнивай. Эмоции без аргументации малоэффективны. |
|||
72
trim89
27.03.19
✎
10:01
|
(71) Я и не горячусь. Другие решения или сильно дорогие, или сильно уступают в гибкости.
|
Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |