|
Конвертор из PDF в EXCEL с командной строкой | ☑ | ||
---|---|---|---|---|
0
mzelensky
28.10.13
✎
13:42
|
Доброго всем!
Нужна прога для конвертации файлов из PDF в EXCEL с поддержкой командной строки (чтобы можно было запустить программно из 1С-ны). Перебрал уже штук 5 разных вариантов, но ни одна нормально не работает. В общем, кто чем пользуется? Подскажите? |
|||
25
1dvd
28.10.13
✎
14:26
|
(24) врёшь. патч придумали не для этого
|
|||
26
mzelensky
28.10.13
✎
14:28
|
(24) ты о чем?
|
|||
27
mzelensky
28.10.13
✎
14:28
|
(23) Этот вариант уже проходили. НЕ ПОДХОДИТ. Давай дальше.
|
|||
28
Рамиль Маугли
28.10.13
✎
14:31
|
(27) Если найдете что то стоящее, то напишите в теме пожалуйста. Я вот сколько не искал, кроме FlexiCapture 9.0 ничего не нашел.
|
|||
29
mzelensky
28.10.13
✎
14:32
|
(28) я смотрел эту прогу (заказывал демо у разрабов). С ней нормально работать не возможно.
+ Ценник более чем не адекватный. |
|||
30
Рамиль Маугли
28.10.13
✎
14:34
|
(29) Не знаю почему вы не смогли с ней работать. Вещь очень удобная и действительно выполняет обещанные функции.
|
|||
31
zak555
28.10.13
✎
14:36
|
(25) а для чего ?
|
|||
32
1dvd
28.10.13
✎
14:37
|
(31) чтобы исправлять баги. А для того (23) придумали лекарства(таблетки) :)
|
|||
33
zak555
28.10.13
✎
14:38
|
(32) я использую лекарства под названием патч
|
|||
34
mehfk
28.10.13
✎
14:48
|
(13)А поипацца не завернуть?
|
|||
35
mzelensky
29.10.13
✎
08:13
|
(30) Кто вам устанавливал прогу + создавал макеты документов? Сами или кому-то платили?
+ Скольки типов документов используете? Они статические или динамические? |
|||
36
mzelensky
29.10.13
✎
08:14
|
(34) Если не умеешь разговаривать нормально, то лучше молчи, а то походишь на малолетку в истерии.
|
|||
37
IamAlexy
29.10.13
✎
08:16
|
(0) ни разу не видел ни одного конвертера который бы из ПДФ корректно конвертировал куда либо данные без искажений.. без потери форматирования или с сохранением таблиц..
|
|||
38
mzelensky
29.10.13
✎
08:37
|
(37) ну почему же, вот этот достаточно неплохо делает "Total PDF ConverterX", если файлы не сильно сложные.
Вот этот "Solid Converter PDF" хорошо конвертит, но с особенностями - он группирует строку документа в одну ячейку экселя (т.е. если в файле 10 строк по 5 колонок), то в экселе это будет 10 строк по одной колонке (в этой одной колонке будет сформатирована инфа. Для человеческого осмысления достаточно сносно, но для программного не очень). |
|||
39
IamAlexy
29.10.13
✎
08:40
|
(38) вот в этом то и беда - все вроде что то конвертируют но везде косяки..
условно говоря: нельзя взять договор в ПДФ где оформление шрифтов + есть таблицы и получить точно такой же в редактируемом формате.. всегда что то слетает.. |
|||
40
George Wheels
29.10.13
✎
08:43
|
А зачем через командную строку? Чем COM хуже?
|
|||
41
mzelensky
29.10.13
✎
08:44
|
(40) если знаешь подходящую прогу с возможностью управления через COM, то тоже сгодится.
Есть на примете подобные? |
|||
42
mzelensky
29.10.13
✎
08:46
|
(39) да понятно это. Но у меня другого варианта просто нет. Поэтому и перебираю кучу прог - ищу меньшее из зол.
|
|||
43
organizm
29.10.13
✎
08:47
|
(42) а может стоит рассмотреть проблему в корне?.. распознавание это лажа, требует участия человека.
|
|||
44
George Wheels
29.10.13
✎
08:51
|
(41) Adobe Acrobat Pro
|
|||
45
mzelensky
29.10.13
✎
08:52
|
(43) Поверь - не вариант.
И это не распознавание. Пдф - не картинка, а программно сформированный. Так что если косяки и лезут, то с форматированием таблиц. |
|||
46
mzelensky
29.10.13
✎
08:52
|
(44) Есть пример использоания из 1С ?
|
|||
47
George Wheels
29.10.13
✎
08:54
|
(46) Из 1С я с ним не работал.
|
|||
48
Кирпич
29.10.13
✎
09:01
|
||||
49
mzelensky
29.10.13
✎
09:33
|
(47) ну так а почему думаешь, что к нему по COM можно обратиться? Или есть пример из другйо системы?
|
|||
50
Кирпич
29.10.13
✎
09:37
|
(49) То, что к акробату можно обратиться через COM знают все. Только тебе это вряд ли поможет. Ты можешь вытащить текст из PDF, но лепить из этого текста таблицы придется самому.
|
|||
51
mzelensky
29.10.13
✎
09:40
|
(50) т.е. дать команду на выгрузку нельзя?
Ну так толку тогда с этого подключения. |
|||
52
Кирпич
29.10.13
✎
09:44
|
(51) дать команду на выгрузку в Excel?
ну как бы графику преобразовывать в Excel это задача программ типа FineReader. что можно делать с акробатом можно узнать в их SDK. |
|||
53
mzelensky
29.10.13
✎
09:49
|
(52) НУ что опять за танцы с бубном :(
"Опять начинается - залезь туда, почитай там, потом открой здесь, выясни как работает это и потом запусти вон там." Почему я не могу просто указать исходный файл, указать путь к выходному файлу, задать необходимый формат и ВСЕ!!! Без всех этих SDK, преобразований, гемора и так далее... |
|||
54
mzelensky
29.10.13
✎
09:49
|
(53) + Сори...психанул. Просто задолбала меня эта хрень уже.
|
|||
55
Кирпич
29.10.13
✎
09:54
|
(53) потому что преобразовывать PDF в Excel никому (ну может еще пара человек), кроме тебя не нужно. Нормальные люди договорятся с источником PDF файлов, чтобы они сразу давали XLS и всё.
|
|||
56
mzelensky
29.10.13
✎
10:03
|
(55) ты глубоко заблуждаешься.
|
|||
57
Кирпич
29.10.13
✎
10:07
|
(55) да прям. если бы это было кому то нужно, уже давно бы сделали.
|
|||
58
Кирпич
29.10.13
✎
10:08
|
(56) вот тебе зачем это нужно? чего у вас за файлы и зачем их в XLS нужно пихать.
|
|||
59
mehfk
29.10.13
✎
10:09
|
(36) Бу-га-га
|
|||
60
Кирпич
29.10.13
✎
10:10
|
ладно в dbf какой нибудь, чтобы в БД добавить какие то данные. а то в XLS. нафига?
|
|||
61
hhhh
29.10.13
✎
10:12
|
(58)+ да, какой смысл преобразовывать в Excel, если и pdf прекрасно можно выводить на экран.
В крайнем случае можно расширение файла поменять на xls, чтобы пользователи не нервничали. |
|||
62
mzelensky
29.10.13
✎
10:13
|
(60) мне нужен любой формат, который можно было бы удобно обработать программно.
|
|||
63
mzelensky
29.10.13
✎
10:14
|
(61) Плохая шутка.
|
|||
64
mzelensky
29.10.13
✎
10:18
|
(58) Представь себе файл ПДФ на 150 листов, где описана заявка на 500 артикульных позиций (заказы, артикулы, количества, суммы, упаковка, расположение и так далее).
Представил? А теперь представь, что тебе принесли такой файлик и сказали - у тебя 15 минут, чтобы эта заявка была в базе! Твои действия? Я хочу уйти от ручного ввода, от ручных проверок, от человеческого фактора в принципе, от всего этого гемороя! Вот зачем мне это. Если ты считаешь, что это никому не нужно, то смысла в дальнейшей дискуссии не вижу. |
|||
65
Кирпич
29.10.13
✎
10:19
|
(62) ну тогда в текст переводи. а дальше уже соображай. Ну что за файлы то? интересно же.
|
|||
66
mzelensky
29.10.13
✎
10:19
|
(59) О, малолетка пришла...ты чего школу прогуливаешь, балбес?
|
|||
67
mehfk
29.10.13
✎
10:20
|
(66) Совсем дурак что-ли? А если не дурак - бери какой-нибудь OpenCV и пиши сам.
|
|||
68
mzelensky
29.10.13
✎
10:20
|
(65) просто в текст переводить не получится - слишком сложная структура файлов, не обработаешь нормально.
Только что смотрел всю эту кухню. |
|||
69
mzelensky
29.10.13
✎
10:21
|
(67) ага, вот ща операционку свою закончу компилить и сразу этим займусь.
|
|||
70
Кирпич
29.10.13
✎
10:22
|
(64) да какой дибил заявку на 150 листов делает для людей. Надо приложить усилия в другом направлении - чтобы давали не PDF, а нормальный формат. А PDF можно посмотреть? Может в нем таблица отдельно зашита и её можно вытащить проще.
|
|||
71
mzelensky
29.10.13
✎
10:23
|
(70) Долбаемся с этими уродами уже месяца 2. Кроме как ПДФ они ничего не дадут. Бесполезно. У них SAP !!!!!!
|
|||
72
mehfk
29.10.13
✎
10:24
|
(69) Очередной мистабол, с тобой все ясно.
|
|||
73
mzelensky
29.10.13
✎
10:24
|
(70) ну могу на почту кинуть пример файла
|
|||
74
mzelensky
29.10.13
✎
10:25
|
(72) Брысь отсюда. не мешай людям общаться. Сбегай за угол школы, покури
|
|||
75
Кирпич
29.10.13
✎
10:27
|
(73) ну давай. я тебе письмо кинул на mail.ru
|
|||
76
mehfk
29.10.13
✎
10:28
|
(74) Не говори мне что делать, и я не скажу куда тебе идти, ОК?
|
|||
77
mzelensky
29.10.13
✎
10:31
|
(75) ответил
|
|||
78
Кирпич
29.10.13
✎
10:32
|
+(75) хотя конечно это изврат. я думаю они могут давать заявки и не в PDF. правильный путь - заставить их давать заявки не в PDF.
|
|||
79
mzelensky
29.10.13
✎
10:33
|
(76) Эту херню можешь кому угодно другому впаривать.
|
|||
80
mehfk
29.10.13
✎
10:34
|
(79) Какую "херню"?
|
|||
81
mzelensky
29.10.13
✎
10:34
|
(78) ты думаешь мы такие вот извращенцы, что сами просим - скидывайте нам в ПДФ, на пое****ся хочется ?!
Говорю же, 2 месяца уже паримся. Ответ у них один - мы не может по другому. ТОЛЬКО ПДФ! |
|||
82
Кирпич
29.10.13
✎
10:35
|
(73) ну тут можно тупо текст вытащить. колонки разделены "|"
щас попробую. потом тебе продам :) |
|||
83
mzelensky
29.10.13
✎
10:37
|
(82) это в первой таблице разделены, а в других смотрел? + там шапка на каждой странице которую выбрасывать нужно.
|
|||
84
hhhh
29.10.13
✎
10:38
|
(63) но, конвертер - это по-любому тупиковый вариант. Даже не стоит рассматривать этот вариант. Всё равно вручную надо всё контролировать. Посадить человека на окладе и пусть он загружает файлы.
(81) просто не вы должны этим заниматься, а начальство должно переговорить между собой, ваше и ихнее. Они за рюмкой коньяка быстрее договорятся. |
|||
85
mzelensky
29.10.13
✎
10:40
|
(84) Тебе ящик коньяка дать, пойдешь договариваться?
|
|||
86
Kandellaster
29.10.13
✎
10:40
|
в общем есть бюджетно-гомороидальный вариант, таблицу свою программно запихиваеш в LibreOffice который замечательно экспортирует в PDF. Как запустить и экспорт программно тут придется повозится но это реально есть там встроенные языки на которых пишутся макросы и макросы можно программно через COM в 1С вызвать
|
|||
87
Kandellaster
29.10.13
✎
10:40
|
(86) это если совсем ничего не найдеш)
|
|||
88
mzelensky
29.10.13
✎
10:45
|
(86) Не совсем понял.
"таблицу свою программно запихиваеш в LibreOffice который замечательно экспортирует в PDF" У меня и так на входе PDF, зачем мне его еще раз экспортировать? |
|||
89
mehfk
29.10.13
✎
10:46
|
(86) ТС-у нужно наоборот Pdf2xls
|
|||
90
Kandellaster
29.10.13
✎
10:46
|
аа так это я не понял просто
|
|||
91
Kandellaster
29.10.13
✎
10:48
|
а документ точно не скан в PDF?
|
|||
92
mzelensky
29.10.13
✎
10:49
|
(91) Точно. Зуб даю :)
|
|||
93
mzelensky
29.10.13
✎
10:52
|
(82) Походу пока что более лучшего варианта не вижу...тож попробую сейчас чистый текст немного попарсить. Поглядим что выйдет.
|
|||
94
Kandellaster
29.10.13
✎
10:52
|
ну ладно а есть все делающий и устраивающий вас конвертер но не консольный?
|
|||
95
Kandellaster
29.10.13
✎
10:53
|
если есть можно попробовать еще один еретический способ
|
|||
96
mzelensky
29.10.13
✎
10:57
|
(95) НУ допустим найду. Что дальше? Запускать эмитацию нажатия кнопок?
|
|||
97
Kandellaster
29.10.13
✎
10:58
|
(96) аха
|
|||
98
mzelensky
29.10.13
✎
11:02
|
(97) не, я такой вариант не рассматриваю.
|
|||
99
George Wheels
29.10.13
✎
11:07
|
||||
100
mzelensky
29.10.13
✎
11:13
|
(99) английскую мануалку на 226 листов? Спасибо конечно, но она мне ничего не даст
|
|||
101
Kandellaster
29.10.13
✎
11:21
|
ну а ExportAsHtml из этого мануала, а html распарсить то не проблема уже?
|
|||
102
mzelensky
29.10.13
✎
11:34
|
(101) пробовал в HTML сохранять - очень много мусора получается. тогда уж проще текст парсить.
|
|||
103
mzelensky
29.10.13
✎
12:27
|
(82) ну что, получилось что-нибудь?
У меня при вытягивании текста разделитель "|" ушел. Лажа. Теперь не знаю как корректно колонки разделить. |
|||
104
Кирпич
29.10.13
✎
12:56
|
(103) ну если даже "|" нету, тогда плохо. но все равно можно. парсить текст - единственный путь.
|
|||
105
organizm
29.10.13
✎
13:24
|
Блин, не может быть чтобы SAP не мог сохранить в html или rtf. Может потеснее порешать проблему с формировальщиками pdf ?
|
|||
106
mzelensky
29.10.13
✎
13:52
|
(105) Просто это денег стоит :)
|
|||
107
Alsh
29.10.13
✎
14:38
|
(0) Тема актуальная. И правда, добиться от многих "иноземных" компаний данных в нормальном формате очень непросто.
(106) причем дурных денег. |
|||
108
mzelensky
29.10.13
✎
14:45
|
Мне кстати сейчас примерный расчет сделали. Сколько бы московская фирма взяла за то, чтобы написать блок для выгрузки документов в XML (на SAP разумеется).
210 000 с проектной документацией 180 000 без проектной документации Срок исполнения 6 дней :) Как вам ? |
|||
109
smaharbA
29.10.13
✎
14:50
|
акроридер понимает джабускрипт, правдо по своему
|
|||
110
mzelensky
29.10.13
✎
14:52
|
(109) и как это можно использовать?
|
|||
111
Кирпич
29.10.13
✎
14:55
|
(108) ахринеть.
|
|||
112
smaharbA
29.10.13
✎
14:56
|
(110) пишешь текстовик прочитав объектную модель, ложиш куда надо и открываешь файл - все текст появится в ИЕ
|
|||
113
mzelensky
29.10.13
✎
15:02
|
(112) моя-твоя-не-понимать :)
Можно более подробно? И как можно меньше сленга (по возможности) :) |
|||
114
mzelensky
29.10.13
✎
15:03
|
(111) Вот так! Так что если напишешь хороший стабильный парсер, рассмотрю вариант "купить" :)
|
|||
115
Alsh
29.10.13
✎
15:17
|
(114) а надежный (проверенно-рабочий) ручной метод есть? Типа FineReader в Excel и от туда уже в базу?
|
|||
116
Кирпич
29.10.13
✎
15:19
|
(114) ну если файлы такого типа как ты прислал, то можно и написать.
|
|||
117
mzelensky
29.10.13
✎
15:21
|
(115) Ну распознаешь, дообрабатываешь, приводишь к нужной табличке и потом грузишь. Такое есть
|
|||
118
mzelensky
29.10.13
✎
15:22
|
(116) Да, под конкретно такие файлы.
|
|||
119
mzelensky
29.10.13
✎
15:24
|
(116) Я сейчас уже убегаю и появлюсь завтра. Можем завтра списаться и обсудить.
Моя почта у тебя есть. Это Ася 284396580 Это скайп zel_maks |
|||
120
Кирпич
29.10.13
✎
15:25
|
(118) ну ты набросай поконкретнее чего надо. какие там таблицы нужно выковыривать и что это такое вообще.
|
|||
121
Alsh
29.10.13
✎
15:26
|
(117) я в смысле без "дообрабатываешь" крякозябры и несовпадающие колонки. Другими словами - много ли дообрабоатывать приходится или распознает отлично и просто сохраняешь результат в xls?
|
|||
122
mzelensky
29.10.13
✎
15:27
|
(120) Разумеется, все это я тебе напишу. Могу завтра с утра выслать тебе на почту краткое ТЗ с примерами.
|
|||
123
mzelensky
29.10.13
✎
15:29
|
(121) Нет, такого к сожалению нет. Я перебрал уже порядка 7 разных прог, но ни одна на 100% как нужно не отработала. Везде так или иначе приходится немного править руками и потом загружать.
Распознает она все хорошо (т.к. ПДФ-ка не сканеная, а созданная). Проблема в форматировании таблиц. Там сложная и несколько дурная струкрура самого файла - это основная сложность. |
|||
124
mzelensky
29.10.13
✎
15:30
|
Все, господа, я убежал. Буду здесь завтра.
|
Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |