Имя: Пароль:
1C
1С v8
Конвертор из PDF в EXCEL с командной строкой
,
0 mzelensky
 
28.10.13
13:42
Доброго всем!
Нужна прога для конвертации файлов из PDF в EXCEL с поддержкой командной строки (чтобы можно было запустить программно из 1С-ны).

Перебрал уже штук 5 разных вариантов, но ни одна нормально не работает.

В общем, кто чем пользуется? Подскажите?
25 1dvd
 
28.10.13
14:26
(24) врёшь. патч придумали не для этого
26 mzelensky
 
28.10.13
14:28
(24) ты о чем?
27 mzelensky
 
28.10.13
14:28
(23) Этот вариант уже проходили. НЕ ПОДХОДИТ. Давай дальше.
28 Рамиль Маугли
 
28.10.13
14:31
(27) Если найдете что то стоящее, то напишите в теме пожалуйста. Я вот сколько не искал, кроме FlexiCapture 9.0 ничего не нашел.
29 mzelensky
 
28.10.13
14:32
(28) я смотрел эту прогу (заказывал демо у разрабов). С ней нормально работать не возможно.

+ Ценник более чем не адекватный.
30 Рамиль Маугли
 
28.10.13
14:34
(29) Не знаю почему вы не смогли с ней работать. Вещь очень удобная и действительно выполняет обещанные функции.
31 zak555
 
28.10.13
14:36
(25) а для чего ?
32 1dvd
 
28.10.13
14:37
(31) чтобы исправлять баги. А для того (23) придумали лекарства(таблетки) :)
33 zak555
 
28.10.13
14:38
(32) я использую лекарства под названием патч
34 mehfk
 
28.10.13
14:48
(13)А поипацца не завернуть?
35 mzelensky
 
29.10.13
08:13
(30) Кто вам устанавливал прогу + создавал макеты документов? Сами или кому-то платили?

+ Скольки типов документов используете? Они статические или динамические?
36 mzelensky
 
29.10.13
08:14
(34) Если не умеешь разговаривать нормально, то лучше молчи, а то походишь на малолетку в истерии.
37 IamAlexy
 
29.10.13
08:16
(0) ни разу не видел ни одного конвертера который бы из ПДФ корректно конвертировал куда либо данные без искажений.. без потери форматирования или с сохранением таблиц..
38 mzelensky
 
29.10.13
08:37
(37) ну почему же, вот этот достаточно неплохо делает "Total PDF ConverterX", если файлы не сильно сложные.

Вот этот "Solid Converter PDF" хорошо конвертит, но с особенностями - он группирует строку документа в одну ячейку экселя (т.е. если в файле 10 строк по 5 колонок), то в экселе это будет 10 строк по одной колонке (в этой одной колонке будет сформатирована инфа. Для человеческого осмысления достаточно сносно, но для программного не очень).
39 IamAlexy
 
29.10.13
08:40
(38) вот  в этом то и беда - все вроде что то конвертируют но везде косяки..

условно говоря: нельзя взять договор в ПДФ где оформление шрифтов + есть таблицы  и получить точно такой же в редактируемом формате.. всегда что то слетает..
40 George Wheels
 
29.10.13
08:43
А зачем через командную строку? Чем COM хуже?
41 mzelensky
 
29.10.13
08:44
(40) если знаешь подходящую прогу с возможностью управления через COM, то тоже сгодится.

Есть на примете подобные?
42 mzelensky
 
29.10.13
08:46
(39) да понятно это. Но у меня другого варианта просто нет. Поэтому и перебираю кучу прог - ищу меньшее из зол.
43 organizm
 
29.10.13
08:47
(42) а может стоит рассмотреть проблему в корне?.. распознавание это лажа, требует участия человека.
44 George Wheels
 
29.10.13
08:51
(41) Adobe Acrobat Pro
45 mzelensky
 
29.10.13
08:52
(43) Поверь - не вариант.

И это не распознавание. Пдф - не картинка, а программно сформированный. Так что если косяки и лезут, то с форматированием таблиц.
46 mzelensky
 
29.10.13
08:52
(44) Есть пример использоания из 1С ?
47 George Wheels
 
29.10.13
08:54
(46) Из 1С я с ним не работал.
48 Кирпич
 
29.10.13
09:01
49 mzelensky
 
29.10.13
09:33
(47) ну так а почему думаешь, что к нему по COM можно обратиться? Или есть пример из другйо системы?
50 Кирпич
 
29.10.13
09:37
(49) То, что к акробату можно обратиться через COM знают все. Только тебе это вряд ли поможет. Ты можешь вытащить текст из PDF, но лепить из этого текста таблицы придется самому.
51 mzelensky
 
29.10.13
09:40
(50) т.е. дать команду на выгрузку нельзя?

Ну так толку тогда с этого подключения.
52 Кирпич
 
29.10.13
09:44
(51) дать команду на выгрузку в Excel?
ну как бы графику преобразовывать в Excel это задача программ типа FineReader.
что можно делать с акробатом можно узнать в их SDK.
53 mzelensky
 
29.10.13
09:49
(52) НУ что опять за танцы с бубном :(

"Опять начинается - залезь туда, почитай там, потом открой здесь, выясни как работает это и потом запусти вон там."

Почему я не могу просто указать исходный файл, указать путь к выходному файлу, задать необходимый формат и ВСЕ!!! Без всех этих SDK, преобразований, гемора и так далее...
54 mzelensky
 
29.10.13
09:49
(53) + Сори...психанул. Просто задолбала меня эта хрень уже.
55 Кирпич
 
29.10.13
09:54
(53) потому что преобразовывать PDF в Excel никому (ну может еще пара человек), кроме тебя не нужно. Нормальные люди договорятся с источником PDF файлов, чтобы они сразу давали XLS и всё.
56 mzelensky
 
29.10.13
10:03
(55) ты глубоко заблуждаешься.
57 Кирпич
 
29.10.13
10:07
(55) да прям. если бы это было кому то нужно, уже давно бы сделали.
58 Кирпич
 
29.10.13
10:08
(56) вот тебе зачем это нужно? чего у вас за файлы и зачем их в XLS нужно пихать.
59 mehfk
 
29.10.13
10:09
(36) Бу-га-га
60 Кирпич
 
29.10.13
10:10
ладно в dbf какой нибудь, чтобы в БД добавить какие то данные. а то в XLS. нафига?
61 hhhh
 
29.10.13
10:12
(58)+ да, какой смысл преобразовывать в Excel, если и pdf прекрасно можно выводить на экран.

В крайнем случае можно расширение файла поменять на xls, чтобы пользователи не нервничали.
62 mzelensky
 
29.10.13
10:13
(60) мне нужен любой формат, который можно было бы удобно обработать программно.
63 mzelensky
 
29.10.13
10:14
(61) Плохая шутка.
64 mzelensky
 
29.10.13
10:18
(58) Представь себе файл ПДФ на 150 листов, где описана заявка на 500 артикульных позиций (заказы, артикулы, количества, суммы, упаковка, расположение и так далее).

Представил?

А теперь представь, что тебе принесли такой файлик и сказали - у тебя 15 минут, чтобы эта заявка была в базе!

Твои действия?

Я хочу уйти от ручного ввода, от ручных проверок, от человеческого фактора в принципе, от всего этого гемороя!

Вот зачем мне это. Если ты считаешь, что это никому не нужно, то смысла в дальнейшей дискуссии не вижу.
65 Кирпич
 
29.10.13
10:19
(62) ну тогда в текст переводи. а дальше уже соображай. Ну что за файлы то? интересно же.
66 mzelensky
 
29.10.13
10:19
(59) О, малолетка пришла...ты чего школу прогуливаешь, балбес?
67 mehfk
 
29.10.13
10:20
(66) Совсем дурак что-ли? А если не дурак - бери какой-нибудь OpenCV и пиши сам.
68 mzelensky
 
29.10.13
10:20
(65) просто в текст переводить не получится - слишком сложная структура файлов, не обработаешь нормально.

Только что смотрел всю эту кухню.
69 mzelensky
 
29.10.13
10:21
(67) ага, вот ща операционку свою закончу компилить и сразу этим займусь.
70 Кирпич
 
29.10.13
10:22
(64) да какой дибил заявку на 150 листов делает для людей. Надо приложить усилия в другом направлении - чтобы давали не PDF, а нормальный формат. А PDF можно посмотреть? Может в нем таблица отдельно зашита и её можно вытащить проще.
71 mzelensky
 
29.10.13
10:23
(70) Долбаемся с этими уродами уже месяца 2. Кроме как ПДФ они ничего не дадут. Бесполезно. У них SAP !!!!!!
72 mehfk
 
29.10.13
10:24
(69) Очередной мистабол, с тобой все ясно.
73 mzelensky
 
29.10.13
10:24
(70) ну могу на почту кинуть пример файла
74 mzelensky
 
29.10.13
10:25
(72) Брысь отсюда. не мешай людям общаться. Сбегай за угол школы, покури
75 Кирпич
 
29.10.13
10:27
(73) ну давай. я тебе письмо кинул на mail.ru
76 mehfk
 
29.10.13
10:28
(74) Не говори мне что делать, и я не скажу куда тебе идти, ОК?
77 mzelensky
 
29.10.13
10:31
(75) ответил
78 Кирпич
 
29.10.13
10:32
+(75) хотя конечно это изврат. я думаю они могут давать заявки и не в PDF. правильный путь - заставить их давать заявки не в PDF.
79 mzelensky
 
29.10.13
10:33
(76) Эту херню можешь кому угодно другому впаривать.
80 mehfk
 
29.10.13
10:34
(79) Какую "херню"?
81 mzelensky
 
29.10.13
10:34
(78) ты думаешь мы такие вот извращенцы, что сами просим - скидывайте нам в ПДФ, на пое****ся хочется ?!

Говорю же, 2 месяца уже паримся. Ответ у них один - мы не может по другому. ТОЛЬКО ПДФ!
82 Кирпич
 
29.10.13
10:35
(73) ну тут можно тупо текст вытащить. колонки разделены "|"
щас попробую. потом тебе продам :)
83 mzelensky
 
29.10.13
10:37
(82) это в первой таблице разделены, а в других смотрел? + там шапка на каждой странице которую выбрасывать нужно.
84 hhhh
 
29.10.13
10:38
(63) но, конвертер - это по-любому тупиковый вариант. Даже не стоит рассматривать этот вариант. Всё равно вручную надо всё контролировать. Посадить человека на окладе и пусть он загружает файлы.

(81) просто не вы должны этим заниматься, а начальство должно переговорить между собой, ваше и ихнее. Они за рюмкой коньяка быстрее договорятся.
85 mzelensky
 
29.10.13
10:40
(84) Тебе ящик коньяка дать, пойдешь договариваться?
86 Kandellaster
 
29.10.13
10:40
в общем есть бюджетно-гомороидальный вариант, таблицу свою программно запихиваеш в LibreOffice который замечательно экспортирует в PDF. Как запустить и экспорт программно тут придется повозится но это реально есть там встроенные языки на которых пишутся макросы и макросы можно программно через COM в 1С вызвать
87 Kandellaster
 
29.10.13
10:40
(86) это если совсем ничего не найдеш)
88 mzelensky
 
29.10.13
10:45
(86) Не совсем понял.

"таблицу свою программно запихиваеш в LibreOffice который замечательно экспортирует в PDF"

У меня и так на входе PDF, зачем мне его еще раз экспортировать?
89 mehfk
 
29.10.13
10:46
(86) ТС-у нужно наоборот Pdf2xls
90 Kandellaster
 
29.10.13
10:46
аа так это я не понял просто
91 Kandellaster
 
29.10.13
10:48
а документ точно не скан в PDF?
92 mzelensky
 
29.10.13
10:49
(91) Точно. Зуб даю :)
93 mzelensky
 
29.10.13
10:52
(82) Походу пока что более лучшего варианта не вижу...тож попробую сейчас чистый текст немного попарсить. Поглядим что выйдет.
94 Kandellaster
 
29.10.13
10:52
ну ладно а есть все делающий и устраивающий вас конвертер но не консольный?
95 Kandellaster
 
29.10.13
10:53
если есть можно попробовать еще один еретический способ
96 mzelensky
 
29.10.13
10:57
(95) НУ допустим найду. Что дальше? Запускать эмитацию нажатия кнопок?
97 Kandellaster
 
29.10.13
10:58
(96) аха
98 mzelensky
 
29.10.13
11:02
(97) не, я такой вариант не рассматриваю.
99 George Wheels
 
29.10.13
11:07
100 mzelensky
 
29.10.13
11:13
(99) английскую мануалку на 226 листов? Спасибо конечно, но она мне ничего не даст
101 Kandellaster
 
29.10.13
11:21
ну а ExportAsHtml из этого мануала, а html распарсить то не проблема уже?
102 mzelensky
 
29.10.13
11:34
(101) пробовал в HTML сохранять - очень много мусора получается. тогда уж проще текст парсить.
103 mzelensky
 
29.10.13
12:27
(82) ну что, получилось что-нибудь?

У меня при вытягивании текста разделитель "|" ушел. Лажа. Теперь не знаю как корректно колонки разделить.
104 Кирпич
 
29.10.13
12:56
(103) ну если даже "|" нету, тогда плохо. но все равно можно. парсить текст - единственный путь.
105 organizm
 
29.10.13
13:24
Блин, не может быть чтобы SAP не мог сохранить в html или rtf. Может потеснее порешать проблему с формировальщиками pdf ?
106 mzelensky
 
29.10.13
13:52
(105) Просто это денег стоит :)
107 Alsh
 
29.10.13
14:38
(0) Тема актуальная. И правда, добиться от многих "иноземных" компаний данных в нормальном формате очень непросто.
(106) причем дурных денег.
108 mzelensky
 
29.10.13
14:45
Мне кстати сейчас примерный расчет сделали. Сколько бы московская фирма взяла за то, чтобы написать блок для выгрузки документов в XML (на SAP разумеется).

210 000 с проектной документацией
180 000 без проектной документации

Срок исполнения 6 дней

:)

Как вам ?
109 smaharbA
 
29.10.13
14:50
акроридер понимает джабускрипт, правдо по своему
110 mzelensky
 
29.10.13
14:52
(109) и как это можно использовать?
111 Кирпич
 
29.10.13
14:55
(108) ахринеть.
112 smaharbA
 
29.10.13
14:56
(110) пишешь текстовик прочитав объектную модель, ложиш куда надо и открываешь файл - все текст появится в ИЕ
113 mzelensky
 
29.10.13
15:02
(112) моя-твоя-не-понимать :)

Можно более подробно? И как можно меньше сленга (по возможности) :)
114 mzelensky
 
29.10.13
15:03
(111) Вот так! Так что если напишешь хороший стабильный парсер, рассмотрю вариант "купить" :)
115 Alsh
 
29.10.13
15:17
(114) а надежный (проверенно-рабочий) ручной метод есть? Типа FineReader в Excel и от туда уже в базу?
116 Кирпич
 
29.10.13
15:19
(114) ну если файлы такого типа как ты прислал, то можно и написать.
117 mzelensky
 
29.10.13
15:21
(115) Ну распознаешь, дообрабатываешь, приводишь к нужной табличке и потом грузишь. Такое есть
118 mzelensky
 
29.10.13
15:22
(116) Да, под конкретно такие файлы.
119 mzelensky
 
29.10.13
15:24
(116) Я сейчас уже убегаю и появлюсь завтра. Можем завтра списаться и обсудить.

Моя почта у тебя есть.
Это Ася 284396580
Это скайп zel_maks
120 Кирпич
 
29.10.13
15:25
(118) ну ты набросай поконкретнее чего надо. какие там таблицы нужно выковыривать и что это такое вообще.
121 Alsh
 
29.10.13
15:26
(117) я в смысле без "дообрабатываешь" крякозябры и несовпадающие колонки. Другими словами - много ли дообрабоатывать приходится или распознает отлично и просто сохраняешь результат в xls?
122 mzelensky
 
29.10.13
15:27
(120) Разумеется, все это я тебе напишу. Могу завтра с утра выслать тебе на почту краткое ТЗ с примерами.
123 mzelensky
 
29.10.13
15:29
(121) Нет, такого к сожалению нет. Я перебрал уже порядка 7 разных прог, но ни одна на 100% как нужно не отработала. Везде так или иначе приходится немного править руками и потом загружать.

Распознает она все хорошо (т.к. ПДФ-ка не сканеная, а созданная). Проблема в форматировании таблиц. Там сложная и несколько дурная струкрура самого файла - это основная сложность.
124 mzelensky
 
29.10.13
15:30
Все, господа, я убежал. Буду здесь завтра.
Проблемы невозможно решaть нa том же уровне компетентности, нa котором они возникaют. Альберт Эйнштейн