Имя: Пароль:
1C
 
Как выдрать данные из PDF?
,
0 Shur1cIT
 
19.07.16
09:37
В pdf имееться текст как текст, когдато давно можно было pdf открыть архиватором и вытащить от туда xml и спокойно парсить, а как сейчас?
1 Мутабор
 
19.07.16
09:37
А сейчас его даже ворд открывет
2 Shur1cIT
 
19.07.16
09:41
(1) у меня не открывает
3 PR
 
19.07.16
09:43
(2) Значит у тебя не сейчас
4 Shur1cIT
 
19.07.16
09:52
у меня PDF version 1.5
5 sergeev-ag-1977
 
19.07.16
09:53
(2) а какой версии Ворд ?
6 Shur1cIT
 
19.07.16
10:00
(5) 2010
7 Dzenn
 
гуру
19.07.16
10:33
(0) Самый лучший способ выдрать данные из PDF - договориться о том, чтобы тебе присылали данные в другом формате. PDF не предназначен для обмена данными. PDF предназначен для конечного отображения и печати. Для обмена данными предназначены XML, JSON и подобные - это и надо озвучить.
8 Горогуля
 
19.07.16
10:34
Потерпевший кораблекрушение отправляет в бутылке записку: "Я на необитаемом острове помогите выбратся вы моя единственная надежда"
Бутылка возвращается через 3 года с ответом: "-ться"
9 aka AMIGO
 
19.07.16
10:46
Изврат, конечно, но можно воспользоваться прогой типа ФайнРидер, она распознаёт нормально.
Т.е. вырезаешь из экрана типа GreenShot"ом кусок с текстом, сохраняешь в виде изображения, потом открываешь в Файнридере.
10 Lionee
 
19.07.16
11:13
конвертер из pdf в word не предлагать
11 solarcold
 
19.07.16
11:19
Какой изврат. Кому-то (а именно людям, которые пользуются pdf для обмена данных), нужно понять очень важное правило: не бить по мухе из пушки. Для малой цели не нужно городить кучу абстракций. Нужен текст - txt. структурированные данные какие - xml, хорошо. Но pdf-то зачем? Хуже может быть только скан, всунутый в djvu.
12 ifso
 
19.07.16
11:23
(11) djvu-то за што?)
13 Кирпич
 
19.07.16
11:23
здесь консольные утилиты для работы с pdf. может поможет.
http://www.foolabs.com/xpdf/download.html
14 solarcold
 
19.07.16
11:38
(12) djvu - отличный формат, но уж такой цели точно не соответствует) Как и pdf.
15 ifso
 
19.07.16
11:50
(14) а какой цели соответствует?
16 solarcold
 
19.07.16
12:06
(15) Книжки читать.
17 Kom-off
 
19.07.16
12:21
Выдернуть текст и PDF просто можно только, если он там есть в отдельном слое или как там у них называется. В противном случае придется использовать OSR. Для первого случая у 1С уже есть интерфейс:
Попытка
    ИзвлечениеТекста = Новый ИзвлечениеТекста(ИмяФайла);
    ДляВозврата.Текст = ИзвлечениеТекста.ПолучитьТекст();
Исключение
    Сообщить("Ошибка обработки файла. Возможно, не поддерживаемый формат.");
    Сообщить("Ошибка по причине: " + ОписаниеОшибки());
КонецПопытки;

Вот реальный код, который получает текст из PDF. Внимательно читать СП по поводу ИзвлечениеТекста(). Там надо качать какой-то файл, который и будет делать всю работу, а ИзвлечениеТекста() предоставляет интерфейс для этого дела. В СП вся информация есть.
18 Kom-off
 
19.07.16
12:23
(17)+ в догонку. Вот эту вещь надо качнуть "IFilter for Adobe Acrobat Documents".
19 bodri
 
19.07.16
12:56
Infix PDF Editor - хорошая штука
20 Smallrat
 
19.07.16
13:07
(13) +1
утилита pdftotext из комплекта xpdf
ftp://ftp.foolabs.com/pub/xpdf/xpdfbin-win-3.04.zip
пример: pdftotext -layout ваш.pdf ваш.txt
21 ifso
 
19.07.16
17:05
(16) типа, книжки но не сканы?)
Проблемы невозможно решaть нa том же уровне компетентности, нa котором они возникaют. Альберт Эйнштейн