Как выдрать данные из PDF?

19.07.16

✎

09:37

В pdf имееться текст как текст, когдато давно можно было pdf открыть архиватором и вытащить от туда xml и спокойно парсить, а как сейчас?

1 Мутабор

19.07.16

✎

09:37

А сейчас его даже ворд открывет

2 Shur1cIT

19.07.16

✎

09:41

(1) у меня не открывает

3 PR

19.07.16

✎

09:43

(2) Значит у тебя не сейчас

4 Shur1cIT

19.07.16

✎

09:52

у меня PDF version 1.5

5 sergeev-ag-1977

19.07.16

✎

09:53

(2) а какой версии Ворд ?

6 Shur1cIT

19.07.16

✎

10:00

(5) 2010

7 Dzenn

гуру

19.07.16

✎

10:33

(0) Самый лучший способ выдрать данные из PDF - договориться о том, чтобы тебе присылали данные в другом формате. PDF не предназначен для обмена данными. PDF предназначен для конечного отображения и печати. Для обмена данными предназначены XML, JSON и подобные - это и надо озвучить.

8 Горогуля

19.07.16

✎

10:34

Потерпевший кораблекрушение отправляет в бутылке записку: "Я на необитаемом острове помогите выбратся вы моя единственная надежда"
Бутылка возвращается через 3 года с ответом: "-ться"

9 aka AMIGO

19.07.16

✎

10:46

Изврат, конечно, но можно воспользоваться прогой типа ФайнРидер, она распознаёт нормально.
Т.е. вырезаешь из экрана типа GreenShot"ом кусок с текстом, сохраняешь в виде изображения, потом открываешь в Файнридере.

10 Lionee

19.07.16

✎

11:13

конвертер из pdf в word не предлагать

11 solarcold

19.07.16

✎

11:19

Какой изврат. Кому-то (а именно людям, которые пользуются pdf для обмена данных), нужно понять очень важное правило: не бить по мухе из пушки. Для малой цели не нужно городить кучу абстракций. Нужен текст - txt. структурированные данные какие - xml, хорошо. Но pdf-то зачем? Хуже может быть только скан, всунутый в djvu.

12 ifso

19.07.16

✎

11:23

(11) djvu-то за што?)

13 Кирпич

19.07.16

✎

11:23

здесь консольные утилиты для работы с pdf. может поможет.
http://www.foolabs.com/xpdf/download.html

14 solarcold

19.07.16

✎

11:38

(12) djvu - отличный формат, но уж такой цели точно не соответствует) Как и pdf.

15 ifso

19.07.16

✎

11:50

(14) а какой цели соответствует?

16 solarcold

19.07.16

✎

12:06

(15) Книжки читать.

17 Kom-off

19.07.16

✎

12:21

Выдернуть текст и PDF просто можно только, если он там есть в отдельном слое или как там у них называется. В противном случае придется использовать OSR. Для первого случая у 1С уже есть интерфейс:
Попытка
    ИзвлечениеТекста = Новый ИзвлечениеТекста(ИмяФайла);
    ДляВозврата.Текст = ИзвлечениеТекста.ПолучитьТекст();
Исключение
    Сообщить("Ошибка обработки файла. Возможно, не поддерживаемый формат.");
    Сообщить("Ошибка по причине: " + ОписаниеОшибки());
КонецПопытки;

Вот реальный код, который получает текст из PDF. Внимательно читать СП по поводу ИзвлечениеТекста(). Там надо качать какой-то файл, который и будет делать всю работу, а ИзвлечениеТекста() предоставляет интерфейс для этого дела. В СП вся информация есть.

18 Kom-off

19.07.16

✎

12:23

(17)+ в догонку. Вот эту вещь надо качнуть "IFilter for Adobe Acrobat Documents".

19 bodri

19.07.16

✎

12:56

Infix PDF Editor - хорошая штука

20 Smallrat

19.07.16