|
Как выдрать данные из PDF? | ☑ | ||
---|---|---|---|---|
0
Shur1cIT
19.07.16
✎
09:37
|
В pdf имееться текст как текст, когдато давно можно было pdf открыть архиватором и вытащить от туда xml и спокойно парсить, а как сейчас?
|
|||
1
Мутабор
19.07.16
✎
09:37
|
А сейчас его даже ворд открывет
|
|||
2
Shur1cIT
19.07.16
✎
09:41
|
(1) у меня не открывает
|
|||
3
PR
19.07.16
✎
09:43
|
(2) Значит у тебя не сейчас
|
|||
4
Shur1cIT
19.07.16
✎
09:52
|
у меня PDF version 1.5
|
|||
5
sergeev-ag-1977
19.07.16
✎
09:53
|
(2) а какой версии Ворд ?
|
|||
6
Shur1cIT
19.07.16
✎
10:00
|
(5) 2010
|
|||
7
Dzenn
гуру
19.07.16
✎
10:33
|
(0) Самый лучший способ выдрать данные из PDF - договориться о том, чтобы тебе присылали данные в другом формате. PDF не предназначен для обмена данными. PDF предназначен для конечного отображения и печати. Для обмена данными предназначены XML, JSON и подобные - это и надо озвучить.
|
|||
8
Горогуля
19.07.16
✎
10:34
|
Потерпевший кораблекрушение отправляет в бутылке записку: "Я на необитаемом острове помогите выбратся вы моя единственная надежда"
Бутылка возвращается через 3 года с ответом: "-ться" |
|||
9
aka AMIGO
19.07.16
✎
10:46
|
Изврат, конечно, но можно воспользоваться прогой типа ФайнРидер, она распознаёт нормально.
Т.е. вырезаешь из экрана типа GreenShot"ом кусок с текстом, сохраняешь в виде изображения, потом открываешь в Файнридере. |
|||
10
Lionee
19.07.16
✎
11:13
|
конвертер из pdf в word не предлагать
|
|||
11
solarcold
19.07.16
✎
11:19
|
Какой изврат. Кому-то (а именно людям, которые пользуются pdf для обмена данных), нужно понять очень важное правило: не бить по мухе из пушки. Для малой цели не нужно городить кучу абстракций. Нужен текст - txt. структурированные данные какие - xml, хорошо. Но pdf-то зачем? Хуже может быть только скан, всунутый в djvu.
|
|||
12
ifso
19.07.16
✎
11:23
|
(11) djvu-то за што?)
|
|||
13
Кирпич
19.07.16
✎
11:23
|
здесь консольные утилиты для работы с pdf. может поможет.
http://www.foolabs.com/xpdf/download.html |
|||
14
solarcold
19.07.16
✎
11:38
|
(12) djvu - отличный формат, но уж такой цели точно не соответствует) Как и pdf.
|
|||
15
ifso
19.07.16
✎
11:50
|
(14) а какой цели соответствует?
|
|||
16
solarcold
19.07.16
✎
12:06
|
(15) Книжки читать.
|
|||
17
Kom-off
19.07.16
✎
12:21
|
Выдернуть текст и PDF просто можно только, если он там есть в отдельном слое или как там у них называется. В противном случае придется использовать OSR. Для первого случая у 1С уже есть интерфейс:
Попытка ИзвлечениеТекста = Новый ИзвлечениеТекста(ИмяФайла); ДляВозврата.Текст = ИзвлечениеТекста.ПолучитьТекст(); Исключение Сообщить("Ошибка обработки файла. Возможно, не поддерживаемый формат."); Сообщить("Ошибка по причине: " + ОписаниеОшибки()); КонецПопытки; Вот реальный код, который получает текст из PDF. Внимательно читать СП по поводу ИзвлечениеТекста(). Там надо качать какой-то файл, который и будет делать всю работу, а ИзвлечениеТекста() предоставляет интерфейс для этого дела. В СП вся информация есть. |
|||
18
Kom-off
19.07.16
✎
12:23
|
(17)+ в догонку. Вот эту вещь надо качнуть "IFilter for Adobe Acrobat Documents".
|
|||
19
bodri
19.07.16
✎
12:56
|
Infix PDF Editor - хорошая штука
|
|||
20
Smallrat
19.07.16
✎
13:07
|
(13) +1
утилита pdftotext из комплекта xpdf ftp://ftp.foolabs.com/pub/xpdf/xpdfbin-win-3.04.zip пример: pdftotext -layout ваш.pdf ваш.txt |
|||
21
ifso
19.07.16
✎
17:05
|
(16) типа, книжки но не сканы?)
|
Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |