|
Как из Word извлечь текст без COM? | ☑ | ||
---|---|---|---|---|
0
Гений 1С
гуру
20.11.24
✎
18:56
|
1C же умеет формировать Word-документы, может и разбирать их умеет?
Хочу получить текст, чтобы скармливать его ИИ |
|||
3
osa1C
20.11.24
✎
19:15
|
||||
4
arsik
гуру
20.11.24
✎
19:23
|
(0) Полнотекстовый поиск натрави или извлечение текстов
|
|||
5
Кирпич
20.11.24
✎
20:27
|
(0) Ты же теперь заядлый питонист. В python есть всё.
|
|||
6
Гений 1С
гуру
20.11.24
✎
22:42
|
(2) (3) прэлестно. а если это DOC?
(4) Из пушки по тушке. (5) с чего это? |
|||
7
Волшебник
20.11.24
✎
22:42
|
(6) пересохраните в DOCX
|
|||
8
Asmody
20.11.24
✎
22:48
|
(0) СП, ИзвлечениеТекста
дарю |
|||
9
Гений 1С
гуру
20.11.24
✎
22:51
|
Кстати, посмотрел процедурку УправлениеПечатьюСлужебный.ИнициализироватьСтруктуруПечатнойФормы в 1С, видно что 1С DOCX тоже читает как архив XML-файлов. Пичаль.
|
|||
10
Гений 1С
гуру
20.11.24
✎
22:57
|
(8) метод "ИзвлечениеТекста"
кстати, да, спасибо, надо покурить Вот тут есть фильтры: http://www.ifilter.org/Links.htm Тока сдается мне 1С забила болт на это. |
|||
11
osa1C
21.11.24
✎
06:05
|
(6) пересохрани *.doc как *.docx и кури бамбук
|
|||
12
Прохожий
21.11.24
✎
08:35
|
(11) У вас в слове *.txt четыре ошибки.
|
|||
13
igor_caplin
21.11.24
✎
09:52
|
(6) Недавно сталкивался с такой задачей на питоне. Из очевидного конечно это пересохранить в DOCX. Но потом встал вопрос, а как это сделать автоматически, если прилетать могут на вход как док так и докх. Без участия офиса я не понял как это сделать. Но благо на питоне есть библиотеки для работы с либре офисом, который есть и на линухе и на винде. Поэтому осталось только загонять док в либре офис, пересохранять в докх и потом уже работать либо как XML либо как с DOCX через имеющиеся библиотеки
|
|||
14
Кирпич
22.11.24
✎
17:49
|
(0) есть древняя программа antiword, которая из doc текст вытягивает
|
|||
15
Гений 1С
гуру
23.11.24
✎
14:14
|
(11) как пересохранить? ручками?
|
|||
16
Кирпич
23.11.24
✎
15:24
|
(15) Нужно гуглить про то, как можно конвертить файлы либраофисом из командно строки. Но за гугление денег не заплатят, а значит задача нерешаема. Забудь.
|
|||
17
osa1C
23.11.24
✎
19:25
|
(15)
"C:\Program Files\Microsoft Office\Office12\wordconv.exe" -oice -nme <input file> <output file> Команда может быть легко применена к нескольким документам с помощью for: for %F in (*.doc) do "C:\Program Files\Microsoft Office\Office12\wordconv.exe" -oice -nme "%F" "%Fx" |
|||
18
osa1C
23.11.24
✎
19:42
|
||||
19
Гений 1С
гуру
24.11.24
✎
17:13
|
(17) окей, надо глянуть. Еще вот нарыл: https://www.coolutils.com/ru/TotalDocConverter
Но не проверял, проприетарное |
|||
20
Гений 1С
гуру
24.11.24
✎
17:15
|
(18) интересно, что там используется, COM-подключение к Word? автор как-то скромно не упомянул
|
|||
21
Кирпич
25.11.24
✎
10:54
|
На гитхабе есть несколько рабочих вариантов нп c# и c++ для docx и для doc. Но 100 пудовый вариант libreoffice и запуск --convert. Правда надо полгига этого офиса установить, если не пользуешься.
|
|||
22
Гений 1С
гуру
25.11.24
✎
13:42
|
(21) не пользуюсь, полгига как-то не аллоу
|
|||
23
Кирпич
25.11.24
✎
14:17
|
(22) "полгига как-то не аллоу"
Ну да. У тебя ж там порнухой забито всё под завязку. Ну на гитхабе найди на 300 килобайт. Там этого добра навалом. Вчера смотрел и даже запускал парочку. |
|||
24
Garykom
гуру
25.11.24
✎
14:36
|
(0) лично я решал бы задачку через gotenberg.dev + unidoc/unipdf
хотя возможно хватит только unidoc/unioffice |
|||
25
Кирпич
25.11.24
✎
14:52
|
(24) да. щас прям он сядет и начнет погружаться в go :)
нахрен он ему навалился |
|||
26
Звездец
25.11.24
✎
15:03
|
поясните, DOC, DOCX, ИИ - при чем тут вообще 1с, а главное зачем?
|
Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |