Имя: Пароль:
1C
 
Как из Word извлечь текст без COM?
0 Гений 1С
 
20.11.24
18:56
1C же умеет формировать Word-документы, может и разбирать их умеет?
Хочу получить текст, чтобы скармливать его ИИ
3 osa1C
 
20.11.24
19:15
4 arsik
 
20.11.24
19:23
(0) Полнотекстовый поиск натрави или извлечение текстов
5 Кирпич
 
20.11.24
20:27
(0) Ты же теперь заядлый питонист. В python есть всё.
6 Гений 1С
 
20.11.24
22:42
(2) (3) прэлестно. а если это DOC?
(4) Из пушки по тушке.
(5) с чего это?
7 Волшебник
 
20.11.24
22:42
(6) пересохраните в DOCX
8 Asmody
 
20.11.24
22:48
(0) СП, ИзвлечениеТекста
дарю
9 Гений 1С
 
20.11.24
22:51
Кстати, посмотрел процедурку УправлениеПечатьюСлужебный.ИнициализироватьСтруктуруПечатнойФормы в 1С, видно что 1С DOCX тоже читает как архив XML-файлов. Пичаль.
10 Гений 1С
 
20.11.24
22:57
(8) метод "ИзвлечениеТекста"
кстати, да, спасибо, надо покурить

Вот тут есть фильтры:
http://www.ifilter.org/Links.htm

Тока сдается мне 1С забила болт на это.
11 osa1C
 
21.11.24
06:05
(6) пересохрани *.doc как *.docx и кури бамбук
12 Прохожий
 
21.11.24
08:35
(11) У вас в слове *.txt четыре ошибки.
13 igor_caplin
 
21.11.24
09:52
(6) Недавно сталкивался с такой задачей на питоне. Из очевидного конечно это пересохранить в DOCX. Но потом встал вопрос, а как это сделать автоматически, если прилетать могут на вход как док так и докх. Без участия офиса я не понял как это сделать. Но благо на питоне есть библиотеки для работы с либре офисом, который есть и на линухе и на винде. Поэтому осталось только загонять док в либре офис, пересохранять в докх и потом уже работать либо как XML либо как с DOCX через имеющиеся библиотеки
14 Кирпич
 
22.11.24
17:49
(0) есть древняя программа antiword, которая из doc текст вытягивает
15 Гений 1С
 
23.11.24
14:14
(11) как пересохранить? ручками?
16 Кирпич
 
23.11.24
15:24
(15) Нужно гуглить про то, как можно конвертить файлы либраофисом из командно строки. Но за гугление денег не заплатят, а значит задача нерешаема. Забудь.
17 osa1C
 
23.11.24
19:25
(15)
"C:\Program Files\Microsoft Office\Office12\wordconv.exe" -oice -nme <input file> <output file>

Команда может быть легко применена к нескольким документам с помощью for:

for %F in (*.doc) do "C:\Program Files\Microsoft Office\Office12\wordconv.exe" -oice -nme "%F" "%Fx"
18 osa1C
 
23.11.24
19:42
19 Гений 1С
 
24.11.24
17:13
(17) окей, надо глянуть. Еще вот нарыл: https://www.coolutils.com/ru/TotalDocConverter
Но не проверял, проприетарное
20 Гений 1С
 
24.11.24
17:15
(18) интересно, что там используется, COM-подключение к Word? автор как-то скромно не упомянул
21 Кирпич
 
25.11.24
10:54
На гитхабе есть несколько рабочих вариантов нп c# и c++ для docx и для doc. Но 100 пудовый вариант libreoffice и запуск --convert. Правда надо полгига этого офиса установить, если не пользуешься.
22 Гений 1С
 
25.11.24
13:42
(21) не пользуюсь, полгига как-то не аллоу
23 Кирпич
 
25.11.24
14:17
(22) "полгига как-то не аллоу"
Ну да. У тебя ж там порнухой забито всё под завязку.
Ну на гитхабе найди на 300 килобайт. Там этого добра навалом. Вчера смотрел и даже запускал парочку.
24 Garykom
 
25.11.24
14:36
(0) лично я решал бы задачку через gotenberg.dev + unidoc/unipdf
хотя возможно хватит только unidoc/unioffice
25 Кирпич
 
25.11.24
14:52
(24) да. щас прям он сядет и начнет погружаться в go :)
нахрен он ему навалился
26 Звездец
 
25.11.24
15:03
поясните, DOC, DOCX, ИИ - при чем тут вообще 1с, а главное зачем?