Имя: Пароль:
1C
1C 7.7
v7: Какой наиболее простой способ прочитать данные с HTML страницы
,
0 evgpinsk_
 
01.10.21
09:36
Есть сайт госзакупок. Пример:
https://goszakupki.by/marketing/view/462737

Хотелось бы отчасти автоматизировать процесс создания счёта.
Требуется прочитать основные данные с этой страницы закупки:
Номер закупки, УНП, Имя клиента, адрес, email и т.д.

Через тотже wget страницу можно прочитать в текстовый файл^
https://dropmefiles.com/JIsxW
Этот файл можно открыть или как текстовый или браузером в виде html файла /глазами видим его более читаемо/

Ну и сам вопрос: какой наиболее простой способ прочитать нужные данные?
1 Garykom
 
гуру
01.10.21
09:48
нанять программиста
2 ДенисЧ
 
01.10.21
09:49
3 Garykom
 
гуру
01.10.21
09:49
(2) по апи без программиста? ну может уже есть готовые решения для 77 но вряд ли
4 evgpinsk_
 
01.10.21
09:50
Этот путь я знаю, и готов кстати на это, если расценки не разорят /почта в подписи/ )
Либо второй вариант - попробовать самому
5 ДенисЧ
 
01.10.21
09:50
(4) Используй второй вариант, дешевле выйдет
6 Aleksey
 
01.10.21
09:50
(2) Ему нужны Белорусские закупки. Думаешь движок один на всех?
7 Garykom
 
гуру
01.10.21
09:51
(4) есть несколько способов, какой лучше не попробовав не понять
если можно по апи то надо по нему а как из 1С по http это уже пофиг
8 evgpinsk_
 
01.10.21
09:52
К сожалению API у них нет
9 evgpinsk_
 
01.10.21
09:53
способ (2)
уже не виден
:)
10 Garykom
 
гуру
01.10.21
09:56
слово "парсер" что нибудь говорит?
11 evgpinsk_
 
01.10.21
09:56
(10) да )
12 Garykom
 
гуру
01.10.21
09:59
(11) ну так погугли в сочетании с 1С 77
13 evgpinsk_
 
01.10.21
11:36
(12) Погуглил, сильно не помогло
Я правильно понимаю что нужно использовать средства работы с JSON?

или может быть через чтение XML?
14 evgpinsk_
 
01.10.21
11:37
Или может просто через чтение текстового файла, искать нужный тег, например "УНП организации"
и за ним будет нужны мне УНП

может это наиболее простой вариант?
15 evgpinsk_
 
01.10.21
11:38
16 evgpinsk_
 
01.10.21
11:40
Здесь можно спрашивать желающих платно решить задачу?
17 AAA
 
01.10.21
11:46
Делал и ручной парсинг, и не совсем ручной Работало, ломалось при изменении сайта, модифицировал. Потом в силу ряда причин
клиент сделал на питоне поиск нужных тендеров и валит мне текстовый файл с реестровыми номерами тендеров и остальной нужной информацией
18 evgpinsk_
 
01.10.21
11:50
> "клиент сделал на питоне поиск нужных тендеров"
У нас будет ручной поиск

> "и валит мне текстовый файл с реестровыми номерами тендеров и остальной нужной информацией"
а в чём смысл? что дальше?
19 Arbuz
 
01.10.21
15:18
(18) Смысл в унификации формата входного файла, но парсер на питоне надо переписывать при изменении сайта.
20 evgpinsk_
 
01.10.21
15:21
(19) Не пойму, т.е. через питон можно сделать самое основное - получить в унифицированном виде всю информацию со страницы тендера.
В чём проблема было дописать небольшой объём кода для дальнейшей переброски в 1с?
Зачем им ваши услуги по переброске данных? )
21 Arbuz
 
01.10.21
15:27
(20) Не каждый питонщик захочет вникать в кухню 1С и, соответственно, не каждый 1Сник потянет питон.
22 evgpinsk_
 
01.10.21
15:36
(21) Это понятно. не понятно:
(17) > "и валит мне текстовый файл с реестровыми номерами тендеров и остальной нужной информацией"

валит каждый раз для чего?
когда можно просто запустить скрипт, который один раз написал программист 1с )
23 Garykom
 
гуру
01.10.21
15:40
(21) пофиг суть в разделении задачи на части

одна парсит и приводит в некий стандарт
другая из стандарта грузит в 1С

на чем делать части пофиг, хоть питон, хоть 1С, хоть микросервис на Golang
24 evgpinsk_
 
27.10.21
10:47
Подытожу тему, вот такая обработка была заказана, парсинг реализован на базе v7plus.dll
https://prnt.sc/1xgsiui

Производительность труда выросла в разы.
Правда наткнулся на проблемку (пока не решили) крашится 1с примерно на каждом 3-4 парсинге на строке:
Документ = Анализатор.СоздатьДокумент();
25 Garykom
 
гуру
27.10.21
10:55
(24) мдя но конечно зависит сколько заплатили
26 Garykom
 
гуру
27.10.21
10:57
"v7plus.dll" это хрень, уже давно принято для 77 на WinHttp.WinHttpRequest или Msxml2.ServerXMLHTTP
27 evgpinsk_
 
27.10.21
11:02
(26) Хрень изза нестабильной работы?
28 Garykom
 
гуру
27.10.21
11:05
(27) угу ибо оно времен Win98 и Win2k
ну и не умеет многое
29 Garykom
 
гуру
27.10.21
11:07
Короче виртуалка (hyper-v или virtualbox бесплатны), туда win2k3, туда 1C 77 и вот там должно быть стабильно
только могут быть траблы с сертификатами
30 evgpinsk_
 
27.10.21
12:06
(29) Не, думаю это не очень пройдёт, 1с завязана с темже TheBat и т.д.
31 Злопчинский
 
27.10.21
12:10
(24) что за хрень с этим хостингом? просит при просмотре сначала доказать что ты не верблюд, а потом выплевывает текстовый огрызок страницы лайтшота...
32 Garykom
 
гуру
27.10.21
12:22
(30) "TheBat" ?
Вы там из какого века?

И вот не пофиг по RDP то
33 evgpinsk_
 
27.10.21
12:23
(31) не понимаю
https://prnt.sc/1xgsiui

сразу открывается картинка. у вас нет?
34 Garykom
 
гуру
27.10.21
12:24
(31) угу я предпочитаю нормальным https://pastenow.ru/6e7574811aeb2748046bb83c0f55badc пользоваться
35 evgpinsk_
 
27.10.21
12:24
(32) в чём проблема этого почтового менеджера? )
такойже как и десятки других, миллионы им пользуются и сейчас
36 Garykom
 
гуру
27.10.21
12:25
(35) платная
зачем когда есть https://ru.wikipedia.org/wiki/Mozilla_Thunderbird

или уже давным давно принято веб-интерфейсы юзать
37 evgpinsk_
 
27.10.21
12:26
(34) понятие нормальности очень относительно, Prnt Scr - точно также пользуются тысячи пользователей и не знаю проблем. Не думаю что пастенов так уж принципиально круче ))
38 ДенисЧ
 
27.10.21
12:27
(36) Тундра по сравнинию с мышью - что плотник супротив столяра (с)
39 evgpinsk_
 
27.10.21
12:28
(36) Винда и офис тоже платные, Как и куча другого софта )

> зачем когда есть https://ru.wikipedia.org/wiki/Mozilla_Thunderbird

Это примерно как: "зачем ты покупаешь красные розы, когда вот редяом есть оранжевые тюльпаны" ))
40 evgpinsk_
 
27.10.21
12:29
(36) > или уже давным давно принято веб-интерфейсы юзать

а веб интерфей - это вообще гемор. Я предпочитаю всю почту держать оффлайн а не гемороится с открытием веб страниц.
41 Garykom
 
гуру
27.10.21
12:29
(38) Под тундру есть куча плагинов
Примерно как плотник с набором инструментов против столяра без станка ))
42 evgpinsk_
 
27.10.21
12:30
Факт один - для каждого продукта есть своя ниша. И заявлять просто так что одно хорошее а другое плохое, без привязки к конкретным условиям - ну очень смело
43 ДенисЧ
 
27.10.21
12:30
(41) Зачем нужна куча плагинов, которые тухнут при смене версии, если есть нормальная программа?
44 Garykom
 
гуру
27.10.21
12:31
(43) кто заставляет менять версию то?
45 Garykom
 
гуру
27.10.21
12:32
(42) факт один

не думаю что у вас купленный бат
да и 1С 77 имхается пиратка
46 pechkin
 
27.10.21
12:32
если страница полностью качается, то открываешь дом, а там по xpath все поля вычисляешь
47 Garykom
 
гуру
27.10.21
12:32
(46) он не программист ))
48 ДенисЧ
 
27.10.21
12:33
(44) Не поверишь - тундра. Прилетает критическое обновление и оппа. А следить - зачем, если есть нормальная программа?
49 evgpinsk_
 
27.10.21
12:33
(45) Конечно не куплен. так я и не заявляю, что бесплатность это плюс. )

А вот купили лы Вы MS Ofiice ? ))
50 evgpinsk_
 
27.10.21
12:34
(46) Да, случайно сначала в другую ветку бросил эту проблему и Ёпрст посоветоавл в т.ч. и дом использовать.
Только да - данную разработку я заказал на стороне, своими силами намного дороже было бу делать. Также и с домом - придётся кучу времени тратить на изучение
51 Garykom
 
гуру
27.10.21
12:35
(49) лично я для себя пользую LibreOffice
на работе арендованный MS Office
52 Garykom
 
гуру
27.10.21
12:36
(48) Отключай обновления
Там уже хз сколько лет ничего не менялось с появления IMAP
53 Злопчинский
 
27.10.21
12:59
(33) вот вся твоя картинка после прохожденяи капчи-робтоа найди все автобусы
https://www.screencast.com/t/od1ht3Sc
54 Злопчинский
 
27.10.21
12:59
(36) тандеберд норм, но он меня чем-то неуловимо раздражал, слез с него, поюзав с полгода..
вернулся к бату.
55 Злопчинский
 
27.10.21
13:01
(45) у меня бат - купленный.
56 Злопчинский
 
27.10.21
13:02
(51) либра меня оттолкнула своим фейсом. ни в дугу. перешел давно на WPS Office дома.
57 ДенисЧ
 
27.10.21
13:06
(52) а, то есть я ещё что-то там настраивать должен? Зачем, если есть нормальная программа?
58 evgpinsk_
 
27.10.21
13:27
(53) Очень странно. Сейчас проверил открытие ссылки на другом компе и телефоне - сразу моментально виден скрин без всяких капчей
59 Злопчинский
 
27.10.21
14:18
(58) это не только у твоих картинок так. хз что рубит (может на компе у меня что-то), но и по ссылкам других "авторов" тоже. напрягает одно что сначала надо верификацию капчей пройти.. ваще ужос...
60 andrewalexk
 
27.10.21
19:18
(0) :) у абрамса норм код на форумах
я его доделал и превратил хтмл-коллекцию поэзии в тхт-коллекцию
61 evgpinsk_
 
28.10.21
08:44
(60) может ссылка есть ?
62 andrewalexk
 
28.10.21
10:45
(61) :)
ну точной нету - искал через поиск по мисте
но вот такой код у меня отработал

IE=СоздатьОбъект("InternetExplorer.Application");
IE.Navigate(Путь);
Пока ie.readystate<4 Цикл
    Состояние("Загрузка...");
КонецЦикла;
стр=ie.document.body.innertext;
для й=1 по СтрКоличествоСтрок(стр) Цикл
    стр1=СтрПолучитьСтроку(стр,й);
...
63 evgpinsk_
 
28.10.21
13:53
И "абрамс" и "abrams" не находит )
64 andrewalexk
 
28.10.21
13:59
(63) :)) месье ну как не стыдно
smaharba
65 evgpinsk_
 
28.10.21
13:59
(62) Код заработал сходу, без всякого дополнительного чтения страницы Wget
круто :)
66 evgpinsk_
 
28.10.21
14:00
(64) Ну не знаю я ещё всех поимённо кого нужно знать )
67 evgpinsk_
 
27.11.21
22:59
(62) InternetExplorer.Application
хорошо читает HTML странички.
Парсить понравилось, но столкнулся с проблемой парсинга в другой задаче:

Когда в цикле обрабатываю много разных страниц, после парсинга 20-40 страниц или вылазит модальное окно "сервер занят действие не может быть завершено"
или крашится Internet Explorer

Может есть какието предположения почему?
68 evgpinsk_
 
27.11.21
23:25
После такого падения уже приходится перезапускать сеанс, т.к. :
Неудачная попытка создания объекта (InternetExplorer.Application)
69 andrewalexk
 
29.11.21
10:43
(68) :)
да есть такая беда
я просто закрываю сеанс программно и перезапускаю