|
v7: Какой наиболее простой способ прочитать данные с HTML страницы | ☑ | ||
---|---|---|---|---|
0
evgpinsk_
01.10.21
✎
09:36
|
Есть сайт госзакупок. Пример:
https://goszakupki.by/marketing/view/462737 Хотелось бы отчасти автоматизировать процесс создания счёта. Требуется прочитать основные данные с этой страницы закупки: Номер закупки, УНП, Имя клиента, адрес, email и т.д. Через тотже wget страницу можно прочитать в текстовый файл^ https://dropmefiles.com/JIsxW Этот файл можно открыть или как текстовый или браузером в виде html файла /глазами видим его более читаемо/ Ну и сам вопрос: какой наиболее простой способ прочитать нужные данные? |
|||
1
Garykom
гуру
01.10.21
✎
09:48
|
нанять программиста
|
|||
2
ДенисЧ
01.10.21
✎
09:49
|
||||
3
Garykom
гуру
01.10.21
✎
09:49
|
(2) по апи без программиста? ну может уже есть готовые решения для 77 но вряд ли
|
|||
4
evgpinsk_
01.10.21
✎
09:50
|
Этот путь я знаю, и готов кстати на это, если расценки не разорят /почта в подписи/ )
Либо второй вариант - попробовать самому |
|||
5
ДенисЧ
01.10.21
✎
09:50
|
(4) Используй второй вариант, дешевле выйдет
|
|||
6
Aleksey
01.10.21
✎
09:50
|
(2) Ему нужны Белорусские закупки. Думаешь движок один на всех?
|
|||
7
Garykom
гуру
01.10.21
✎
09:51
|
(4) есть несколько способов, какой лучше не попробовав не понять
если можно по апи то надо по нему а как из 1С по http это уже пофиг |
|||
8
evgpinsk_
01.10.21
✎
09:52
|
К сожалению API у них нет
|
|||
9
evgpinsk_
01.10.21
✎
09:53
|
способ (2)
уже не виден :) |
|||
10
Garykom
гуру
01.10.21
✎
09:56
|
слово "парсер" что нибудь говорит?
|
|||
11
evgpinsk_
01.10.21
✎
09:56
|
(10) да )
|
|||
12
Garykom
гуру
01.10.21
✎
09:59
|
(11) ну так погугли в сочетании с 1С 77
|
|||
13
evgpinsk_
01.10.21
✎
11:36
|
(12) Погуглил, сильно не помогло
Я правильно понимаю что нужно использовать средства работы с JSON? или может быть через чтение XML? |
|||
14
evgpinsk_
01.10.21
✎
11:37
|
Или может просто через чтение текстового файла, искать нужный тег, например "УНП организации"
и за ним будет нужны мне УНП может это наиболее простой вариант? |
|||
15
evgpinsk_
01.10.21
✎
11:38
|
||||
16
evgpinsk_
01.10.21
✎
11:40
|
Здесь можно спрашивать желающих платно решить задачу?
|
|||
17
AAA
01.10.21
✎
11:46
|
Делал и ручной парсинг, и не совсем ручной Работало, ломалось при изменении сайта, модифицировал. Потом в силу ряда причин
клиент сделал на питоне поиск нужных тендеров и валит мне текстовый файл с реестровыми номерами тендеров и остальной нужной информацией |
|||
18
evgpinsk_
01.10.21
✎
11:50
|
> "клиент сделал на питоне поиск нужных тендеров"
У нас будет ручной поиск > "и валит мне текстовый файл с реестровыми номерами тендеров и остальной нужной информацией" а в чём смысл? что дальше? |
|||
19
Arbuz
01.10.21
✎
15:18
|
(18) Смысл в унификации формата входного файла, но парсер на питоне надо переписывать при изменении сайта.
|
|||
20
evgpinsk_
01.10.21
✎
15:21
|
(19) Не пойму, т.е. через питон можно сделать самое основное - получить в унифицированном виде всю информацию со страницы тендера.
В чём проблема было дописать небольшой объём кода для дальнейшей переброски в 1с? Зачем им ваши услуги по переброске данных? ) |
|||
21
Arbuz
01.10.21
✎
15:27
|
(20) Не каждый питонщик захочет вникать в кухню 1С и, соответственно, не каждый 1Сник потянет питон.
|
|||
22
evgpinsk_
01.10.21
✎
15:36
|
(21) Это понятно. не понятно:
(17) > "и валит мне текстовый файл с реестровыми номерами тендеров и остальной нужной информацией" валит каждый раз для чего? когда можно просто запустить скрипт, который один раз написал программист 1с ) |
|||
23
Garykom
гуру
01.10.21
✎
15:40
|
(21) пофиг суть в разделении задачи на части
одна парсит и приводит в некий стандарт другая из стандарта грузит в 1С на чем делать части пофиг, хоть питон, хоть 1С, хоть микросервис на Golang |
|||
24
evgpinsk_
27.10.21
✎
10:47
|
Подытожу тему, вот такая обработка была заказана, парсинг реализован на базе v7plus.dll
https://prnt.sc/1xgsiui Производительность труда выросла в разы. Правда наткнулся на проблемку (пока не решили) крашится 1с примерно на каждом 3-4 парсинге на строке: Документ = Анализатор.СоздатьДокумент(); |
|||
25
Garykom
гуру
27.10.21
✎
10:55
|
(24) мдя но конечно зависит сколько заплатили
|
|||
26
Garykom
гуру
27.10.21
✎
10:57
|
"v7plus.dll" это хрень, уже давно принято для 77 на WinHttp.WinHttpRequest или Msxml2.ServerXMLHTTP
|
|||
27
evgpinsk_
27.10.21
✎
11:02
|
(26) Хрень изза нестабильной работы?
|
|||
28
Garykom
гуру
27.10.21
✎
11:05
|
(27) угу ибо оно времен Win98 и Win2k
ну и не умеет многое |
|||
29
Garykom
гуру
27.10.21
✎
11:07
|
Короче виртуалка (hyper-v или virtualbox бесплатны), туда win2k3, туда 1C 77 и вот там должно быть стабильно
только могут быть траблы с сертификатами |
|||
30
evgpinsk_
27.10.21
✎
12:06
|
(29) Не, думаю это не очень пройдёт, 1с завязана с темже TheBat и т.д.
|
|||
31
Злопчинский
27.10.21
✎
12:10
|
(24) что за хрень с этим хостингом? просит при просмотре сначала доказать что ты не верблюд, а потом выплевывает текстовый огрызок страницы лайтшота...
|
|||
32
Garykom
гуру
27.10.21
✎
12:22
|
(30) "TheBat" ?
Вы там из какого века? И вот не пофиг по RDP то |
|||
33
evgpinsk_
27.10.21
✎
12:23
|
||||
34
Garykom
гуру
27.10.21
✎
12:24
|
(31) угу я предпочитаю нормальным https://pastenow.ru/6e7574811aeb2748046bb83c0f55badc пользоваться
|
|||
35
evgpinsk_
27.10.21
✎
12:24
|
(32) в чём проблема этого почтового менеджера? )
такойже как и десятки других, миллионы им пользуются и сейчас |
|||
36
Garykom
гуру
27.10.21
✎
12:25
|
(35) платная
зачем когда есть https://ru.wikipedia.org/wiki/Mozilla_Thunderbird или уже давным давно принято веб-интерфейсы юзать |
|||
37
evgpinsk_
27.10.21
✎
12:26
|
(34) понятие нормальности очень относительно, Prnt Scr - точно также пользуются тысячи пользователей и не знаю проблем. Не думаю что пастенов так уж принципиально круче ))
|
|||
38
ДенисЧ
27.10.21
✎
12:27
|
(36) Тундра по сравнинию с мышью - что плотник супротив столяра (с)
|
|||
39
evgpinsk_
27.10.21
✎
12:28
|
(36) Винда и офис тоже платные, Как и куча другого софта )
> зачем когда есть https://ru.wikipedia.org/wiki/Mozilla_Thunderbird Это примерно как: "зачем ты покупаешь красные розы, когда вот редяом есть оранжевые тюльпаны" )) |
|||
40
evgpinsk_
27.10.21
✎
12:29
|
(36) > или уже давным давно принято веб-интерфейсы юзать
а веб интерфей - это вообще гемор. Я предпочитаю всю почту держать оффлайн а не гемороится с открытием веб страниц. |
|||
41
Garykom
гуру
27.10.21
✎
12:29
|
(38) Под тундру есть куча плагинов
Примерно как плотник с набором инструментов против столяра без станка )) |
|||
42
evgpinsk_
27.10.21
✎
12:30
|
Факт один - для каждого продукта есть своя ниша. И заявлять просто так что одно хорошее а другое плохое, без привязки к конкретным условиям - ну очень смело
|
|||
43
ДенисЧ
27.10.21
✎
12:30
|
(41) Зачем нужна куча плагинов, которые тухнут при смене версии, если есть нормальная программа?
|
|||
44
Garykom
гуру
27.10.21
✎
12:31
|
(43) кто заставляет менять версию то?
|
|||
45
Garykom
гуру
27.10.21
✎
12:32
|
(42) факт один
не думаю что у вас купленный бат да и 1С 77 имхается пиратка |
|||
46
pechkin
27.10.21
✎
12:32
|
если страница полностью качается, то открываешь дом, а там по xpath все поля вычисляешь
|
|||
47
Garykom
гуру
27.10.21
✎
12:32
|
(46) он не программист ))
|
|||
48
ДенисЧ
27.10.21
✎
12:33
|
(44) Не поверишь - тундра. Прилетает критическое обновление и оппа. А следить - зачем, если есть нормальная программа?
|
|||
49
evgpinsk_
27.10.21
✎
12:33
|
(45) Конечно не куплен. так я и не заявляю, что бесплатность это плюс. )
А вот купили лы Вы MS Ofiice ? )) |
|||
50
evgpinsk_
27.10.21
✎
12:34
|
(46) Да, случайно сначала в другую ветку бросил эту проблему и Ёпрст посоветоавл в т.ч. и дом использовать.
Только да - данную разработку я заказал на стороне, своими силами намного дороже было бу делать. Также и с домом - придётся кучу времени тратить на изучение |
|||
51
Garykom
гуру
27.10.21
✎
12:35
|
(49) лично я для себя пользую LibreOffice
на работе арендованный MS Office |
|||
52
Garykom
гуру
27.10.21
✎
12:36
|
(48) Отключай обновления
Там уже хз сколько лет ничего не менялось с появления IMAP |
|||
53
Злопчинский
27.10.21
✎
12:59
|
(33) вот вся твоя картинка после прохожденяи капчи-робтоа найди все автобусы
https://www.screencast.com/t/od1ht3Sc |
|||
54
Злопчинский
27.10.21
✎
12:59
|
(36) тандеберд норм, но он меня чем-то неуловимо раздражал, слез с него, поюзав с полгода..
вернулся к бату. |
|||
55
Злопчинский
27.10.21
✎
13:01
|
(45) у меня бат - купленный.
|
|||
56
Злопчинский
27.10.21
✎
13:02
|
(51) либра меня оттолкнула своим фейсом. ни в дугу. перешел давно на WPS Office дома.
|
|||
57
ДенисЧ
27.10.21
✎
13:06
|
(52) а, то есть я ещё что-то там настраивать должен? Зачем, если есть нормальная программа?
|
|||
58
evgpinsk_
27.10.21
✎
13:27
|
(53) Очень странно. Сейчас проверил открытие ссылки на другом компе и телефоне - сразу моментально виден скрин без всяких капчей
|
|||
59
Злопчинский
27.10.21
✎
14:18
|
(58) это не только у твоих картинок так. хз что рубит (может на компе у меня что-то), но и по ссылкам других "авторов" тоже. напрягает одно что сначала надо верификацию капчей пройти.. ваще ужос...
|
|||
60
andrewalexk
27.10.21
✎
19:18
|
(0) :) у абрамса норм код на форумах
я его доделал и превратил хтмл-коллекцию поэзии в тхт-коллекцию |
|||
61
evgpinsk_
28.10.21
✎
08:44
|
(60) может ссылка есть ?
|
|||
62
andrewalexk
28.10.21
✎
10:45
|
(61) :)
ну точной нету - искал через поиск по мисте но вот такой код у меня отработал IE=СоздатьОбъект("InternetExplorer.Application"); IE.Navigate(Путь); Пока ie.readystate<4 Цикл Состояние("Загрузка..."); КонецЦикла; стр=ie.document.body.innertext; для й=1 по СтрКоличествоСтрок(стр) Цикл стр1=СтрПолучитьСтроку(стр,й); ... |
|||
63
evgpinsk_
28.10.21
✎
13:53
|
И "абрамс" и "abrams" не находит )
|
|||
64
andrewalexk
28.10.21
✎
13:59
|
(63) :)) месье ну как не стыдно
smaharba |
|||
65
evgpinsk_
28.10.21
✎
13:59
|
(62) Код заработал сходу, без всякого дополнительного чтения страницы Wget
круто :) |
|||
66
evgpinsk_
28.10.21
✎
14:00
|
(64) Ну не знаю я ещё всех поимённо кого нужно знать )
|
|||
67
evgpinsk_
27.11.21
✎
22:59
|
(62) InternetExplorer.Application
хорошо читает HTML странички. Парсить понравилось, но столкнулся с проблемой парсинга в другой задаче: Когда в цикле обрабатываю много разных страниц, после парсинга 20-40 страниц или вылазит модальное окно "сервер занят действие не может быть завершено" или крашится Internet Explorer Может есть какието предположения почему? |
|||
68
evgpinsk_
27.11.21
✎
23:25
|
После такого падения уже приходится перезапускать сеанс, т.к. :
Неудачная попытка создания объекта (InternetExplorer.Application) |
|||
69
andrewalexk
29.11.21
✎
10:43
|
(68) :)
да есть такая беда я просто закрываю сеанс программно и перезапускаю |
Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |