|
Мониторинг цен конкурентов на сайтах - есть такое? | ☑ | ||
---|---|---|---|---|
0
Котокот
30.09.13
✎
15:53
|
Есть программки в 1С для мониторинга цен конкурентов? Необходимо заходить на сайты из списка, вытягивать с них цены товаров и выдавать в таблице для сравнения со своими ценниками. Видел кто-нибудь такое?
|
|||
51
NS
30.09.13
✎
18:11
|
(50) А что там кроме получения страниц и парсинга?
|
|||
52
Злопчинский
30.09.13
✎
18:16
|
мутно это все. работы дохренища, а в долю вряд ли кто возьмет ;-)
на фармации делал тупо - с основной торговой площадки тянул прайсы "проверенных" поставщиков (список настраивался), получал некий усредненный прайс, относительно него мониторил свои продажные цены... |
|||
53
sttt
30.09.13
✎
18:19
|
(49) хоть на asm'e
(51) больше ничего, не парсил сайты пачками, не могу ничего сказать, но помню клиента, как у него было получение большого количества почты и все висело, правда у него сервер был плох. вот и подумалось, что будет подвешивать. там ведь не один сайт а несколько. также помню, делал обработку, баловства ради, мисту парсила, все висело))) правда на клиентской машине |
|||
54
sttt
30.09.13
✎
18:21
|
вот если на какой очень быстрый сервер (облаках) в web разместить php и выполнить...
|
|||
55
NS
30.09.13
✎
18:31
|
(52) не видел таких сайтов чтоб работы было дохренища.
вот согласовывать номенклатуру придется, только делать это должен не программист. |
|||
56
Зойч
30.09.13
✎
18:40
|
(55) ну это уже для совсем автоматического сравнения.
Обычно достаточно показать цены конкурентов по маске типа "колесо%opel". Делается это конечно уже вручную. |
|||
57
kokamoonga
30.09.13
✎
19:21
|
(30) >>> потому что в нём регулярные выражения для парсинга посильнее будут
Не будете ли вы так любезны пояснить этот тезис? Чем сильнее регулярные выражения в perl относительно php? Там разумеется немного разные реализации стандарта PCRE, но вот такой формулировки я еще не встречал... |
|||
58
Котокот
30.09.13
✎
19:55
|
(42) Ужа с ежом сращивать? Все равно все с нуля писать, лучше уже сразу на одной платформе.
|
|||
59
Злопчинский
30.09.13
✎
20:07
|
(55) вот как раз с согласованием номенклатуры - все более-менее хорошо. думаю, что опыта именно в согласовании номенклатуры у меня м.б. чуть поболее чем у маньяка с его автозапчастями. конечно, если согласовывать что-то с очень короткими наименованиями - то проблемы будут...
|
|||
60
NS
30.09.13
✎
20:11
|
(59) Парсинг только кажется сложным, на самом деле парсить сайты очень легко.
|
|||
61
ProProg
30.09.13
✎
20:13
|
(60) парсинг сайтов это для ларьков с 1000 товаров.
Пропарсь сайт когда нужно залить 20-30 тысяч номенклатуры. За...шся парсить. |
|||
62
NS
30.09.13
✎
20:14
|
(61) Ты на полном серьезе хочешь сказать что код для отпарсить 1000 товаров, отличается от кода для отпарсить 100000 товаров?
|
|||
63
ProProg
30.09.13
✎
20:17
|
(62) я те о том что парсинг вэб-страниц это вообще не вариант.
|
|||
64
ProProg
30.09.13
✎
20:18
|
На подавляющем большинстве движкой сейчас везде стоят проактивные защиты при превышении определенного количества хитов - бан.
|
|||
65
NS
30.09.13
✎
20:19
|
(63) Парсинг веб страниц - это очень даже вариант.
Тем более в этой теме обсуждается именно парсинг веб страниц. (64) Это вручную у тебя будет дохрена хитов, а автоматом один хит на получение страницы. |
|||
66
ProProg
30.09.13
✎
20:21
|
(65) обсуждается то да, но теоритически)
Думаю когда дело дойдет про то что заказчик хочет 20 000 товаров получать цены ) и допрет что на процедуру закачки обработкой нужны сутки) Весь интузиазм пропадет. |
|||
67
Jump
30.09.13
✎
20:22
|
(0)Программы такой нет.
Написать не проблема. Обновлять - проблема. Ибо конкуренты они такие сволочи, никак не хотят чтобы цены на их сайте боты мониторили, и всячески этому препятствуют. |
|||
68
NS
30.09.13
✎
20:22
|
(66) Какие сутки? Ты о чем?
По твоему есть сайты на которых кроме как один товар на странице данных не получить? |
|||
69
ProProg
30.09.13
✎
20:23
|
Я в стройматериалах три года работал - как раз у автора задача для них. Цены пять раз в день менятся могут у поставщика.
Тк у него тупо контейнеры идут пачками каждый день и себестоимость может менятся в зависимости от поставок контейнеров. |
|||
70
ProProg
30.09.13
✎
20:24
|
Если бизнес интенсивный - а автозапчастия, стройматериалы - это активно меняющиеся позиции в реальном времени! Как и цены так и остатки. Щаз есть, через пять секунд нет.
И тому подобное. То загребется он парсером что то парсить. |
|||
71
Злопчинский
30.09.13
✎
20:24
|
(66) Пофиг. Главное чтобы прога работала стабильно. У меня бывали варианты, когда работы долго считали. и ничего - никто не паритлся. если это ДЕЙСТВИТЕЛЬНО нужно - оно будет считаться. а если оно нахер не нужно - ну и похер
|
|||
72
Jump
30.09.13
✎
20:24
|
(64)Банят не за превышение хитов, а за превышение "404"
|
|||
73
NS
30.09.13
✎
20:24
|
Если грамотно писать, то 404 не будет.
|
|||
74
Злопчинский
30.09.13
✎
20:26
|
ну да, если торговля идет ПО ВЫСШЕМУ РАЗРЯДУ логистики - с колес на колеса, без собственных складских запасов - то это высший пилотажи и у собственника ДОЛЖНЫ быть РЕСУРСЫ на обеспечение такой работы. Надо чтобы отклик был не в сутки а в час - аренжуй мегасерверы и получай что надо.
. а то унас народ любит - надо чтобы было ВСЕ , но ДАРОМ и БЫСТРО. |
|||
75
Злопчинский
30.09.13
✎
20:28
|
(73) ну мы теперь знаем к кому обратиться, если что...
если конечно не гнушаетесь мелкой для вас работы... будет желание/возможность - стукнись в личку [email protected] или скайп Zlopun - надо регулярно парсить сайтик - картинки выдирать, а у них нет статического адреса, а у меня сейчас немного другие проблемы - парсингом никогда не занимался... |
|||
76
Jump
30.09.13
✎
20:28
|
(73)Большинство защит работает на различии просмотра страниц человеком и роботом.
Сможешь точно смоделировать человека? Обойти все уловки? |
|||
77
NS
30.09.13
✎
20:39
|
(76) конечно смогу.
роботов используют стандартных, которые умудряются гулять по ловушкам для ботов. когда пишешь сам, то нет никакой надобности искать все ссылки и лазить по ним. |
|||
78
Jump
30.09.13
✎
20:46
|
(77)Против тех кто не озабочен сработает, но если контора целенаправленно защищает сайт от слива, то фиг победишь.
|
|||
79
Jump
30.09.13
✎
20:51
|
Самое банальное - следим кто откуда пришел качать прайс.
Если человек редиректился со странички "информация" значит нормальный чувак, отдаем ему прайс. Если приперся по прямой ссылке - однозначно бот. |
|||
80
NS
30.09.13
✎
20:53
|
(78) Приведи пример.
|
|||
81
Никола_
Питерский 30.09.13
✎
20:54
|
(79) А если это был потенциальный клиент ? которому знакомый передал прямую ссылку ?
|
|||
82
Jump
30.09.13
✎
20:56
|
(81)Знакомые редко передают прямые ссылки на скачку, обычно дают ссылку на сайт. Прайс такая штука что меняется постоянно, часто с изменением прайса меняется и ссылка на него.
|
|||
83
NS
30.09.13
✎
20:57
|
Единственный нормальный способ защиты - это выводить цену в картинке, такое действительно тяжело победить, хотя уже столько библиотек для распознавания, а цена в виде капчи - это полная жесть.
|
|||
84
NS
30.09.13
✎
20:58
|
(82) Боюсь что постоянно меняя ссылку на прайс ты потеряешь кучу клиентов. И если ссылка всегда в одном месте, я без проблем её получу.
|
|||
85
Никола_
Питерский 30.09.13
✎
20:58
|
(82) Какая-то чушь. С чего ссылке меняться ? Чего уж там домен тогда каждый раз менять.
|
|||
86
Котокот
30.09.13
✎
20:59
|
(64) Тысяча Боярских, 6 девочек в течение дня парсят вручную несколько сайтов. Почему их до сих пор не забанили?
|
|||
87
Котокот
30.09.13
✎
21:00
|
(66) Никто не будет возражать против "одна закачка за сутки", главное что теперь это делает скрипт, а не 6 девочек. И ошибок будет меньше, и девочек можно будет употребить по назначению.
|
|||
88
Никола_
Питерский 30.09.13
✎
21:00
|
Да и потом в какой-то момент конкурент может стать твоим клиентом или наоборот твоим поставщиком. Так что палка о двух концах.
|
|||
89
Jump
30.09.13
✎
21:01
|
(85)Ну хотя бы по техническим причинам -
фирма.ру/прайс20052013 фирма.ру/прайс21052013 |
|||
90
Никола_
Питерский 30.09.13
✎
21:01
|
(64) Пример сайта с проактивной защитой.
|
|||
91
Котокот
30.09.13
✎
21:02
|
(79) Сфейхоа ли? Может он твой прайс в экселе посмотрел и по ссылке с этого прайса пришел.
|
|||
92
NS
30.09.13
✎
21:02
|
(89) Ссылка на прайс на главной странице есть? Кто мне помешает оттуда её взять? Или они дизайн главной страницы ежедневно менять будут?
|
|||
93
Jump
30.09.13
✎
21:03
|
||||
94
Котокот
30.09.13
✎
21:03
|
(83) Я как раз сейчас пишу систему распознавания отсканированных документов. Распознает с вероятностью 99%
|
|||
95
NS
30.09.13
✎
21:04
|
(93) да с яндекса качают все кому не лень.
|
|||
96
Jump
30.09.13
✎
21:05
|
(91)Во первых это пример, один из множества.
Во вторых те кто так делают, не оставляют в экселе прямых ссылок на прайс, а оставляют ссылку на сайт. (92)Ссылка динамическая, меняется однако, в отличие от дизайна. |
|||
97
Jump
30.09.13
✎
21:05
|
(95)Да качают, защита у них не лучшая, но есть.
|
|||
98
Jump
30.09.13
✎
21:06
|
Просто яндекс маркету пофиг на мониторинг, цены не их.
Поэтому если не наглеешь, не банят. |
|||
99
NS
30.09.13
✎
21:07
|
(98) так приведи пример сайта с нормальной защитой.
|
|||
100
Котокот
30.09.13
✎
21:08
|
(96) Оставляют
|
|||
101
NS
30.09.13
✎
21:08
|
(97) v8: Запрос на Яндекс из Delphi 7
вот тут оказалось что яндекс только заголовки запроса проверяет. |
|||
102
Jump
30.09.13
✎
21:09
|
В общем три вида -
те кому пофиг на мониторинг - просто вывешивают прайс. те кому не пофиг - делают хитрые защиты от ботов. те которые особо параноидальные - пишут на сайте "звоните для получения прайса" |
|||
103
NS
30.09.13
✎
21:09
|
(96) я тебя не понимаю. я возьму с главной страницы ссылку на прайс, и перейду по этой ссылке.
|
|||
104
NS
30.09.13
✎
21:10
|
моя программа возьмет с главной страницы ссылку на прайс, и перейдет по ней.
|
|||
105
Jump
30.09.13
✎
21:10
|
(101)А ты уверен что это не меняется с определенной периодичностью?
|
|||
106
NS
30.09.13
✎
21:11
|
(105) меняют что? заголовки запросов в браузерах? :)
|
|||
107
Jump
30.09.13
✎
21:14
|
(104)Размещаем на главной рисунок "получить прайс" пишем скрипт, чтобы рисунок работал как кнопка.
Делаем еще штуки три рисунка, адрес рисунка с кнопкой меняем каждый час. В итоге - человек увидит кнопку и нажмет на нее. Робот увидит несколько рисунков, и хз над каким из них нужно эмулировать щелчок мыши, чтобы получить ссылку. |
|||
108
Jump
30.09.13
✎
21:14
|
(106)Меняется алгоритм проверки.
|
|||
109
NS
30.09.13
✎
21:14
|
(107) приведи пример такого сайта.
|
|||
110
NS
30.09.13
✎
21:15
|
(108) а что яндекс может проверить кроме заголовков запроса?
ты меня заинтриговал. |
|||
111
Jump
30.09.13
✎
21:15
|
(109)Навскидку сложно сказать на днях скину ссылку.
|
|||
112
adelaide
30.09.13
✎
22:34
|
(0) сейчас как раз одним такую подсистему пишу, все по умному, через список прокси + подсистема проверки и формирования валидного проксилита + умеет прикидываться разными браузерами, многопоточноть дабы быстрей работало, валидация результата и много чего еще...
Пока решение получилось не универсальное, но буду работать над тем чтобы сделать более универсальным и настраиваемым под разные сайты. |
|||
113
Котокот
30.09.13
✎
22:52
|
(112) Напиши пустышку на whitecat<cobaka>bk.ru, может договоримся о сотрудничестве?
|
|||
114
Котокот
30.09.13
✎
22:54
|
(112) ОФФ: А Первомайск какой именно, не крымский?
|
|||
115
Новиков
30.09.13
✎
23:11
|
Маня прав тут. Если делать все по уму, то нужно очень хорошо вкладываться в это дело. Я делал что-то подобное, но как только конкурент чухал что его тупо грабят/парсят - он сначала менял каждый день хтмл разметку прайса. Потом, поняв, что через рекурсивку можно все равно эти детские шалости обходить, стал отслеживать количество просмотров страниц. Потом, поняв, что временные тайминги рулят, понял что нужно вводить ограничение на кол-во запросов с одной машины - наняли какого-то чувака, он туда им впилил бан от чата Бородина, который даже сменой прокси-сервера не обойдешь - он чухал разрешение экрана, и что-то там еще. Тогда я поднял 10 виртуалок, и с каждого сеанса под разными гео-локациями, с синхронизированными таймингами эмулировал 10 разных пользователей, небрежно лазающих по сайту :)
Ну кароче, Маня прав. Это все требует мега-затрат. И парсить можно - но просто все это поддерживать - ад. |
|||
116
NS
30.09.13
✎
23:19
|
(115) Как он узнавал что его грабят?
|
|||
117
Котокот
30.09.13
✎
23:21
|
(115) Ну вы все правы, конечно, но ничего нового для меня пока не открыли, так как в свое время мне уже приходилось быть "по ту сторону баррикад", а именно выявлять и обманывать подобных парсеров.
|
|||
118
Котокот
30.09.13
✎
23:22
|
(116) Логи смотришь, проверяешь, с какого айпи слишком часто страницы открываются, с какого айпи слишком много страниц просматривают, ну и т.д.
|
|||
119
Новиков
30.09.13
✎
23:23
|
(116) я так полагаю, как-то :)
|
|||
120
NS
30.09.13
✎
23:24
|
(118) Чтоб сграбить сайт не надо часто страницы открывать. И много страниц не надо просматривать. Не бывает сайтов где цена на каждый товар есть только на отдельной странице. Цены идут группами.
(119) Может ты просто забыл про заголовки, и тебя по кривому заголовку запроса вычислили? |
|||
121
Котокот
30.09.13
✎
23:25
|
(120) Ну группами, конечно, но как минимум 10 страниц. Причем одних и тех же, связанных с каталогом товаров. Анализируешь все это и приходишь к выводам.
|
|||
122
Новиков
30.09.13
✎
23:26
|
(119) ну, как бы лидер рынка. Я думаю, таких как я, тыщи там были граберов. Я орудовал через HttpAnalyzer по протаскиванию заголовков. И банили не меня одного :) Слишком много чести.
|
|||
123
NS
30.09.13
✎
23:30
|
(121) Не понял, к каким выводам приходишь.
Человек заходит к тебе раз в сутки в разное время, и смотрит по очереди 10 страниц в каталоге. Никаких подозрений это не вызовет. Если на каждую страницу тратится несколько секунд, в запросе есть referer, заголовок запроса соответствует какому-либо браузеру. Можно конечно отследить движения мышки и передать на сервак. Но скрипты у пользователя могут быть тупо отключены. Более того, когда ты пишешь парсер ты всяко смотришь html код страницы. И если робот написан с умом, то ну никак ты его по 10 страницам прайса не заловишь. Его поведение ничем не отличается от браузера для той стороны. |
|||
124
Новиков
30.09.13
✎
23:32
|
(123) ну что такое 10 страниц? :)
|
|||
125
NS
30.09.13
✎
23:32
|
(124) А сколько?
|
|||
126
Котокот
30.09.13
✎
23:33
|
(123) Ну отлавливали же
|
|||
127
NS
30.09.13
✎
23:34
|
(126) Значит что-то криво написал.
|
|||
128
Новиков
30.09.13
✎
23:35
|
(125) у нас на одной странице было где-то 10 наименований. В одном разделе - порядка 15 000 наименований. Таких разделов - ну где-то 10. Иногда 11. Ты можешь либо искать - если знаешь что. Либо листать. 15 000 / 10 = 1500 запросов. Я так полагаю, какие-то механизмы анализа у них были :)
|
|||
129
NS
30.09.13
✎
23:35
|
Факт остается фактом - робот для той стороны ничем не отличается от пользователя. И окромя того что в html коде (что ты всегда можешь посмотреть) та сторона может отследить только ip, время захода на страницу, и заголовки.
|
|||
130
NS
30.09.13
✎
23:36
|
(128) Ну 1500 запросов отследить совсем легко.
|
|||
131
NS
30.09.13
✎
23:38
|
Такой сайт, на который нужна такая куча запросов - нормально парсить не выйдет. Тут действительно нужна куча подставных айпишников, да и то будут засекать.
|
|||
132
Злопчинский
30.09.13
✎
23:41
|
ну вы монстры...
|
|||
133
Новиков
30.09.13
✎
23:44
|
(131) я про то и говорю. Ларек распарсить - легко. Все остальное - уже сложнее. Чем выше уровень конкурента - тем он больше вкладывает в то, чтобы его не парсили. Я говорю - там стояла система идентификация от чата Дмитрия Бородина. Понимаешь? Вот одно это какбы намекает - что челы ваще взялись по тяжелому за нас. Сама система авторская - хз что он там понакрутил. Насколько я понял - ее до сих пор, оригинал, не ломанули. Форки ломали. А его - нет. Уж чат почал как года три )
|
|||
134
vde69
модератор
30.09.13
✎
23:45
|
(0) я сейчас доделываю парсер тендерных площадок, в принципе вопрос вполне реализуем...
даже изменение формата в большинстве случаев не влияет на результат парсера... в принципе это будет отдельная конфа, возможно буду ее продавать после обкатки и притирки. По этому твой парсер - это примерно неделя работы и месяц отладки, если готовы потратить примерно 150 тр, то вообще не вопрос... |
|||
135
Новиков
30.09.13
✎
23:46
|
о Дмитрий! :) Разреши тебе поклониться )))))
|
|||
136
NS
30.09.13
✎
23:47
|
(133) Может просто куки? Что накрутил всегда можно посмотреть, ибо невозможно скрыть код страниц.
|
|||
137
Новиков
30.09.13
✎
23:50
|
(136) А с чего ты взял, что в коде будут алгоритмы? :) там вызов серверных скриптов. Туда ушло - оттуда в лоб. Что ты видишь? Максимум, что видно на клиенте. По этому как-то еще и вычислялось.
|
|||
138
NS
30.09.13
✎
23:52
|
(137) Ты видишь что туда ушло.
|
|||
139
vde69
модератор
30.09.13
✎
23:54
|
(107) у тебя URL прайса все равно статический, я его один раз получу и все...
если по уму, то делается через генерацию (например раз в сутки) URL нечитаемого вида по секретному алгоритму... так сделано обновление 7.7 и генерация url на основе ключа с ИТС. но таких сайтов единицы, большенство тупые и парсятся легко |
|||
140
NS
30.09.13
✎
23:55
|
+ (138) Если у тебя отключены скрипты в браузере - ничего туда не уходит.
|
|||
141
Новиков
30.09.13
✎
23:55
|
(138) естественно видишь. Ну там то тоже не валенок писал - видимо как-то по совокупности параметров вычислялось, что - это ты. Куки, твой массив параметров, что-то еще. Как-то же вычислял. Т.е. вот эта тема - это гниль. Я говорю, этим нужно заниматься плотно. Какую-то писать универсальную систему, которая будет граббить таких челов - это детский лепет. Никакой универсальности не будет.
|
|||
142
Новиков
30.09.13
✎
23:56
|
(140) ну тогда ты х чего и увидишь :)
|
|||
143
NS
30.09.13
✎
23:56
|
(141) Где ты увидел универсальную систему? Тут не обсуждались универсальные системы. Граббер среднего сайта пишется с набитой рукой за пол-часа. Изменили сайт, подправил граббер. На изменение сайта у них уйдет на порядок больше времени, чем у программиста на изменения граббера.
|
|||
144
Котокот
01.10.13
✎
00:02
|
(134) Видно профессионала, бюджет угадал практически один в один ))
|
|||
145
Котокот
01.10.13
✎
00:05
|
(143) Ну только если там не прохавают, что их грабят и при этом будут не банить, а кидать дезу. В этом случае будет сложно отловить сам факт подпихивания неверной инфы.
|
|||
146
adelaide
01.10.13
✎
00:21
|
(113) отписал
Вычисляют по статистике/частоте обращений с ip, юзерагенту, реферу. Ну к примеру у меня 10000 наименований надо получить цены конкурентов, это 10000 страниц скачать и распарсить с сайта агрегатора цен, с бесплатных источников собираю проксилиты, потом проводится их валидация: живой/мертвый, анонимный/прозрачный, сайт который будем парсить доступен через этот прокси или нет, после этого получаем список годных прокси, но и они могут отмирать во время парсинга, по этому надо еще анализировать результат и ранжировать прокси во время парсинга, короче много интересных моментов всплывает... Вообще по хорошему надо ВК писать именно по части дать ей список ссылок, заставить в эн потоков через прокси скачать, распарсить и вернуть результат, так как многопоточность в 1С те еще костыли. |
|||
147
NS
01.10.13
✎
00:26
|
(146) В этой ветке я уже спрашивал, существуют сайты где цены можно получить только со страницы с товаром?
Я вот сколько живу, таких сайтов еще не встречал. |
|||
148
adelaide
01.10.13
✎
00:30
|
(147) все зависит от задачи, не всегда нужны только цены, а если надо характеристики, описания, отзывы...
Можно распарить весь сайт, можно определенные страницы... |
|||
149
adelaide
01.10.13
✎
00:34
|
(143) зачем менять структуру сайта если можно просто банить по ip
|
|||
150
Котокот
01.10.13
✎
15:07
|
(146) Лови ответ.
|
Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |