Имя: Пароль:
IT
Веб-мастеринг
Мониторинг цен конкурентов на сайтах - есть такое?
,
0 Котокот
 
30.09.13
15:53
Есть программки в 1С для мониторинга цен конкурентов? Необходимо заходить на сайты из списка, вытягивать с них цены товаров и выдавать в таблице для сравнения со своими ценниками. Видел кто-нибудь такое?
2 ProProg
 
30.09.13
15:54
ааа на сайты заходить. Это вэб-сервисы уже.
Парсеры и все такое.
Универсально такого нет. Каждый сайт отдельный вэб-сервис и парсер. Так шо даж не мечтай.
3 ProProg
 
30.09.13
15:56
На проекте сидит сишник/дельфист/питонщик - который голову не поднимает на вэб-сервисами работает постоянно. Тк они гады почти каждую неделю меняются даже самими поставщиками.
4 Котокот
 
30.09.13
15:56
(2) Сфигали "разный", если большинство сайтов сделано на ограниченном наборе CMS? Мало кто из разрабов меняет глобально шаблоны CMS. Так что никто не мешает определять CMS сайта и по описанным заранее правилам обходить страницы каталога и выпарсивать оттудова цены.
5 ProProg
 
30.09.13
15:57
(4) тебя сразу забанит любой сайт при парсинге или попытке взезть в БД. а чисто вэб-марсинг это фигня.
6 ProProg
 
30.09.13
15:58
Не знаю что за отрасль у тебя, в автозапчастях почти у каждой фирмы переработанные сайты под себя на одном движке.
7 Зойч
 
30.09.13
15:58
(5) а как янедкс парсит и его не банят?
8 ptiz
 
30.09.13
15:59
(4) Флаг в руки. Учти, что некоторые шифруются так, что показывают в ценах картинки вместо текста.
9 Fish
 
30.09.13
16:00
(4) Сделай, потом здесь выложи, раз это так просто по-твоему.
10 ProProg
 
30.09.13
16:01
(7) банит еще как. пишут обходы через прокси-сервера и тп и тд.
И опять же существующие обработки для парсера яндекса - парсят вэб-страницы. те надо указывать каждую страницу.
И второе - яндекс постоянно меняет структура. Замучаешся парсер под него постоянно обновлять. Это разве что платную покупать обработку и платить за обновления.
11 ProProg
 
30.09.13
16:02
(8) есть такие которые вычисляют что их парсят) и этим парсерам начинают выдавать левые циферки)) которые приведут в упадок бизнес)
12 Котокот
 
30.09.13
16:05
(8)(11) Я в курсе. Вы тут страшные вещи рассказываете, но подобный скрипт на php работает уже года 3 и забанили по нему только один раз. Но он уже себя не оправдывает, ибо негибкий в  настройках и не связан с 1С.
13 ProProg
 
30.09.13
16:06
(12) ну так у всех такое. все пишут под себя. модифицируют, обновляют и тп. На продажу или на халяву - такого нет.
14 Зойч
 
30.09.13
16:06
(11) решения принимает не машина все-таки, а человек
15 Зойч
 
30.09.13
16:07
не уж то не кто не продает таких систем. пусть не 100% автомат, а с доработкой
16 ProProg
 
30.09.13
16:16
(15) на моем проекте сидит чел который занимается вэб-сервисами. зп 100к. ты будешь платить столько?
17 ProProg
 
30.09.13
16:16
а за 5 тыщ рублей кому оно нафиг надо.
18 Котокот
 
30.09.13
16:16
(16) Нафейхоа, можно за 50 хохла нанять
19 ProProg
 
30.09.13
16:17
Точно также знаем что у других фирм в этой отрасли сидят люди которые пишут парсеры, постоянно занимаются обновлением и так далее. У тех кто держит сайты (крупные поставщики и оптовики) целые отделы.
20 Котокот
 
30.09.13
16:19
Короч ситуация ясна, будем сами писать. Можно сразу настраивать заказчика, что будет долго и дорого.
21 trad
 
30.09.13
16:26
Есть у меня свой небольшой проект, который собирает каталоги с ценами у федеральных сетей м-видео, эльдорадо, dns, технопоинт и у ряда региональных.
У кого то, у кого есть, тянет из опубликованных excel - прайсов.
У кого то, в частности у федералов, берет непосредственно с html.
В принципе дело не особо сложное, но под каждого нужен, хотя бы частично, свой уникальный код.
Общая схема такая: загружаю html, прогоняю через tidy, с помощью xpath вытягиваю все что мне нужно.
22 ProProg
 
30.09.13
16:27
Мы готовим к выходу 5 вэб-сервисов на продажу. завязанных на сыществующих крупных поставщиках запчастей и движках. в частности трейд-софт.
С поддержкой и тп и тд. Но уже прошло 4 месяца и пока что даже срока нет когда мы их выпустим на массы.
23 ProProg
 
30.09.13
16:28
(21) тоже самое. только выделили две части - одна универсальная интегрирована под 1С. А остальные - это заточенные под каждый вэ-сервис компоненты.
Они передают в универсальную данные. та уже спокойно колбасится с 1С.
24 Никола_
Питерский
 
30.09.13
17:04
А в чем смысл ? Есть поставщик с которым ты работаешь и он тебе дает цену, не будешь же ты ниже продавать, даже если конкуретны продают ниже(х.з. где они берут и т.д.) ? Или там маржа 70-100% ? Я имею ввиду конечно товар одного производителя(типа оригинал).

В чем прикол ?
25 NS
 
30.09.13
17:06
(24) Прикол в том, что поставщик как правило не фиксирует цену продажи, и чтоб её выставить вменяемо нужно мониторить рынок.
26 NS
 
30.09.13
17:07
Если сеть, то монторинг нужен чтоб смотреть выполняет ли свои обязательство поставщик, по ценам на полках.
27 Котокот
 
30.09.13
17:13
(24) Заказчик - контора по продаже стройтехникпи и инструмента, более 20000 товаров, 400 новых клиентов в месяц (это только юрлица, не считая частников). Конкурентов достаточно, и если кто-то снизит цену на 100 руб, то это уже сказывается на объеме продаж. А руками мониторить такую базу это жесть. В данный момент это делают 6 специально обученных девочек на окладе.
28 Прыгун
 
30.09.13
17:21
Что то мне подсказывает, что шесть девочек может обойтись дешевле чем внедрение такого проекта. :)
29 sttt
 
30.09.13
17:25
(27) можно php к 1с прикрутить. а чем скрипт php не гибкий?
30 Cerera
 
30.09.13
17:26
(29)Перл лучше. потому что в нём регулярные выражения для парсинга посильнее будут.
31 sttt
 
30.09.13
17:28
(30) еще и быстрее отработает
32 Никола_
Питерский
 
30.09.13
17:31
(27) 100 руб. относительно какой суммы ? 20 т.р. или 150 руб. ? Просто этот мониторинг он вообще сомнителен, потому что есть куча других факторов при выборе конторы со стороны покупателя.

Ну а если Вы хотите только в цене выигрывать, так сделайте такую фишку типа: "Хотите этот товар еще дешевле ? Покажите где он есть дешевле и мы продадим Вам его еще дешевле и т.д. в таком русле".
33 Лефмихалыч
 
30.09.13
17:31
(0) пару лет назад стряпал такую хрень на 8.1
Работала, но потом энтузиазизм остыл и я, обложив поделие болтами, забросил. Скучно
34 Котокот
 
30.09.13
17:39
(29) Не, php к 1С точно не будем. Негибкий потому что мало настроек, а исходники не дают.
(32) Клиент давно уже юзает такой мониторинг и у него получаются хорошие результаты, значит толк в этом есть.
35 ProProg
 
30.09.13
17:42
(34) есть. нужно только еще в 1С сделать обработки анализа. сопоставление номенклатуры и так далее.
36 Котокот
 
30.09.13
17:43
(35) Ну сделаем. Клиент же платит.
37 sttt
 
30.09.13
17:48
(34) почему не дает исходники? добавили бы нужные настройки и дальше славно жили бы. нафига в 1с тянуть обработку данных, если и так отлично справляется? потом они к тебе приползут с тем, что 1с тормозит
38 sttt
 
30.09.13
17:51
хотя, если клиент платит то он прав))))
39 IamAlexy
 
30.09.13
17:52
(7) яндекс не парсит - яндексу продавцы сами присылают в их формате яндексовом..
40 Котокот
 
30.09.13
17:53
(37) Там один клиент дал другому попользоваться, а другой хочет больше возможностей, а первый не хочет дорабатывать прогу и исходники давать тоже не хочет - в общем та еще Санта Барбара...
41 ProProg
 
30.09.13
17:53
(37) в 1С свои цены, остатки, заказы и прочие все дела. без этого анализ невозможен. многие вообще даже сразу хотят в 1С менять цены от вытащенных цен.
А еще больше задач что если вэб-сервис поставщика то и заказывают товары. тк у поставщика еще могут остатки быть и тп и тд.
Мы например пишем не только вытаскивание данных с сайтов но и компоненты сразу заказа поставщику через его вэб-сервис. роботами.

Те у нас есть куча поставщиков и есть робот который каждые 2 часа по заказам клиентов наших, парсит анализирует цены в 1С делает заказы поставщикам и сразу эти заказы размещает на сайтах у поставщиков.

Еще один робот проверяет статусы заказов, что отменил поставщик что подтвердил - вносит коррективы в 1С, меняет статусы, заказывает отказанные уже другому поставщику. и так далее и так далее.

6 роботов пашет.
42 sttt
 
30.09.13
17:59
(41) так он хочет парсить в 1с, а можно в php это сделать и уже чистые данные в 1с отдавать и анализировать, а можно и из 1с все необходимое выгрузить и в php, с учетом 1с, анализ делать, потом результат куда надо отдавать
43 NS
 
30.09.13
18:00
Нифига не понимаю. Нахрена парсить в php?
44 sttt
 
30.09.13
18:02
(41) как быстро ваша система работает?
(43) если уже есть готовое и отлично работает. и лишний раз 1с не нагружать
45 NS
 
30.09.13
18:04
(44) В чем преимущество PHP перед нормальными быстрыми языками? Регулярные выражения есть не только в php, и практика показывает что ничего сложного на страницах не бывает, поэтому надобность регулярных выражений для парсинга цен очень преувеличена.
46 sttt
 
30.09.13
18:07
(45) готовыми функциями для работы в web, изобретать велосипед не придется
47 NS
 
30.09.13
18:08
(46) В смысле? Какие такие готовые функции? Страница получается одной строчкой при помощи http запроса в любом языке, в том числе и в 1С.
48 sttt
 
30.09.13
18:09
(45) можно любой взять какой нравится php, perl, python и тд.
49 NS
 
30.09.13
18:10
(48) На нормальных, быстрых языках никак? Обязательно что-то тормозное? Например С++11, Java - никак не катят?
50 sttt
 
30.09.13
18:11
(47) там не только парсинг
51 NS
 
30.09.13
18:11
(50) А что там кроме получения страниц и парсинга?
52 Злопчинский
 
30.09.13
18:16
мутно это все. работы дохренища, а в долю вряд ли кто возьмет ;-)
на фармации делал тупо - с основной торговой площадки тянул прайсы "проверенных" поставщиков (список настраивался), получал некий усредненный прайс, относительно него мониторил свои продажные цены...
53 sttt
 
30.09.13
18:19
(49) хоть на asm'e
(51) больше ничего, не парсил сайты пачками, не могу ничего сказать, но помню клиента, как у него было получение большого количества почты и все висело, правда у него сервер был плох. вот и подумалось, что будет подвешивать. там ведь не один сайт а несколько. также помню, делал обработку, баловства ради, мисту парсила, все висело))) правда на клиентской машине
54 sttt
 
30.09.13
18:21
вот если на какой очень быстрый сервер (облаках) в web разместить php и выполнить...
55 NS
 
30.09.13
18:31
(52) не видел таких сайтов чтоб работы было дохренища.
вот согласовывать номенклатуру придется, только делать это должен не программист.
56 Зойч
 
30.09.13
18:40
(55) ну это уже для совсем автоматического сравнения.
Обычно достаточно показать цены конкурентов по маске типа "колесо%opel".
Делается это конечно уже вручную.
57 kokamoonga
 
30.09.13
19:21
(30) >>> потому что в нём регулярные выражения для парсинга посильнее будут

Не будете ли вы так любезны пояснить этот тезис? Чем сильнее регулярные выражения в perl относительно php? Там разумеется немного разные реализации стандарта PCRE, но вот такой формулировки я еще не встречал...
58 Котокот
 
30.09.13
19:55
(42) Ужа с ежом сращивать? Все равно все с нуля писать, лучше уже сразу на одной платформе.
59 Злопчинский
 
30.09.13
20:07
(55) вот как раз с согласованием номенклатуры - все более-менее хорошо. думаю, что опыта именно в согласовании номенклатуры у меня м.б. чуть поболее чем у маньяка с его автозапчастями. конечно, если согласовывать что-то с очень короткими наименованиями - то проблемы будут...
60 NS
 
30.09.13
20:11
(59) Парсинг только кажется сложным, на самом деле парсить сайты очень легко.
61 ProProg
 
30.09.13
20:13
(60) парсинг сайтов это для ларьков с 1000 товаров.
Пропарсь сайт когда нужно залить 20-30 тысяч номенклатуры.
За...шся парсить.
62 NS
 
30.09.13
20:14
(61) Ты на полном серьезе хочешь сказать что код для отпарсить 1000 товаров, отличается от кода для отпарсить 100000 товаров?
63 ProProg
 
30.09.13
20:17
(62) я те о том что парсинг вэб-страниц это вообще не вариант.
64 ProProg
 
30.09.13
20:18
На подавляющем большинстве движкой сейчас везде стоят проактивные защиты при превышении определенного количества хитов - бан.
65 NS
 
30.09.13
20:19
(63) Парсинг веб страниц - это очень даже вариант.
Тем более в этой теме обсуждается именно парсинг веб страниц.
(64) Это вручную у тебя будет дохрена хитов, а автоматом один хит на получение страницы.
66 ProProg
 
30.09.13
20:21
(65) обсуждается то да, но теоритически)
Думаю когда дело дойдет про то что заказчик хочет 20 000 товаров получать цены ) и допрет что на процедуру закачки обработкой нужны сутки) Весь интузиазм пропадет.
67 Jump
 
30.09.13
20:22
(0)Программы такой нет.
Написать не проблема.
Обновлять - проблема.
Ибо конкуренты они такие сволочи, никак не хотят чтобы цены на их сайте боты мониторили, и всячески этому препятствуют.
68 NS
 
30.09.13
20:22
(66) Какие сутки? Ты о чем?
По твоему есть сайты на которых кроме как один товар на странице данных не получить?
69 ProProg
 
30.09.13
20:23
Я в стройматериалах три года работал - как раз у автора задача для них. Цены пять раз в день менятся могут у поставщика.
Тк у него тупо контейнеры идут пачками каждый день и себестоимость может менятся в зависимости от поставок контейнеров.
70 ProProg
 
30.09.13
20:24
Если бизнес интенсивный - а автозапчастия, стройматериалы - это активно меняющиеся позиции в реальном времени! Как и цены так и остатки. Щаз есть, через пять секунд нет.
И тому подобное.

То загребется он парсером что то парсить.
71 Злопчинский
 
30.09.13
20:24
(66) Пофиг. Главное чтобы прога работала стабильно. У меня бывали варианты, когда работы долго считали. и ничего - никто не паритлся. если это ДЕЙСТВИТЕЛЬНО нужно - оно будет считаться. а если оно нахер не нужно - ну и похер
72 Jump
 
30.09.13
20:24
(64)Банят не за превышение хитов, а за превышение "404"
73 NS
 
30.09.13
20:24
Если грамотно писать, то 404 не будет.
74 Злопчинский
 
30.09.13
20:26
ну да, если торговля идет ПО ВЫСШЕМУ РАЗРЯДУ логистики - с колес на колеса, без собственных складских запасов - то это высший пилотажи и у собственника ДОЛЖНЫ быть РЕСУРСЫ на обеспечение такой работы. Надо чтобы отклик был не в сутки а в час - аренжуй мегасерверы и получай что надо.
.
а то унас народ любит - надо чтобы было ВСЕ , но ДАРОМ и БЫСТРО.
75 Злопчинский
 
30.09.13
20:28
(73) ну мы теперь знаем к кому обратиться, если что...
если конечно не гнушаетесь мелкой для вас работы...
будет желание/возможность - стукнись в личку [email protected] или скайп Zlopun - надо регулярно парсить сайтик - картинки выдирать, а у них нет статического адреса, а у меня сейчас немного другие проблемы - парсингом никогда не занимался...
76 Jump
 
30.09.13
20:28
(73)Большинство защит работает на различии просмотра страниц человеком и роботом.
Сможешь точно смоделировать человека? Обойти все уловки?
77 NS
 
30.09.13
20:39
(76) конечно смогу.
роботов используют стандартных, которые умудряются гулять по ловушкам для ботов. когда пишешь сам, то нет никакой надобности искать все ссылки и лазить по ним.
78 Jump
 
30.09.13
20:46
(77)Против тех кто не озабочен сработает, но если контора целенаправленно защищает сайт от слива, то фиг победишь.
79 Jump
 
30.09.13
20:51
Самое банальное - следим кто откуда пришел качать прайс.
Если человек редиректился со странички "информация" значит нормальный чувак, отдаем ему прайс.
Если приперся по прямой ссылке - однозначно бот.
80 NS
 
30.09.13
20:53
(78) Приведи пример.
81 Никола_
Питерский
 
30.09.13
20:54
(79) А если это был потенциальный клиент ? которому знакомый передал прямую ссылку ?
82 Jump
 
30.09.13
20:56
(81)Знакомые редко передают прямые ссылки на скачку, обычно дают ссылку на сайт. Прайс такая штука что меняется постоянно, часто с изменением прайса меняется и ссылка на него.
83 NS
 
30.09.13
20:57
Единственный нормальный способ защиты - это выводить цену в картинке, такое действительно тяжело победить, хотя уже столько библиотек для распознавания, а цена в виде капчи - это полная жесть.
84 NS
 
30.09.13
20:58
(82) Боюсь что постоянно меняя ссылку на прайс ты потеряешь кучу клиентов. И если ссылка всегда в одном месте, я без проблем её получу.
85 Никола_
Питерский
 
30.09.13
20:58
(82) Какая-то чушь. С чего ссылке меняться ? Чего уж там домен тогда каждый раз менять.
86 Котокот
 
30.09.13
20:59
(64) Тысяча Боярских, 6 девочек в течение дня парсят вручную несколько сайтов. Почему их до сих пор не забанили?
87 Котокот
 
30.09.13
21:00
(66) Никто не будет возражать против "одна закачка за сутки", главное что теперь это делает скрипт, а не 6 девочек. И ошибок будет меньше, и девочек можно будет употребить по назначению.
88 Никола_
Питерский
 
30.09.13
21:00
Да и потом в какой-то момент конкурент может стать твоим клиентом или наоборот твоим поставщиком. Так что палка о двух концах.
89 Jump
 
30.09.13
21:01
(85)Ну хотя бы по техническим причинам -
фирма.ру/прайс20052013
фирма.ру/прайс21052013
90 Никола_
Питерский
 
30.09.13
21:01
(64) Пример сайта с проактивной защитой.
91 Котокот
 
30.09.13
21:02
(79) Сфейхоа ли? Может он твой прайс в экселе посмотрел и по ссылке с этого прайса пришел.
92 NS
 
30.09.13
21:02
(89) Ссылка на прайс на главной странице есть? Кто мне помешает оттуда её взять? Или они дизайн главной страницы ежедневно менять будут?
93 Jump
 
30.09.13
21:03
94 Котокот
 
30.09.13
21:03
(83) Я как раз сейчас пишу систему распознавания отсканированных документов. Распознает с вероятностью 99%
95 NS
 
30.09.13
21:04
(93) да с яндекса качают все кому не лень.
96 Jump
 
30.09.13
21:05
(91)Во первых это пример, один из множества.
Во вторых те кто так делают, не оставляют в экселе прямых ссылок на прайс, а оставляют ссылку на сайт.

(92)Ссылка динамическая, меняется однако, в отличие от дизайна.
97 Jump
 
30.09.13
21:05
(95)Да качают, защита у них не лучшая, но есть.
98 Jump
 
30.09.13
21:06
Просто яндекс маркету пофиг на мониторинг, цены не их.
Поэтому если не наглеешь, не банят.
99 NS
 
30.09.13
21:07
(98) так приведи пример сайта с нормальной защитой.
100 Котокот
 
30.09.13
21:08
(96) Оставляют
101 NS
 
30.09.13
21:08
(97) v8: Запрос на Яндекс из Delphi 7
вот тут оказалось что яндекс только заголовки запроса проверяет.
102 Jump
 
30.09.13
21:09
В общем три вида -
те кому пофиг на мониторинг - просто вывешивают прайс.
те кому не пофиг - делают хитрые защиты от ботов.
те которые особо параноидальные - пишут на сайте "звоните для получения прайса"
103 NS
 
30.09.13
21:09
(96) я тебя не понимаю. я возьму с главной страницы ссылку на прайс, и перейду по этой ссылке.
104 NS
 
30.09.13
21:10
моя программа возьмет с главной страницы ссылку на прайс, и перейдет по ней.
105 Jump
 
30.09.13
21:10
(101)А ты уверен что это не меняется  с определенной периодичностью?
106 NS
 
30.09.13
21:11
(105) меняют что? заголовки запросов в браузерах? :)
107 Jump
 
30.09.13
21:14
(104)Размещаем на главной рисунок "получить прайс" пишем скрипт, чтобы рисунок работал как кнопка.
Делаем еще штуки три рисунка, адрес рисунка с кнопкой меняем каждый час.
В итоге - человек увидит кнопку и нажмет на нее.
Робот увидит несколько рисунков, и хз над каким из них нужно эмулировать щелчок мыши, чтобы получить ссылку.
108 Jump
 
30.09.13
21:14
(106)Меняется алгоритм проверки.
109 NS
 
30.09.13
21:14
(107) приведи пример такого сайта.
110 NS
 
30.09.13
21:15
(108) а что яндекс может проверить кроме заголовков запроса?
ты меня заинтриговал.
111 Jump
 
30.09.13
21:15
(109)Навскидку сложно сказать на днях скину ссылку.
112 adelaide
 
30.09.13
22:34
(0) сейчас как раз одним такую подсистему пишу, все по умному, через список прокси + подсистема проверки и формирования валидного проксилита + умеет прикидываться разными браузерами, многопоточноть дабы быстрей работало, валидация результата и много чего еще...
Пока решение получилось не универсальное, но буду работать над тем чтобы сделать более универсальным и настраиваемым под разные сайты.
113 Котокот
 
30.09.13
22:52
(112) Напиши пустышку на whitecat<cobaka>bk.ru, может договоримся о сотрудничестве?
114 Котокот
 
30.09.13
22:54
(112) ОФФ: А Первомайск какой именно, не крымский?
115 Новиков
 
30.09.13
23:11
Маня прав тут. Если делать все по уму, то нужно очень хорошо вкладываться в это дело. Я делал что-то подобное, но как только конкурент чухал что его тупо грабят/парсят - он сначала менял каждый день хтмл разметку прайса. Потом, поняв, что через рекурсивку можно все равно эти детские шалости обходить, стал отслеживать количество просмотров страниц. Потом, поняв, что временные тайминги рулят, понял что нужно вводить ограничение на кол-во запросов с одной машины - наняли какого-то чувака, он туда им впилил бан от чата Бородина, который даже сменой прокси-сервера не обойдешь - он чухал разрешение экрана, и что-то там еще. Тогда я поднял 10 виртуалок, и с каждого сеанса под разными гео-локациями, с синхронизированными таймингами эмулировал 10 разных пользователей, небрежно лазающих по сайту :)

Ну кароче, Маня прав. Это все требует мега-затрат. И парсить можно - но просто все это поддерживать - ад.
116 NS
 
30.09.13
23:19
(115) Как он узнавал что его грабят?
117 Котокот
 
30.09.13
23:21
(115) Ну вы все правы, конечно, но ничего нового для меня пока не открыли, так как в свое время мне уже приходилось быть "по ту сторону баррикад", а именно выявлять и обманывать подобных парсеров.
118 Котокот
 
30.09.13
23:22
(116) Логи смотришь, проверяешь, с какого айпи слишком часто страницы открываются, с какого айпи слишком много страниц просматривают, ну и т.д.
119 Новиков
 
30.09.13
23:23
(116) я так полагаю, как-то :)
120 NS
 
30.09.13
23:24
(118) Чтоб сграбить сайт не надо часто страницы открывать. И много страниц не надо просматривать. Не бывает сайтов где цена на каждый товар есть только на отдельной странице. Цены идут группами.
(119) Может ты просто забыл про заголовки, и тебя по кривому заголовку запроса вычислили?
121 Котокот
 
30.09.13
23:25
(120) Ну группами, конечно, но как минимум 10 страниц. Причем одних и тех же, связанных с каталогом товаров. Анализируешь все это и приходишь к выводам.
122 Новиков
 
30.09.13
23:26
(119) ну, как бы лидер рынка. Я думаю, таких как я, тыщи там были граберов. Я орудовал через HttpAnalyzer по протаскиванию заголовков. И банили не меня одного :) Слишком много чести.
123 NS
 
30.09.13
23:30
(121) Не понял, к каким выводам приходишь.
Человек заходит к тебе раз в сутки в разное время, и смотрит по очереди 10 страниц в каталоге. Никаких подозрений это не вызовет. Если на каждую страницу тратится несколько секунд, в запросе есть referer, заголовок запроса соответствует какому-либо браузеру. Можно конечно отследить движения мышки и передать на сервак. Но скрипты у пользователя могут быть тупо отключены. Более того, когда ты пишешь парсер ты всяко смотришь html код страницы. И если робот написан с умом, то ну никак ты его по 10 страницам прайса не заловишь. Его поведение ничем не отличается от браузера для той стороны.
124 Новиков
 
30.09.13
23:32
(123) ну что такое 10 страниц? :)
125 NS
 
30.09.13
23:32
(124) А сколько?
126 Котокот
 
30.09.13
23:33
(123) Ну отлавливали же
127 NS
 
30.09.13
23:34
(126) Значит что-то криво написал.
128 Новиков
 
30.09.13
23:35
(125) у нас на одной странице было где-то 10 наименований. В одном разделе - порядка 15 000 наименований. Таких разделов - ну где-то 10. Иногда 11. Ты можешь либо искать - если знаешь что. Либо листать. 15 000 / 10 = 1500 запросов. Я так полагаю, какие-то механизмы анализа у них были :)
129 NS
 
30.09.13
23:35
Факт остается фактом - робот для той стороны ничем не отличается от пользователя. И окромя того что в html коде (что ты всегда можешь посмотреть) та сторона может отследить только ip, время захода на страницу, и заголовки.
130 NS
 
30.09.13
23:36
(128) Ну 1500 запросов отследить совсем легко.
131 NS
 
30.09.13
23:38
Такой сайт, на который нужна такая куча запросов - нормально парсить не выйдет. Тут действительно нужна куча подставных айпишников, да и то будут засекать.
132 Злопчинский
 
30.09.13
23:41
ну вы монстры...
133 Новиков
 
30.09.13
23:44
(131) я про то и говорю. Ларек распарсить - легко. Все остальное - уже сложнее. Чем выше уровень конкурента - тем он больше вкладывает в то, чтобы его не парсили. Я говорю - там стояла система идентификация от чата Дмитрия Бородина. Понимаешь? Вот одно это какбы намекает - что челы ваще взялись по тяжелому за нас. Сама система авторская - хз что он там понакрутил. Насколько я понял - ее до сих пор, оригинал, не ломанули. Форки ломали. А его - нет. Уж чат почал как года три )
134 vde69
 
модератор
30.09.13
23:45
(0) я сейчас доделываю парсер тендерных площадок, в принципе вопрос вполне реализуем...

даже изменение формата в большинстве случаев не влияет на результат парсера...

в принципе это будет отдельная конфа, возможно буду ее продавать после обкатки и притирки.

По этому твой парсер - это примерно неделя работы и месяц отладки, если готовы потратить примерно 150 тр, то вообще не вопрос...
135 Новиков
 
30.09.13
23:46
о Дмитрий! :) Разреши тебе поклониться )))))
136 NS
 
30.09.13
23:47
(133) Может просто куки? Что накрутил всегда можно посмотреть, ибо невозможно скрыть код страниц.
137 Новиков
 
30.09.13
23:50
(136) А с чего ты взял, что в коде будут алгоритмы? :) там вызов серверных скриптов. Туда ушло - оттуда в лоб. Что ты видишь? Максимум, что видно на клиенте. По этому как-то еще и вычислялось.
138 NS
 
30.09.13
23:52
(137) Ты видишь что туда ушло.
139 vde69
 
модератор
30.09.13
23:54
(107) у тебя URL прайса все равно статический, я его один раз получу и все...

если по уму, то делается через генерацию (например раз в сутки) URL нечитаемого вида по секретному алгоритму... так сделано обновление 7.7 и генерация url на основе ключа с ИТС.

но таких сайтов единицы, большенство тупые и парсятся легко
140 NS
 
30.09.13
23:55
+ (138) Если у тебя отключены скрипты в браузере - ничего туда не уходит.
141 Новиков
 
30.09.13
23:55
(138) естественно видишь. Ну там то тоже не валенок писал - видимо как-то по совокупности параметров вычислялось, что - это ты. Куки, твой массив параметров, что-то еще. Как-то же вычислял. Т.е. вот эта тема - это гниль. Я говорю, этим нужно заниматься плотно. Какую-то писать универсальную систему, которая будет граббить таких челов - это детский лепет. Никакой универсальности не будет.
142 Новиков
 
30.09.13
23:56
(140) ну тогда ты х чего и увидишь :)
143 NS
 
30.09.13
23:56
(141) Где ты увидел универсальную систему? Тут не обсуждались универсальные системы. Граббер среднего сайта пишется с набитой рукой за пол-часа. Изменили сайт, подправил граббер. На изменение сайта у них уйдет на порядок больше времени, чем у программиста на изменения граббера.
144 Котокот
 
01.10.13
00:02
(134) Видно профессионала, бюджет угадал практически один в один ))
145 Котокот
 
01.10.13
00:05
(143) Ну только если там не прохавают, что их грабят и при этом будут не банить, а кидать дезу. В этом случае будет сложно отловить сам факт подпихивания неверной инфы.
146 adelaide
 
01.10.13
00:21
(113) отписал

Вычисляют по статистике/частоте обращений с ip, юзерагенту, реферу. Ну к примеру у меня 10000 наименований надо получить цены конкурентов, это 10000 страниц скачать и распарсить с сайта агрегатора цен, с бесплатных источников собираю проксилиты, потом проводится их валидация: живой/мертвый, анонимный/прозрачный, сайт который будем парсить доступен через этот прокси или нет, после этого получаем список годных прокси, но и они могут отмирать во время парсинга, по этому надо еще анализировать результат и ранжировать прокси во время парсинга, короче много интересных моментов всплывает...

Вообще по хорошему надо ВК писать именно по части дать ей список ссылок, заставить в эн потоков через прокси скачать, распарсить и вернуть результат, так как многопоточность в 1С те еще костыли.
147 NS
 
01.10.13
00:26
(146) В этой ветке я уже спрашивал, существуют сайты где цены можно получить только со страницы с товаром?
Я вот сколько живу, таких сайтов еще не встречал.
148 adelaide
 
01.10.13
00:30
(147) все зависит от задачи, не всегда нужны только цены, а если надо характеристики, описания, отзывы...
Можно распарить весь сайт, можно определенные страницы...
149 adelaide
 
01.10.13
00:34
(143) зачем менять структуру сайта если можно просто банить по ip
150 Котокот
 
01.10.13
15:07
(146) Лови ответ.