Имя: Пароль:
IT
Веб-мастеринг
Размышления о Парсинге, как таковом
0 Сниф
 
21.05.14
04:00
Привет, коллеги. Сразу хочу сказать - цель данного топика - выявить людей, которые так же, как я, интересуются этим вопросом.

Что такое Парсинг (сайтов) - наверное, можно прочитать в интернете. В моем понимании Парсинг - превращение общедоступной информации, размещенной в интернете, в информацию структурированную, которая может быть разложена "по полочкам" в базе данных.

Некоторые источники (сайты)абсолютно не против, что их информация будет кем-то структурирована. Другие сайты, наоборот, противятся всяким попыткам их информацию получить в том количестве, которое они готовы отдавать. В качестве примера сайта, который яростно борется за выдачу информации небольшими порциями, лучше всего представить Яндекс-маркет. (http://market.yandex.ru)

PS так как формат mista.ru не предусматривает статей, буду писать блоками. Следующий блок - Защита Яндекс vs Индусы
1 Сниф
 
21.05.14
04:14
Блок№2 Защита Яндекс vs Индусы
Яндекс защищается от Парсинга следующим образом: когда он чувствует, что его парсят (используют), он выдает капчу - картнику с русскоязычными буквами, которые надо распознать и ввести в поле. Некие хитрые люди организовали бизнес, который называется Antigate. Суть в том, что картинка от Яндекс (или другого сервиса, например Google) посылается на сервис Antigate, где живые люди, в основном индусы, за 1 цент читают картинку и шлют обратно ответ. Одновременно ( позже я покажу график) в системе Antigate работают примерно 800 индусов одновременно и ваша капча будет разгадана.
2 alexexe
 
21.05.14
04:22
Допустим Гугл создал уже алгоритм, распознающий свою капчу, возможно скоро индусы напишут алгоритмы, распознающие капчи Яндекса

"Сегодня команда проекта Google Street View опубликовала интересную новость. Дело в том, что разработчики сервиса создали новый алгоритм распознавания изображений, для того, чтобы с бОльшей точностью распознавать номера домов и названия улиц, сфотографированные автомобилями Google.

И этот алгоритм оказался весьма эффективным в другом деле — в распознавании CAPTCHA. Причем капчу от Google собственный алгоритм компании распознает с небывалой эффективностью — 99,8%. Это значительно лучший результат, чем показывает даже человек. Сами знаете, сколько раз порой нужно набрать символы капчи, прежде чем система признает их верно распознанными."
3 Сниф
 
21.05.14
04:31
Блок№3
Способы парсинга

Я бы разделил их на две большие подгрупы: с интерфейсом визуальным и с программным интерфейсом.
Насколько я провел исследования, в первой группе лидирует и самый дорогой продукт Human Emulator. Сейчас его стоимость на одну ашину составляет 400-500$. Там рулит PHP. У меня есть его старая версия: явные минусы - он основан на IE и не поддерживает современные сайты.
4 miron25
 
21.05.14
04:32
(0)1сом все хорошо парситься..Напиши авито парсинг...люди готовы покупать за несколько тыщ рублей,причем не мало людей.А так как авито часто меняет защиту сайта от парсинга ..забросишь одинесить...
5 miron25
 
21.05.14
04:38
(1)Дело не только в индусах и капчах..Например и он не единственный Если с одного айпи идет скан так сказать всех страниц,то тебя сразу блокирнут ,чтоб не парсил.На авито всех интересует номер телефона..А вот номер в картинках..Напиши как там файн ридер свой?
6 miron25
 
21.05.14
04:41
Недавно ж вроде..был сайт копия мисты ,галакси чтоль назывался.Тот в реальном времени вроде пи..л.В поисковик стал хорошо залетать..
7 Сниф
 
21.05.14
04:42
(4) ага, больше бы таких людей.
Мой последний успешный результат: FireFox+iMacros+javascript
8 miron25
 
21.05.14
04:44
(2)Капчи разные бывают,пока картинки..На многих сайтах уже собери пазл,распредели по категориям,девичья фамилия матери ..и т.д..
9 Сниф
 
21.05.14
04:45
miron25
пиши мне в почту, пока тему не закрыли
10 Сниф
 
21.05.14
11:11
Апну с единственной целью: найти родственную душу по Ботоводству и Парсингу.
Закон Брукера: Даже маленькая практика стоит большой теории.