|
Размышления о Парсинге, как таковом | ☑ | ||
---|---|---|---|---|
0
Сниф
21.05.14
✎
04:00
|
Привет, коллеги. Сразу хочу сказать - цель данного топика - выявить людей, которые так же, как я, интересуются этим вопросом.
Что такое Парсинг (сайтов) - наверное, можно прочитать в интернете. В моем понимании Парсинг - превращение общедоступной информации, размещенной в интернете, в информацию структурированную, которая может быть разложена "по полочкам" в базе данных. Некоторые источники (сайты)абсолютно не против, что их информация будет кем-то структурирована. Другие сайты, наоборот, противятся всяким попыткам их информацию получить в том количестве, которое они готовы отдавать. В качестве примера сайта, который яростно борется за выдачу информации небольшими порциями, лучше всего представить Яндекс-маркет. (http://market.yandex.ru) PS так как формат mista.ru не предусматривает статей, буду писать блоками. Следующий блок - Защита Яндекс vs Индусы |
|||
1
Сниф
21.05.14
✎
04:14
|
Блок№2 Защита Яндекс vs Индусы
Яндекс защищается от Парсинга следующим образом: когда он чувствует, что его парсят (используют), он выдает капчу - картнику с русскоязычными буквами, которые надо распознать и ввести в поле. Некие хитрые люди организовали бизнес, который называется Antigate. Суть в том, что картинка от Яндекс (или другого сервиса, например Google) посылается на сервис Antigate, где живые люди, в основном индусы, за 1 цент читают картинку и шлют обратно ответ. Одновременно ( позже я покажу график) в системе Antigate работают примерно 800 индусов одновременно и ваша капча будет разгадана. |
|||
2
alexexe
21.05.14
✎
04:22
|
Допустим Гугл создал уже алгоритм, распознающий свою капчу, возможно скоро индусы напишут алгоритмы, распознающие капчи Яндекса
"Сегодня команда проекта Google Street View опубликовала интересную новость. Дело в том, что разработчики сервиса создали новый алгоритм распознавания изображений, для того, чтобы с бОльшей точностью распознавать номера домов и названия улиц, сфотографированные автомобилями Google. И этот алгоритм оказался весьма эффективным в другом деле — в распознавании CAPTCHA. Причем капчу от Google собственный алгоритм компании распознает с небывалой эффективностью — 99,8%. Это значительно лучший результат, чем показывает даже человек. Сами знаете, сколько раз порой нужно набрать символы капчи, прежде чем система признает их верно распознанными." |
|||
3
Сниф
21.05.14
✎
04:31
|
Блок№3
Способы парсинга Я бы разделил их на две большие подгрупы: с интерфейсом визуальным и с программным интерфейсом. Насколько я провел исследования, в первой группе лидирует и самый дорогой продукт Human Emulator. Сейчас его стоимость на одну ашину составляет 400-500$. Там рулит PHP. У меня есть его старая версия: явные минусы - он основан на IE и не поддерживает современные сайты. |
|||
4
miron25
21.05.14
✎
04:32
|
(0)1сом все хорошо парситься..Напиши авито парсинг...люди готовы покупать за несколько тыщ рублей,причем не мало людей.А так как авито часто меняет защиту сайта от парсинга ..забросишь одинесить...
|
|||
5
miron25
21.05.14
✎
04:38
|
(1)Дело не только в индусах и капчах..Например и он не единственный Если с одного айпи идет скан так сказать всех страниц,то тебя сразу блокирнут ,чтоб не парсил.На авито всех интересует номер телефона..А вот номер в картинках..Напиши как там файн ридер свой?
|
|||
6
miron25
21.05.14
✎
04:41
|
Недавно ж вроде..был сайт копия мисты ,галакси чтоль назывался.Тот в реальном времени вроде пи..л.В поисковик стал хорошо залетать..
|
|||
7
Сниф
21.05.14
✎
04:42
|
(4) ага, больше бы таких людей.
Мой последний успешный результат: FireFox+iMacros+javascript |
|||
8
miron25
21.05.14
✎
04:44
|
(2)Капчи разные бывают,пока картинки..На многих сайтах уже собери пазл,распредели по категориям,девичья фамилия матери ..и т.д..
|
|||
9
Сниф
21.05.14
✎
04:45
|
miron25
пиши мне в почту, пока тему не закрыли |
|||
10
Сниф
21.05.14
✎
11:11
|
Апну с единственной целью: найти родственную душу по Ботоводству и Парсингу.
|
Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |