Имя: Пароль:
IT
Веб-мастеринг
Большой объем данных при парсинге
, ,
0 Александр Тоха
 
16.09.18
11:54
Уважаемые знатоки, добрый день. Подскажите как решить мне одну очень простую для вас задачу) Вкратце, пишу парсер впервые) и так случилось, что мне нужно открыть постоянное соединение с источником и получать только измененные данные, так как в текущей реализации "curl_multi" уперся в узкое место - канал, json данные 1.06-1.09mb летят через космос и доходят до пасрера через 3-3.4с. Это очень большая задержка, какой костыль или решение есть для данной проблемы ?
1 Пузан
 
16.09.18
12:03
(0) Упаковывать данные перед передачей и распаковывать после получения.
2 Александр Тоха
 
16.09.18
12:04
(1) как упаковать перед передачей на стороннем ресурсе ?
3 Cool_Profi
 
16.09.18
12:10
Сделй так, чтобы пакет летел не через космос, а по земле
4 Пузан
 
16.09.18
12:12
(2) Т.е. ты никак на тот ресурс повлиять не можешь, попросить отдавать данные пакетами поменьше, упаковывать их? Тогда никак. Расширить канал вряд ли даст эффект, а больше ты ни на что не влияешь.
5 Александр Тоха
 
16.09.18
12:16
(3) имеете ввиду взять vps ближе к источнику ?
6 Cool_Profi
 
16.09.18
12:19
(5) Откуда я знаю, как у тебя там всё это собрано. Тебе видней
7 Александр Тоха
 
16.09.18
12:45
(6) парсер на localhost
8 Asmody
 
16.09.18
12:51
Не заниматься велосипедостроением, а использовать готовые MQ.
9 Александр Тоха
 
16.09.18
12:53
(8) что такое MQ ?) и как это MQ поможет мне ?
10 Пузан
 
16.09.18
12:56
(8) Для этого ему надо будет все-равно иметь влияние на источник данных. А у него нет. :)
11 dmitryds
 
16.09.18
12:56
(0) можно попробовать в заголовке запроса добавить в поддерживаемые кодировки gzip
12 Garykom
 
гуру
16.09.18
12:59
(9) Тебе намекают что нехрен заниматься парсингом html, договорись с "поставщиком данных" (владельцем сайта) и получай готовые данные в нужном виде.
13 Александр Тоха
 
16.09.18
13:04
(12) не думаю, что это возможно
14 Пузан
 
16.09.18
13:05
(13) А ты пробовал? Может у них даже есть такая фишка уже готовая, просто ты об этом не знаешь. Че вообще за данные и че за источник такой? Публичный и открытый?
15 Cyberhawk
 
16.09.18
13:06
А что такое "открыть постоянное соединение с источником и получать только измененные данные"?
16 Александр Тоха
 
16.09.18
13:10
(15) ну это я достучался до сокета одного из источников данных. Тут же меня отвергают))))))))
17 Александр Тоха
 
16.09.18
13:16
(14) апи у них нету. Британская БК с большим кол-ом событий. Мне нужно забирать эти события в полном объеме. Если я спокойно забираю данные у других, то тут я запнулся.
18 Cyberhawk
 
16.09.18
13:19
Какой еще сокет, чем ты там занимаешься?
19 Александр Тоха
 
16.09.18
13:21
(18) работу работаю
20 sechs
 
16.09.18
13:32
(19)
в (0) у тебя "получать только измененные данные"
в (17) - "в полном объеме"

Ты б определился, работник.
21 Доктор Кто
 
16.09.18
13:32
(0) Так ты можешь получать только измененные данные? Или это невозможнож и ты ищешь другой способ? Ничего непонятно, что тебе нужно. Сам сайт этого сервиса как работает?
22 sechs
 
16.09.18
13:37
(0) Разверни свой сервер рядом с источником данных, чтобы канал не жал при парсинге. Со своего сервера отдавай разобранные данные хоть через космос, хоть почтой россии
23 Александр Тоха
 
16.09.18
13:38
(22) СПАСИБО! Именно так и поступлю, взял вируталку у того же провайдера, что и источник )) Спасибо !
24 Asmody
 
16.09.18
13:39
(9) Увольняйся
25 Доктор Манхэттен
 
16.09.18
13:40
(23) Отлично! Попроси провайдера чтобы разместил виртуалку на том же сервере если возможно, или в одной локальной сети, будет вообще чотко )))
26 Александр Тоха
 
16.09.18
13:46
(24) Почему Вы думаете, что я обязан знать MQ ?
27 Александр Тоха
 
16.09.18
14:08
(24) нашел) просто по первому запросу у меня софтина от IBM открылась, почитал понял. Спасибо за наводку
28 Сияющий в темноте
 
17.09.18
10:42
Mq это те же тапки,только порезанные на сообщения.
В случае большого числа сообщений и необходимости в каждое добавить все упомянутые поля получаем дикий рост обьема
29 crocop
 
28.09.18
06:36
а какой сайт необходимо спарсить?
Есть два вида языков, одни постоянно ругают, а вторыми никто не пользуется.