|
Большой объем данных при парсинге | ☑ | ||
---|---|---|---|---|
0
Александр Тоха
16.09.18
✎
11:54
|
Уважаемые знатоки, добрый день. Подскажите как решить мне одну очень простую для вас задачу) Вкратце, пишу парсер впервые) и так случилось, что мне нужно открыть постоянное соединение с источником и получать только измененные данные, так как в текущей реализации "curl_multi" уперся в узкое место - канал, json данные 1.06-1.09mb летят через космос и доходят до пасрера через 3-3.4с. Это очень большая задержка, какой костыль или решение есть для данной проблемы ?
|
|||
1
Пузан
16.09.18
✎
12:03
|
(0) Упаковывать данные перед передачей и распаковывать после получения.
|
|||
2
Александр Тоха
16.09.18
✎
12:04
|
(1) как упаковать перед передачей на стороннем ресурсе ?
|
|||
3
Cool_Profi
16.09.18
✎
12:10
|
Сделй так, чтобы пакет летел не через космос, а по земле
|
|||
4
Пузан
16.09.18
✎
12:12
|
(2) Т.е. ты никак на тот ресурс повлиять не можешь, попросить отдавать данные пакетами поменьше, упаковывать их? Тогда никак. Расширить канал вряд ли даст эффект, а больше ты ни на что не влияешь.
|
|||
5
Александр Тоха
16.09.18
✎
12:16
|
(3) имеете ввиду взять vps ближе к источнику ?
|
|||
6
Cool_Profi
16.09.18
✎
12:19
|
(5) Откуда я знаю, как у тебя там всё это собрано. Тебе видней
|
|||
7
Александр Тоха
16.09.18
✎
12:45
|
(6) парсер на localhost
|
|||
8
Asmody
16.09.18
✎
12:51
|
Не заниматься велосипедостроением, а использовать готовые MQ.
|
|||
9
Александр Тоха
16.09.18
✎
12:53
|
(8) что такое MQ ?) и как это MQ поможет мне ?
|
|||
10
Пузан
16.09.18
✎
12:56
|
(8) Для этого ему надо будет все-равно иметь влияние на источник данных. А у него нет. :)
|
|||
11
dmitryds
16.09.18
✎
12:56
|
(0) можно попробовать в заголовке запроса добавить в поддерживаемые кодировки gzip
|
|||
12
Garykom
гуру
16.09.18
✎
12:59
|
(9) Тебе намекают что нехрен заниматься парсингом html, договорись с "поставщиком данных" (владельцем сайта) и получай готовые данные в нужном виде.
|
|||
13
Александр Тоха
16.09.18
✎
13:04
|
(12) не думаю, что это возможно
|
|||
14
Пузан
16.09.18
✎
13:05
|
(13) А ты пробовал? Может у них даже есть такая фишка уже готовая, просто ты об этом не знаешь. Че вообще за данные и че за источник такой? Публичный и открытый?
|
|||
15
Cyberhawk
16.09.18
✎
13:06
|
А что такое "открыть постоянное соединение с источником и получать только измененные данные"?
|
|||
16
Александр Тоха
16.09.18
✎
13:10
|
(15) ну это я достучался до сокета одного из источников данных. Тут же меня отвергают))))))))
|
|||
17
Александр Тоха
16.09.18
✎
13:16
|
(14) апи у них нету. Британская БК с большим кол-ом событий. Мне нужно забирать эти события в полном объеме. Если я спокойно забираю данные у других, то тут я запнулся.
|
|||
18
Cyberhawk
16.09.18
✎
13:19
|
Какой еще сокет, чем ты там занимаешься?
|
|||
19
Александр Тоха
16.09.18
✎
13:21
|
(18) работу работаю
|
|||
20
sechs
16.09.18
✎
13:32
|
(19)
в (0) у тебя "получать только измененные данные" в (17) - "в полном объеме" Ты б определился, работник. |
|||
21
Доктор Кто
16.09.18
✎
13:32
|
(0) Так ты можешь получать только измененные данные? Или это невозможнож и ты ищешь другой способ? Ничего непонятно, что тебе нужно. Сам сайт этого сервиса как работает?
|
|||
22
sechs
16.09.18
✎
13:37
|
(0) Разверни свой сервер рядом с источником данных, чтобы канал не жал при парсинге. Со своего сервера отдавай разобранные данные хоть через космос, хоть почтой россии
|
|||
23
Александр Тоха
16.09.18
✎
13:38
|
(22) СПАСИБО! Именно так и поступлю, взял вируталку у того же провайдера, что и источник )) Спасибо !
|
|||
24
Asmody
16.09.18
✎
13:39
|
(9) Увольняйся
|
|||
25
Доктор Манхэттен
16.09.18
✎
13:40
|
(23) Отлично! Попроси провайдера чтобы разместил виртуалку на том же сервере если возможно, или в одной локальной сети, будет вообще чотко )))
|
|||
26
Александр Тоха
16.09.18
✎
13:46
|
(24) Почему Вы думаете, что я обязан знать MQ ?
|
|||
27
Александр Тоха
16.09.18
✎
14:08
|
(24) нашел) просто по первому запросу у меня софтина от IBM открылась, почитал понял. Спасибо за наводку
|
|||
28
Сияющий в темноте
17.09.18
✎
10:42
|
Mq это те же тапки,только порезанные на сообщения.
В случае большого числа сообщений и необходимости в каждое добавить все упомянутые поля получаем дикий рост обьема |
|||
29
crocop
28.09.18
✎
06:36
|
а какой сайт необходимо спарсить?
|
Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |