Имя: Пароль:
1C
1С v8
web-парсер + семантический анализ на базе 1С
,
0 К_Дач
 
09.02.12
19:09
Есть интересная задача))))) Примерное ТЗ (тряпками просьба не кидать, написал, как сам понимаю):

Необходима создание парсера web-сайтов. Парсер должен скачивать текстовую и графическую (фотографии, картинки, превьюшки и т.д.) информацию с некоторых сайтов (их список ограничен примерно 10-15 шт, они заранее известны, их задает пользователь), а именно с главных страниц, а также по ссылкам на подчиненные страницы (в большей степени необходимы страницы, на которых размещены различные каталоги товаров, списки предоставляемых услуг, фотографии товаров/услуг, цены, прайсы и т.д.).

Далее скаченная информация сортируется по типу (расширению файла): текст – к тесту, фото – к фото, при этом каждый объект должен сохранять свою историю (с какого сайта он был скачан, исходную ссылку, по которой он размещен). Все это пишем в регистр (насчет текста все ясно, а вот насчет картинок... можно наверное их складывать по каталогам, а в регистр писать путь, как-то так).

Далее должен производиться анализ однотипных объектов. Например, текст может сравниваться по названию/заголовку, в тексте осуществляется поиск заранее заданных словосочетаний (например пользователь заполнил соответсвующий регистр сведений), производится подсчет и определение наиболее часто встречающихся слов/словосочетаний. Объекты, похожие друг на друга с точностью, большей определенного порогового значения (например 60%) также сортируются и объединяются по этим признакам. Вот тут неплохо бы взять какой-нибудь существующий алгоритм "словарного" или "словосочетарного" анализа и применить средствами 1С-ки. Допустим подсчитывать наиболее часто повторяющиеся слова/словосочетания и по ним анализировать похожесть текстов. Как сравнивать картинки и фото, непонятно совершенно. Хотя вроде Apple умеет такие фишки, можт попросить их поделиться технологией? xD

Отсортированные таким образом объекты представляются на экран пользователю. Примерный вид конечной информации:

                      Объединяющий признак1
            Объект1               Исходная ссылка (линк)
            Объект2               Исходная ссылка (линк)
            Объект3               Исходная ссылка (линк)
            Объект4               Исходная ссылка (линк)
            Объект5               Исходная ссылка (линк)
                     Объединяющий признак2
            Объект1               Исходная ссылка (линк)
            Объект2               Исходная ссылка (линк)
            Объект3               Исходная ссылка (линк)

Неплохо бы также реализовать возможность поиска заданного объекта (словосочетания) по тому же списку сайтов. То есть пользователь задает описание исходного объекта, примерно:
- ноутбук, процессор такой-то, памяти столько-то, ЖД такой-то, диагональ такая-то;
На экране получает ссылки на похожие предложения.

Вообще возможно ли сделать web-парсер средствами web-сервисов 8.2?
Буду благодарен за любые идеи)))
З.Ы. Если вдруг возникнут конкретные предложения реализовать - готов рассмотреть, естественно небесплатно.
1 BOZKURT
 
09.02.12
19:12
Ох, лучше завернуть в ВК..
2 К_Дач
 
09.02.12
19:17
(1) Почему эт?
3 ilpar
 
09.02.12
19:17
отдай профессионалам по веб - сделают быстрее и дешевле
4 BOZKURT
 
09.02.12
19:18
(2) Больше инструментария, ну и производительность..
Хотя про 1С-ские точно не скажу, не юзал.
5 К_Дач
 
09.02.12
19:19
(3) этот вариант тоже рассматривается, мне просто хочется понять, возможно ли парсить сайти из 1С. Я с веб-сервисами ни разу в жизни не работал еще
6 ilpar
 
09.02.12
19:25
и причем здесь веб-сервисы ?
Тебе поставщики дадут доступ к службам их ?
7 ilpar
 
09.02.12
19:25
веб-сервисы - это мы даем доступ к нашим данным по  стандарту и еще чего то
8 Krendel
 
09.02.12
19:28
(6) Доброе утро, кто спрашивает доступа ;-)
9 К_Дач
 
09.02.12
19:31
(6)

Никаких служб))) парсер ходит по страничкам и скачивает только то, что в открытом доступе. Каталог товаров например, каталог услуг и т.п.
10 Ахиллес
 
09.02.12
19:32
Нет ни одной причины, почему это нужно делать на 1С.
11 К_Дач
 
09.02.12
19:41
(10) спортивный интерес не катит?
12 Ахиллес
 
09.02.12
19:43
Ради спортивного интереса выучи ПХП или Перл или Питона и сделай тоже на них. А на 1С это не спортивный интерес а садомазохизм.
13 Mashinist
 
09.02.12
20:54
Не вижу причин это не делать на 1С
Если структура страниц известна и зафиксирована то через DOM-модель можно разбирать
Можно и просто парсить html используя регулярные выражения

Для анализа можно заюзать полнотекстовый поиск...

Вполне реализуемая задача и на 1С
14 К_Дач
 
09.02.12
21:42
(13) насчет полнотекстового поиска - подумываю кроме него сделать обучаемого бота... то есть пользователь на первых этапах будет сам указывать признаки соответствия, которые дальше будут использоваться для анализа
15 Inform
 
09.02.12
21:58
(12) а на ПХП, перле или питоне разве намного меньше сил потребуется для реализации данной задачи чем на 1С? Если да, то что они такого умеют интересного больше чем 1С?
P.S. про работу извне с БД, которые потребуются для реализации на других языках тоже забывать не стоит, это же все еще надо хранить, искать и т.д.
16 R41
 
09.02.12
22:09
(0)Привет, делал подобное для парсинга базы  недвижимости. Сайт называть не буду, по понятным причинам. Работает до сих пор.
Технологии как это делается:
Используется ActiveX MS IE. Это нужно чтобы сайт не смог догадаться что его парсять и  не смог сделать бан. Плюс там можно использовать DOM модель.
Ну еще много есть нюансов, например отключение графики и javascripta.

Запуск делать по заданию windows - например запуск 1С с пользователем Robot
17 К_Дач
 
10.02.12
20:41
(6) А словарный анализ в твоем проекте присутствовал?