0
NastyMosk
31.10.14
✎
12:27
|
Добрый день!
Я делаю парсер сайта. Сначала через InternetExplorer.Application сохраняю странички на диск, а позже начинаю их разбирать через ПостроительDOM. Всё вроде бы не плохо, но частенько получается так, что я не могу получить DOM(1с видит только определение документа). Если открываю через Mozilla и через Firebug просматриваю узлы, то там всё нормально. Из 100 страниц такая может одна попасться. Может на этапе сохранения что-то происходит или при чтении я делаю что-то не так...
Так я сохраняю страницу
appIE= Новый COMОбъект("InternetExplorer.Application");
Док = appIE.document;
текстhtml = appIE.Document.documentElement.innerHTML;
ДокументХ = Новый ТекстовыйДокумент;
ДокументХ.ДобавитьСтроку(текстhtml);
ФайлСохранения = КаталогВременныхФайлов()+"list"+ЗагруженоЛистов+".htm";
ДокументХ.Записать(ФайлСохранения, "UTF-8");
Так я читаю сохраненный файл
ЧтениеХТМЛ = Новый ЧтениеHTML;
ЧтениеХТМЛ.ОткрытьФайл(ФайлСохранения, "UTF-8");
ДокументДОМ = Новый ПостроительDOM;
Корень=ДокументДОМ.Прочитать(ЧтениеХТМЛ);
|
|
5
NastyMosk
31.10.14
✎
12:50
|
поле html не подходит, т.к. я всё делаю на сервере, у меня регламентное задание всё выполняет. а с http соединение не получалось делать именно с этим сайтом, скорее всего защита какая то, поэтому и выбрала IE
|
|