анализ HTML-кода / Разработка информационных систем

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Разработка информационных систем [игнор отключен] [закрыт для гостей] / анализ HTML-кода

25 сообщений из 35, страница 1 из 2

все

анализ HTML-кода

#33997131

flashslash

Участник

Сообщения: 812

Рейтинг: 0 / 0

Всем доброго времени суток!

Поставили задачу - автоматизировать копирование данных с сайтов в программу. На сколько правильным является такое решение ?

К рискам и сложностям я могу отнести только изменение структуры сайта web-программистами.
Какие еще аргументы можно привести, чтобы опровергнуть такую задачу?
Есть у кого-нибудь опыт поддержки такой автоматизации?

...

Рейтинг:

0 / 0

19.09.2006, 15:43

| Ответить | Цитировать | Написать

анализ HTML-кода

#33997293

DocAl

Участник

Откуда: Оккупирую западный берег

Сообщения: 9 935

Рейтинг: 0 / 0

Если сайт "дружественный" -- можно попросить предоставлять данные в XML.

...

Рейтинг:

0 / 0

19.09.2006, 16:17

| Ответить | Цитировать | Написать

анализ HTML-кода

#33997396

flashslash

Участник

Сообщения: 812

Рейтинг: 0 / 0

DocAlЕсли сайт "дружественный" -- можно попросить предоставлять данные в XML.

Сайт не дружественный.
RSS, XML-сервисы отсутствуют.

...

Рейтинг:

0 / 0

19.09.2006, 16:36

| Ответить | Цитировать | Написать

анализ HTML-кода

#33997456

DocAl

Участник

Откуда: Оккупирую западный берег

Сообщения: 9 935

Рейтинг: 0 / 0

Ну, в общем-то, сделать-то работы на полчаса, просто предупредите, что дальнейшая работоспособность этого модуля зависит не от вас.

...

Рейтинг:

0 / 0

19.09.2006, 16:51

| Ответить | Цитировать | Написать

анализ HTML-кода

#33998503

Calm

Участник

Откуда: Белгород

Сообщения: 967

Рейтинг: 0 / 0

авторПоставили задачу - автоматизировать копирование данных с сайтов в программу.

Решается несложно с помощью регулярных выражений. Конкретнее - зависит от специфики вытягиваемой информации.
Такую вытягивалку необходимо постоянно сопровождать, ибо верстка может меняться.

...

Рейтинг:

0 / 0

20.09.2006, 09:03

| Ответить | Цитировать | Написать

анализ HTML-кода

#34000105

АБ

Участник

Откуда: Тверская-Ямская

Сообщения: 1 168

Рейтинг: 0 / 0

Мне кажется более устойчивый к изменению верстки и более простой в сопровождении результат можно получить следующим образом:
1) прогонять страницу через tidy, получая на выходе валидный XML
2) обрабатывать его выражениями XPath, например при помощи xsltproc
Такая программа будет конечно не самой быстрой, зато производительность разработчика будет на высоте.

...

Рейтинг:

0 / 0

20.09.2006, 15:07

| Ответить | Цитировать | Написать

анализ HTML-кода

#34000764

Calm

Участник

Откуда: Белгород

Сообщения: 967

Рейтинг: 0 / 0

авторМне кажется более устойчивый к изменению верстки и более простой в сопровождении результат можно получить следующим образом:

мне кажется, что это принципиально ничем не отличается от

авторРешается несложно с помощью регулярных выражений.

т.к.

авторТакую вытягивалку необходимо постоянно сопровождать, ибо верстка может меняться.

Со сменой дизайна регэкспы станут стольже невалидны, как и пути XPath.

авторзато производительность разработчика будет на высоте
Не очень понял, что за производительность имеется в виду? :(

...

Рейтинг:

0 / 0

20.09.2006, 17:22

| Ответить | Цитировать | Написать

анализ HTML-кода

#34000795

АБ

Участник

Откуда: Тверская-Ямская

Сообщения: 1 168

Рейтинг: 0 / 0

Я работал и с регэкспами, и с XPath -- второй на порядок прозрачнее. В первом случае мы изначально получаем очень "хрупкий" код, который плохо выдерживает добавление заплат. Мелкие изменения верстки tidy будет нивелировать, поэтому менять код понадобится реже. Принципиально подход не отличается, просто немного технологичнее.

...

Рейтинг:

0 / 0

20.09.2006, 17:29

| Ответить | Цитировать | Написать

анализ HTML-кода

#34000959

Calm

Участник

Откуда: Белгород

Сообщения: 967

Рейтинг: 0 / 0

авторВ первом случае мы изначально получаем очень "хрупкий" код, который плохо выдерживает добавление заплат. Мелкие изменения верстки tidy будет нивелировать

Гм.. А не могли бы вы привести пример, когда XPath выдержит изменение html-кода, а регэксп - не выдержит? Мне все-таки кажется, что технологии одинаковой устойчивости в рамках данной задачи.

авторПринципиально подход не отличается, просто немного технологичнее.
Пожалуй-таки соглашусь. Выделяя слово "немного" :)

...

Рейтинг:

0 / 0

20.09.2006, 18:13

| Ответить | Цитировать | Написать

анализ HTML-кода

#34002487

АБ

Участник

Откуда: Тверская-Ямская

Сообщения: 1 168

Рейтинг: 0 / 0

На XPath/XSL можно писать сложные и хорошо структурированные выражения типа "второе слово третьего абзаца ячейки таблицы на пересечении столбца 'цена' и строки 'алюминий' в разделе страницы с названием 'состояние склада'". Причем выражения получаются компактными и относительно (по сравнению с regexp) понятными. А regexp привязывается к локальному контексту, и в этом я вижу его слабость.

...

Рейтинг:

0 / 0

21.09.2006, 12:03

| Ответить | Цитировать | Написать

анализ HTML-кода

#34002724

Calm

Участник

Откуда: Белгород

Сообщения: 967

Рейтинг: 0 / 0

авторНа XPath/XSL можно писать сложные и хорошо структурированные выражения типа "второе слово третьего абзаца ячейки таблицы на пересечении столбца 'цена' и строки 'алюминий' в разделе страницы с названием 'состояние склада'".
Вы правы АБ, но и регэкспы работают именно так, как вы описали для XPath.

авторПричем выражения получаются компактными и относительно (по сравнению с regexp) понятными.
Согласен. И как говорил ранее: выделяя слово "немного" :)

авторА regexp привязывается к локальному контексту, и в этом я вижу его слабость.
Не очень понял, поясните пожалуйста.
И насчет
авторзато производительность разработчика будет на высоте
тоже непонятно.

...

Рейтинг:

0 / 0

21.09.2006, 12:45

| Ответить | Цитировать | Написать

анализ HTML-кода

#34002762

АБ

Участник

Откуда: Тверская-Ямская

Сообщения: 1 168

Рейтинг: 0 / 0

Ну елы-палы! Работать с веб-страницей как с иерархической структурой или как со строкой - есть разница? В regexp нет, например, готовых средств, позволяющих увязать открывающий тэг с закрывающим. В частных случаях это сделать можно (а в тривиальных и вовсе не требуется), но в общем случае - замучаетесь. regexp - это уровень лексического анализатора, для разбора грамматики он не предназначен (если Вы понимаете о чем я). А на XPath/XSLT можно анализировать и грамматические конструкции, и отдельные лексемы.

...

Рейтинг:

0 / 0

21.09.2006, 12:56

| Ответить | Цитировать | Написать

анализ HTML-кода

#34003047

Calm

Участник

Откуда: Белгород

Сообщения: 967

Рейтинг: 0 / 0

авторНу елы-палы! Работать с веб-страницей как с иерархической структурой или как со строкой - есть разница?

А как быть в случаях с кривой версткой? Не всегда верстка соответствует стандартам. Не верите?
Заходим на http://validator.w3.org/ и просим проверить mail.ru.
Видим 437ошибок и среди них смотрим на вторую:
Line 30 column 6: end tag for element "HEAD" which is not open.
Справедливости ради отметим, что на странице открыающийся HEAD все-таки присутствует, видимо проблема в том, что находится внутри его.
Однако есть подозрение, что XPath-парсер тоже захочет соответсвия стандарту.?

И кроме того, найдутся и такие страницы, где будут грубые ошибки, допущенные студентами-фрилансерами.

авторВ regexp нет, например, готовых средств, позволяющих увязать открывающий тэг с закрывающим.
Согласен, нет.

...

Рейтинг:

0 / 0

21.09.2006, 13:52

| Ответить | Цитировать | Написать

анализ HTML-кода

#34003064

АБ

Участник

Откуда: Тверская-Ямская

Сообщения: 1 168

Рейтинг: 0 / 0

CalmА как быть в случаях с кривой версткой? Так для этого как раз и нужен tidy. По моему опыту, он неплохо справляется с разбором кривой верстки - догадывается где чего накосячили и делает из г..на конфетку в виде валитного XML.

...

Рейтинг:

0 / 0

21.09.2006, 13:55

| Ответить | Цитировать | Написать

анализ HTML-кода

#34003074

Calm

Участник

Откуда: Белгород

Сообщения: 967

Рейтинг: 0 / 0

авторНу елы-палы!
Я кстати не оспариваю вашего решения и согласен с ним.

Просто из любопытства хочется узнать о том, насколько применение XPath упростит задачу по сравнению с регэспами.

С уважением.

...

Рейтинг:

0 / 0

21.09.2006, 13:56

| Ответить | Цитировать | Написать

анализ HTML-кода

#34003223

АБ

Участник

Откуда: Тверская-Ямская

Сообщения: 1 168

Рейтинг: 0 / 0

На главной странице mail.ru tidy находит 20 ошибок и 260 варнингов (наверное действительно без студентов не обошлось). Но все же как-то ее прорубает, правда не без подсказок в виде опций:

Код: plaintext

1.
2.
3.
4.
5.

output-xml:  1 
quiet:  1 
force-output:  1 
show-errors:  0 
show-warnings:  0 
output-encoding: raw

В выходном файле надо подправить xml-декларацию в первой строке.

...

Рейтинг:

0 / 0

21.09.2006, 14:29

| Ответить | Цитировать | Написать

анализ HTML-кода

#34003477

flashslash

Участник

Сообщения: 812

Рейтинг: 0 / 0

АБНа главной странице mail.ru tidy находит 20 ошибок и 260 варнингов (наверное действительно без студентов не обошлось). Но все же как-то ее прорубает, правда не без подсказок в виде опций:

Код: plaintext

1.
2.
3.
4.
5.

output-xml:  1 
quiet:  1 
force-output:  1 
show-errors:  0 
show-warnings:  0 
output-encoding: raw

В выходном файле надо подправить xml-декларацию в первой строке.

А теперь прошу пояснить, что за звери такие
XPath , регэкспы , tidy ? и что из них все таки эффективнее?

...

Рейтинг:

0 / 0

21.09.2006, 15:18

| Ответить | Цитировать | Написать

анализ HTML-кода

#34003502

АБ

Участник

Откуда: Тверская-Ямская

Сообщения: 1 168

Рейтинг: 0 / 0

flashslashА теперь прошу пояснить, что за звери такие... у как все запущено :) что, гугль уже совсем ничего не находит?

...

Рейтинг:

0 / 0

21.09.2006, 15:22

| Ответить | Цитировать | Написать

анализ HTML-кода

#34003531

flashslash

Участник

Сообщения: 812

Рейтинг: 0 / 0

АБ flashslashА теперь прошу пояснить, что за звери такие... у как все запущено :) что, гугль уже совсем ничего не находит?

не думайте, что разбираясь в одной задаче стали большим. Это заблуждение!

...

Рейтинг:

0 / 0

21.09.2006, 15:27

| Ответить | Цитировать | Написать

анализ HTML-кода

#34003559

АБ

Участник

Откуда: Тверская-Ямская

Сообщения: 1 168

Рейтинг: 0 / 0

Коллега, вам указали тропу по которой стоит идти. Это на самом деле самое ценное, потому что выбор неправильной тропы может стоить очень дорого. Но не ожидаете ли вы, что кто-то возьмет вас за руку и проведет по этой тропе? Ключевые слова есть - ищите, разбирайтесь, в случае затруднений задавайте конкретные вопросы. А мой рост пусть вас не беспокоит. Успехов!

...

Рейтинг:

0 / 0

21.09.2006, 15:33

| Ответить | Цитировать | Написать

анализ HTML-кода

#34003662

flashslash

Участник

Сообщения: 812

Рейтинг: 0 / 0

АБКоллега, вам указали тропу по которой стоит идти. Это на самом деле самое ценное, потому что выбор неправильной тропы может стоить очень дорого. Но не ожидаете ли вы, что кто-то возьмет вас за руку и проведет по этой тропе? Ключевые слова есть - ищите, разбирайтесь, в случае затруднений задавайте конкретные вопросы. А мой рост пусть вас не беспокоит. Успехов!

Все это конечно интересно. Но мой вопрос заключался не в выборе методов решения, а в поиске аргументов, чтобы не решать задачу вообще. Потому что копируем не текст, а цифры. И цена ошибки высока.
Если этому можно серьезно возразить, то пожалуйста. Я готов выслушать.

...

Рейтинг:

0 / 0

21.09.2006, 15:49

| Ответить | Цитировать | Написать

анализ HTML-кода

#34003769

АБ

Участник

Откуда: Тверская-Ямская

Сообщения: 1 168

Рейтинг: 0 / 0

По моему тут народ как-то больше ориентирован на то, чтобы задачи решать. Если же вам нужна помощь в том, чтобы не решать, то может вам лучше по другому адресу обратиться? В госдуму, например :)

...

Рейтинг:

0 / 0

21.09.2006, 16:06

| Ответить | Цитировать | Написать

анализ HTML-кода

#34003828

flashslash

Участник

Сообщения: 812

Рейтинг: 0 / 0

АБПо моему тут народ как-то больше ориентирован на то, чтобы задачи решать. Если же вам нужна помощь в том, чтобы не решать, то может вам лучше по другому адресу обратиться? В госдуму, например :)

остроумно :), хотя, согласно вашей теории о выборе правильного пути от решения задачи стоит отказаться.

...

Рейтинг:

0 / 0

21.09.2006, 16:15

| Ответить | Цитировать | Написать

анализ HTML-кода

#34003941

Calm

Участник

Откуда: Белгород

Сообщения: 967

Рейтинг: 0 / 0

авторНо мой вопрос заключался не в выборе методов решения, а в поиске аргументов, чтобы не решать задачу вообще.

А разве это не ответ на ваш вопрос:
авторИ цена ошибки высока.

??

...

Рейтинг:

0 / 0

21.09.2006, 16:46

| Ответить | Цитировать | Написать

анализ HTML-кода

#34004182

mcureenab

Участник

Откуда: Murmansk

Сообщения: 5 968

Рейтинг: 0 / 0

flashslashВсе это конечно интересно. Но мой вопрос заключался не в выборе методов решения, а в поиске аргументов, чтобы не решать задачу вообще. Потому что копируем не текст, а цифры. И цена ошибки высока.
Если этому можно серьезно возразить, то пожалуйста. Я готов выслушать.

На всякий аргумент в данном случае найдётся контраргумент. С технической точки зрения ты всегда сможешь написать программу, которая хотя бы один раз загрузит нужные данные. ИМХО, этого достаточно.

Другое дело, что данные могут быть изначально недостоверными (но большие отклонения обычно легко выявляются, а малые не наносят большого ущерба), наконец результат может проконтролировать человек. Поддержка такой программы (например регулярная доработка в ответ на изменение структуры html документа) може оказаться слишком дорогой, но это уж как сделаешь.

...

Рейтинг:

0 / 0

21.09.2006, 18:01

| Ответить | Цитировать | Написать

25 сообщений из 35, страница 1 из 2

все

Форумы / Разработка информационных систем [игнор отключен] [закрыт для гостей] / анализ HTML-кода

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=33&msg=34003047&tid=1549298]:	0ms
get settings:	10ms
get forum list:	12ms
check forum access:	3ms
check topic access:	3ms
track hit:	143ms
get topic data:	10ms
get forum data:	2ms
get page messages:	75ms
get tp. blocked users:	1ms
others:	255ms

total:	514ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы