Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Поиск всех ссылок в html-документе / 8 сообщений из 8, страница 1 из 1
14.11.2005, 13:03
    #33376524
Боня
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск всех ссылок в html-документе
Вопрос такой.

Я программно читаю из Интернета некую большую html-страничку и хочу достать из неё все ссылки (т.е. все конструкции вида <a href="">). Читаю в некий буфер кусок данных, ищу в нём ссылки. Проблема возникает при переходе от одного куска дщанных к следующему - как обработать корректно этот переход? Ведь ссылка может начинаться в одном блоке, а заканчиваться в другом.

Спасибо заранее.
...
Рейтинг: 0 / 0
14.11.2005, 13:15
    #33376553
М.Голованов
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск всех ссылок в html-документе
БоняВопрос такой.

Я программно читаю из Интернета некую большую html-страничку и хочу достать из неё все ссылки (т.е. все конструкции вида <a href="">). Читаю в некий буфер кусок данных, ищу в нём ссылки. Проблема возникает при переходе от одного куска дщанных к следующему - как обработать корректно этот переход? Ведь ссылка может начинаться в одном блоке, а заканчиваться в другом.

Спасибо заранее.

Вообще-то принято использовать какой-нибудь парсер, который как минимум умеет находить элементы типа A и извлекать их атрибуты (href). Можно взять парсер общего назначения, напустить его на страницу, а потом в результате парсинга (обычно это "дерево" элеметнов в пямяти) уже поискать элементы типа A и достать их href.
...
Рейтинг: 0 / 0
14.11.2005, 13:17
    #33376557
KGP
KGP
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск всех ссылок в html-документе
БоняВопрос такой.

Я программно читаю из Интернета некую большую html-страничку и хочу достать из неё все ссылки (т.е. все конструкции вида <a href="">). Читаю в некий буфер кусок данных, ищу в нём ссылки. Проблема возникает при переходе от одного куска дщанных к следующему - как обработать корректно этот переход? Ведь ссылка может начинаться в одном блоке, а заканчиваться в другом.

Спасибо заранее.

по моему мнению, правильнее было, бы отработать документ и ссылки сохранить отдельно, занявшись синхронизацией текста-ссылок.
...
Рейтинг: 0 / 0
14.11.2005, 13:37
    #33376615
Боня
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск всех ссылок в html-документе
Допустим, буду искать тэги с помощью RegExp (вопрос не в этом).
Не хочется делать лишнюю работу, строить дерево и т.п.
Вопрос в том, как искать в документе, который никогда не будет целиком в памяти, а будут лишь его куски непонятно какого размера, при этом желдательно отделить код парсинга от кода, читающего из интернета страничку.
...
Рейтинг: 0 / 0
15.11.2005, 18:10
    #33379900
maXmo
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск всех ссылок в html-документе
аккуратно обрабатывай стыки кусков. Смотри, где начинаются/кончаются теги.
------------------
- А как в Интеpнете pаботать? - Сначала нужно узнать, что вам нужно rtfm
...
Рейтинг: 0 / 0
16.11.2005, 20:26
    #33382617
Боня
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск всех ссылок в html-документе
М-да, аккуратно это хорошо
Вопрос КАК
...
Рейтинг: 0 / 0
16.11.2005, 20:50
    #33382639
DarkSquid
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск всех ссылок в html-документе
Нет такой html-страницы, которая не поместилась бы в памяти.
...
Рейтинг: 0 / 0
17.11.2005, 14:22
    #33384189
maXmo
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Поиск всех ссылок в html-документе
БоняВопрос КАКрекомендую подумать над этим на сон грядущий.
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Поиск всех ссылок в html-документе / 8 сообщений из 8, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]