powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Поиск всех ссылок в html-документе
8 сообщений из 8, страница 1 из 1
Поиск всех ссылок в html-документе
    #33376524
Боня
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Вопрос такой.

Я программно читаю из Интернета некую большую html-страничку и хочу достать из неё все ссылки (т.е. все конструкции вида <a href="">). Читаю в некий буфер кусок данных, ищу в нём ссылки. Проблема возникает при переходе от одного куска дщанных к следующему - как обработать корректно этот переход? Ведь ссылка может начинаться в одном блоке, а заканчиваться в другом.

Спасибо заранее.
...
Рейтинг: 0 / 0
Поиск всех ссылок в html-документе
    #33376553
М.Голованов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
БоняВопрос такой.

Я программно читаю из Интернета некую большую html-страничку и хочу достать из неё все ссылки (т.е. все конструкции вида <a href="">). Читаю в некий буфер кусок данных, ищу в нём ссылки. Проблема возникает при переходе от одного куска дщанных к следующему - как обработать корректно этот переход? Ведь ссылка может начинаться в одном блоке, а заканчиваться в другом.

Спасибо заранее.

Вообще-то принято использовать какой-нибудь парсер, который как минимум умеет находить элементы типа A и извлекать их атрибуты (href). Можно взять парсер общего назначения, напустить его на страницу, а потом в результате парсинга (обычно это "дерево" элеметнов в пямяти) уже поискать элементы типа A и достать их href.
...
Рейтинг: 0 / 0
Поиск всех ссылок в html-документе
    #33376557
KGP
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
БоняВопрос такой.

Я программно читаю из Интернета некую большую html-страничку и хочу достать из неё все ссылки (т.е. все конструкции вида <a href="">). Читаю в некий буфер кусок данных, ищу в нём ссылки. Проблема возникает при переходе от одного куска дщанных к следующему - как обработать корректно этот переход? Ведь ссылка может начинаться в одном блоке, а заканчиваться в другом.

Спасибо заранее.

по моему мнению, правильнее было, бы отработать документ и ссылки сохранить отдельно, занявшись синхронизацией текста-ссылок.
...
Рейтинг: 0 / 0
Поиск всех ссылок в html-документе
    #33376615
Боня
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Допустим, буду искать тэги с помощью RegExp (вопрос не в этом).
Не хочется делать лишнюю работу, строить дерево и т.п.
Вопрос в том, как искать в документе, который никогда не будет целиком в памяти, а будут лишь его куски непонятно какого размера, при этом желдательно отделить код парсинга от кода, читающего из интернета страничку.
...
Рейтинг: 0 / 0
Поиск всех ссылок в html-документе
    #33379900
maXmo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
аккуратно обрабатывай стыки кусков. Смотри, где начинаются/кончаются теги.
------------------
- А как в Интеpнете pаботать? - Сначала нужно узнать, что вам нужно rtfm
...
Рейтинг: 0 / 0
Поиск всех ссылок в html-документе
    #33382617
Боня
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
М-да, аккуратно это хорошо
Вопрос КАК
...
Рейтинг: 0 / 0
Поиск всех ссылок в html-документе
    #33382639
Фотография DarkSquid
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Нет такой html-страницы, которая не поместилась бы в памяти.
...
Рейтинг: 0 / 0
Поиск всех ссылок в html-документе
    #33384189
maXmo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
БоняВопрос КАКрекомендую подумать над этим на сон грядущий.
...
Рейтинг: 0 / 0
8 сообщений из 8, страница 1 из 1
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Поиск всех ссылок в html-документе
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]