Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности

Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
|
14.11.2005, 13:03
|
|||
|---|---|---|---|
|
|||
Поиск всех ссылок в html-документе |
|||
|
#18+
Вопрос такой. Я программно читаю из Интернета некую большую html-страничку и хочу достать из неё все ссылки (т.е. все конструкции вида <a href="">). Читаю в некий буфер кусок данных, ищу в нём ссылки. Проблема возникает при переходе от одного куска дщанных к следующему - как обработать корректно этот переход? Ведь ссылка может начинаться в одном блоке, а заканчиваться в другом. Спасибо заранее. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
14.11.2005, 13:15
|
|||
|---|---|---|---|
|
|||
Поиск всех ссылок в html-документе |
|||
|
#18+
БоняВопрос такой. Я программно читаю из Интернета некую большую html-страничку и хочу достать из неё все ссылки (т.е. все конструкции вида <a href="">). Читаю в некий буфер кусок данных, ищу в нём ссылки. Проблема возникает при переходе от одного куска дщанных к следующему - как обработать корректно этот переход? Ведь ссылка может начинаться в одном блоке, а заканчиваться в другом. Спасибо заранее. Вообще-то принято использовать какой-нибудь парсер, который как минимум умеет находить элементы типа A и извлекать их атрибуты (href). Можно взять парсер общего назначения, напустить его на страницу, а потом в результате парсинга (обычно это "дерево" элеметнов в пямяти) уже поискать элементы типа A и достать их href. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
14.11.2005, 13:17
|
|||
|---|---|---|---|
Поиск всех ссылок в html-документе |
|||
|
#18+
БоняВопрос такой. Я программно читаю из Интернета некую большую html-страничку и хочу достать из неё все ссылки (т.е. все конструкции вида <a href="">). Читаю в некий буфер кусок данных, ищу в нём ссылки. Проблема возникает при переходе от одного куска дщанных к следующему - как обработать корректно этот переход? Ведь ссылка может начинаться в одном блоке, а заканчиваться в другом. Спасибо заранее. по моему мнению, правильнее было, бы отработать документ и ссылки сохранить отдельно, занявшись синхронизацией текста-ссылок. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
14.11.2005, 13:37
|
|||
|---|---|---|---|
|
|||
Поиск всех ссылок в html-документе |
|||
|
#18+
Допустим, буду искать тэги с помощью RegExp (вопрос не в этом). Не хочется делать лишнюю работу, строить дерево и т.п. Вопрос в том, как искать в документе, который никогда не будет целиком в памяти, а будут лишь его куски непонятно какого размера, при этом желдательно отделить код парсинга от кода, читающего из интернета страничку. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
15.11.2005, 18:10
|
|||
|---|---|---|---|
Поиск всех ссылок в html-документе |
|||
|
#18+
аккуратно обрабатывай стыки кусков. Смотри, где начинаются/кончаются теги. ------------------ - А как в Интеpнете pаботать? - Сначала нужно узнать, что вам нужно rtfm ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
16.11.2005, 20:26
|
|||
|---|---|---|---|
|
|||
Поиск всех ссылок в html-документе |
|||
|
#18+
М-да, аккуратно это хорошо Вопрос КАК ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
16.11.2005, 20:50
|
|||
|---|---|---|---|
Поиск всех ссылок в html-документе |
|||
|
#18+
Нет такой html-страницы, которая не поместилась бы в памяти. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|

start [/forum/topic.php?fid=16&tablet=1&tid=1347272]: |
0ms |
get settings: |
11ms |
get forum list: |
11ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
22ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
29ms |
get tp. blocked users: |
1ms |
| others: | 244ms |
| total: | 332ms |

| 0 / 0 |
