Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Поиск всех ссылок в html-документе
|
|||
|---|---|---|---|
|
#18+
Вопрос такой. Я программно читаю из Интернета некую большую html-страничку и хочу достать из неё все ссылки (т.е. все конструкции вида <a href="">). Читаю в некий буфер кусок данных, ищу в нём ссылки. Проблема возникает при переходе от одного куска дщанных к следующему - как обработать корректно этот переход? Ведь ссылка может начинаться в одном блоке, а заканчиваться в другом. Спасибо заранее. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.11.2005, 13:03 |
|
||
|
Поиск всех ссылок в html-документе
|
|||
|---|---|---|---|
|
#18+
БоняВопрос такой. Я программно читаю из Интернета некую большую html-страничку и хочу достать из неё все ссылки (т.е. все конструкции вида <a href="">). Читаю в некий буфер кусок данных, ищу в нём ссылки. Проблема возникает при переходе от одного куска дщанных к следующему - как обработать корректно этот переход? Ведь ссылка может начинаться в одном блоке, а заканчиваться в другом. Спасибо заранее. Вообще-то принято использовать какой-нибудь парсер, который как минимум умеет находить элементы типа A и извлекать их атрибуты (href). Можно взять парсер общего назначения, напустить его на страницу, а потом в результате парсинга (обычно это "дерево" элеметнов в пямяти) уже поискать элементы типа A и достать их href. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.11.2005, 13:15 |
|
||
|
Поиск всех ссылок в html-документе
|
|||
|---|---|---|---|
|
#18+
БоняВопрос такой. Я программно читаю из Интернета некую большую html-страничку и хочу достать из неё все ссылки (т.е. все конструкции вида <a href="">). Читаю в некий буфер кусок данных, ищу в нём ссылки. Проблема возникает при переходе от одного куска дщанных к следующему - как обработать корректно этот переход? Ведь ссылка может начинаться в одном блоке, а заканчиваться в другом. Спасибо заранее. по моему мнению, правильнее было, бы отработать документ и ссылки сохранить отдельно, занявшись синхронизацией текста-ссылок. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.11.2005, 13:17 |
|
||
|
Поиск всех ссылок в html-документе
|
|||
|---|---|---|---|
|
#18+
Допустим, буду искать тэги с помощью RegExp (вопрос не в этом). Не хочется делать лишнюю работу, строить дерево и т.п. Вопрос в том, как искать в документе, который никогда не будет целиком в памяти, а будут лишь его куски непонятно какого размера, при этом желдательно отделить код парсинга от кода, читающего из интернета страничку. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.11.2005, 13:37 |
|
||
|
Поиск всех ссылок в html-документе
|
|||
|---|---|---|---|
|
#18+
аккуратно обрабатывай стыки кусков. Смотри, где начинаются/кончаются теги. ------------------ - А как в Интеpнете pаботать? - Сначала нужно узнать, что вам нужно rtfm ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.11.2005, 18:10 |
|
||
|
Поиск всех ссылок в html-документе
|
|||
|---|---|---|---|
|
#18+
М-да, аккуратно это хорошо Вопрос КАК ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2005, 20:26 |
|
||
|
Поиск всех ссылок в html-документе
|
|||
|---|---|---|---|
|
#18+
Нет такой html-страницы, которая не поместилась бы в памяти. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2005, 20:50 |
|
||
|
|

start [/forum/topic.php?fid=16&fpage=193&tid=1347272]: |
0ms |
get settings: |
7ms |
get forum list: |
18ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
43ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
40ms |
get tp. blocked users: |
1ms |
| others: | 277ms |
| total: | 405ms |

| 0 / 0 |
