
Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
|
30.03.2012, 20:50:03
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
Всем привет! Задача такая - вытащить все ссылки с html страницы. Может кто то подскажет код на Perl, можно просто через регулярку. Заранее спасибо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
30.03.2012, 20:58:13
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
3031986, Линксом вытаскивайте с ключиком -list. Нафиг с регулярками заморачиваться? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
30.03.2012, 21:02:31
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
ShSerge3031986, Линксом вытаскивайте с ключиком -list. Нафиг с регулярками заморачиваться? А можно подробней? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
30.03.2012, 23:40:46
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
3031986, Это просто текстовый браузер. Из-под командной строки запускаете и получаете уже распарсеный текст страницы себе в перловую переменную. Ключик, что я сказал, выдаст список ссылок. Это как вариант. Я не говорю, что это - самое правильное решение. Предполагаю, что регуляркой можно сделать проще и лучше (но это - не интересно). Сам механизм может пригодится для всяких разных штучек. Скачайте и посмотрите. Ищите в гугле lynx. Он и под юниксом и подвендой имеется. ПС. Я одно время тырил им данные с чужих страниц (как раз на перле, но очень давно), типа lynx -dump -nolist >abc.txt. А Вам как раз list нужен. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
30.03.2012, 23:45:16
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
ПС. Скачивать его только для венды нужно. В линухе он и так имеется (lynx, иногда linx). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
31.03.2012, 15:19:30
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
ShSerge3031986, Это просто текстовый браузер. Из-под командной строки запускаете и получаете уже распарсеный текст страницы себе в перловую переменную. Ключик, что я сказал, выдаст список ссылок. Это как вариант. Я не говорю, что это - самое правильное решение. Предполагаю, что регуляркой можно сделать проще и лучше (но это - не интересно). Сам механизм может пригодится для всяких разных штучек. Скачайте и посмотрите. Ищите в гугле lynx. Он и под юниксом и подвендой имеется. ПС. Я одно время тырил им данные с чужих страниц (как раз на перле, но очень давно), типа lynx -dump -nolist >abc.txt. А Вам как раз list нужен. однако, одно из лучших для данных конкретных условий. регулярки не предназначены для парсинга html. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
01.04.2012, 11:24:17
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
как по мне, куда проще парсить самому Код: perl 1. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
01.04.2012, 11:50:10
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
yarnikкак по мне, куда проще парсить самому Код: perl 1. А ещё сотню примеров можно написать, когда Ваш паттерн не соответствует. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
01.04.2012, 16:34:24
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
yarnik, а что тут пробовать, ты вообще нерабочий код выдаешь запусти : Код: sql 1. 2. 3. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
01.04.2012, 18:59:39
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
извиняюсь Код: sql 1. 2. 3. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
01.04.2012, 19:17:56
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
yarnik, держи, первая же страница в гугле Код: sql 1. 2. 3. и такого очень много. регулярные выражения тоже имеют свои минусы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
01.04.2012, 20:42:39
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
так це ж не по феншую. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
01.04.2012, 21:03:02
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
yarnik, Ниче не знаю - код html валидацию на сайте w3c.org проходит, а ссылку извлекает неправильно Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
01.04.2012, 21:17:41
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
вот из книжачки еще полностью валидного и даже похожего на осмысленный, кода Код: sql 1. 2. 3. 4. 5. попарси, давай. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
01.04.2012, 21:51:00
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
netwindyarnik, держи, первая же страница в гугле Код: sql 1. 2. 3. и такого очень много. регулярные выражения тоже имеют свои минусы. Объясните мне, че тут происходит?) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
01.04.2012, 22:37:27
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
я предложил вариант парсинга линков со страницы, а netwind пытается меня убедить что лучше не пользоватся регулярками. хотя я больше склонен к тому что надо правильно писать линки;) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
01.04.2012, 22:53:57
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
yarnik, кому надо? невозможно всех заставить правильно писать линки ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
02.04.2012, 09:47:59
|
|||
|---|---|---|---|
Парсер на perl |
|||
|
#18+
Кстати, подумалось, что закомментаренные ссылки тоже будут попадать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
02.04.2012, 10:18:21
|
|||
|---|---|---|---|
|
|||
Парсер на perl |
|||
|
#18+
коллеги, а чем не http://cpan.uwinnipeg.ca/htdocs/HTML-DOM/HTML/DOM.html - ну и SAX где-то рядом.... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|

start [/forum/topic.php?fid=23&mobile=1&tid=1465327]: |
0ms |
get settings: |
8ms |
get forum list: |
13ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
178ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
53ms |
get tp. blocked users: |
1ms |
| others: | 196ms |
| total: | 465ms |

| 0 / 0 |
