|
|
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
Всем привет! Задача такая - вытащить все ссылки с html страницы. Может кто то подскажет код на Perl, можно просто через регулярку. Заранее спасибо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.03.2012, 20:50:03 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
3031986, Линксом вытаскивайте с ключиком -list. Нафиг с регулярками заморачиваться? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.03.2012, 20:58:13 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
ShSerge3031986, Линксом вытаскивайте с ключиком -list. Нафиг с регулярками заморачиваться? А можно подробней? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.03.2012, 21:02:31 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
3031986, Это просто текстовый браузер. Из-под командной строки запускаете и получаете уже распарсеный текст страницы себе в перловую переменную. Ключик, что я сказал, выдаст список ссылок. Это как вариант. Я не говорю, что это - самое правильное решение. Предполагаю, что регуляркой можно сделать проще и лучше (но это - не интересно). Сам механизм может пригодится для всяких разных штучек. Скачайте и посмотрите. Ищите в гугле lynx. Он и под юниксом и подвендой имеется. ПС. Я одно время тырил им данные с чужих страниц (как раз на перле, но очень давно), типа lynx -dump -nolist >abc.txt. А Вам как раз list нужен. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.03.2012, 23:40:46 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
ПС. Скачивать его только для венды нужно. В линухе он и так имеется (lynx, иногда linx). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.03.2012, 23:45:16 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
ShSerge3031986, Это просто текстовый браузер. Из-под командной строки запускаете и получаете уже распарсеный текст страницы себе в перловую переменную. Ключик, что я сказал, выдаст список ссылок. Это как вариант. Я не говорю, что это - самое правильное решение. Предполагаю, что регуляркой можно сделать проще и лучше (но это - не интересно). Сам механизм может пригодится для всяких разных штучек. Скачайте и посмотрите. Ищите в гугле lynx. Он и под юниксом и подвендой имеется. ПС. Я одно время тырил им данные с чужих страниц (как раз на перле, но очень давно), типа lynx -dump -nolist >abc.txt. А Вам как раз list нужен. однако, одно из лучших для данных конкретных условий. регулярки не предназначены для парсинга html. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.03.2012, 15:19:30 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
как по мне, куда проще парсить самому Код: perl 1. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.04.2012, 11:24:17 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
yarnikкак по мне, куда проще парсить самому Код: perl 1. А ещё сотню примеров можно написать, когда Ваш паттерн не соответствует. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.04.2012, 11:50:10 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
yarnik, а что тут пробовать, ты вообще нерабочий код выдаешь запусти : Код: sql 1. 2. 3. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.04.2012, 16:34:24 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
извиняюсь Код: sql 1. 2. 3. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.04.2012, 18:59:39 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
yarnik, держи, первая же страница в гугле Код: sql 1. 2. 3. и такого очень много. регулярные выражения тоже имеют свои минусы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.04.2012, 19:17:56 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
так це ж не по феншую. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.04.2012, 20:42:39 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
yarnik, Ниче не знаю - код html валидацию на сайте w3c.org проходит, а ссылку извлекает неправильно Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.04.2012, 21:03:02 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
вот из книжачки еще полностью валидного и даже похожего на осмысленный, кода Код: sql 1. 2. 3. 4. 5. попарси, давай. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.04.2012, 21:17:41 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
netwindyarnik, держи, первая же страница в гугле Код: sql 1. 2. 3. и такого очень много. регулярные выражения тоже имеют свои минусы. Объясните мне, че тут происходит?) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.04.2012, 21:51:00 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
я предложил вариант парсинга линков со страницы, а netwind пытается меня убедить что лучше не пользоватся регулярками. хотя я больше склонен к тому что надо правильно писать линки;) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.04.2012, 22:37:27 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
yarnik, кому надо? невозможно всех заставить правильно писать линки ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.04.2012, 22:53:57 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
Кстати, подумалось, что закомментаренные ссылки тоже будут попадать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.04.2012, 09:47:59 |
|
||
|
Парсер на perl
|
|||
|---|---|---|---|
|
#18+
коллеги, а чем не http://cpan.uwinnipeg.ca/htdocs/HTML-DOM/HTML/DOM.html - ну и SAX где-то рядом.... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.04.2012, 10:18:21 |
|
||
|
|

start [/forum/topic.php?fid=23&msg=37733554&tid=1465327]: |
0ms |
get settings: |
7ms |
get forum list: |
15ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
205ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
55ms |
get tp. blocked users: |
1ms |
| others: | 193ms |
| total: | 492ms |

| 0 / 0 |
