|
|
|
Ищу программу парсинга ссылок
|
|||
|---|---|---|---|
|
#18+
Доброго всем товарищи, Может ли кто поделиться КОНСОЛЬНОЙ программой парсинга ссылок 1 уровня с указанного сайта в ОС Windows Пример wget www.sql.ru -o log.txt т.е. посмотреть все ссылки на www.sql.ru и записать их в log.txt только wget их пытается скачать а надо чтоб просто пробежалась по коду страницы Заранее благодарен ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.05.2016, 08:04 |
|
||
|
Ищу программу парсинга ссылок
|
|||
|---|---|---|---|
|
#18+
Scorp1978только wget их пытается скачать а надо чтоб просто пробежалась по коду страницы в адресном пространстве какого компа предполагаешь разместить обрабатываемые данные (страница сайта) и код консольной программы, которая эти данные парсит? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.05.2016, 08:44 |
|
||
|
Ищу программу парсинга ссылок
|
|||
|---|---|---|---|
|
#18+
ma1tusScorp1978только wget их пытается скачать а надо чтоб просто пробежалась по коду страницы в адресном пространстве какого компа предполагаешь разместить обрабатываемые данные (страница сайта) и код консольной программы, которая эти данные парсит? ТС имел ввиду, что вместо того, чтобы просто достать ссылку, wget её достаёт и начинает скачивать страницу по этой ссылке ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.05.2016, 08:54 |
|
||
|
Ищу программу парсинга ссылок
|
|||
|---|---|---|---|
|
#18+
defecator, Вы абсолютно правы, кроме того wget не может скачать ссылки с защищенных сайтов, а надо то всего лишь их собрать с кода html ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.05.2016, 09:00 |
|
||
|
Ищу программу парсинга ссылок
|
|||
|---|---|---|---|
|
#18+
defecatorТС имел ввиду, что вместо того, чтобы просто достать ссылку, wget её достаёт и начинает скачивать страницу по этой ссылке чтобы wget ходил по нескольким ссылкам сам вдруг по себе, если ему не указать это делать, через -r или -i ... странно... если надо пропарсить страницу по одному линку, заданному в параметре: http://stackoverflow.com/questions/9899760/use-sed-and-wget-to-retrieve-links-only Модератор: Тема перенесена из форума "Delphi". ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.05.2016, 09:12 |
|
||
|
Ищу программу парсинга ссылок
|
|||
|---|---|---|---|
|
#18+
ma1tusdefecatorТС имел ввиду, что вместо того, чтобы просто достать ссылку, wget её достаёт и начинает скачивать страницу по этой ссылке чтобы wget ходил по нескольким ссылкам сам вдруг по себе, если ему не указать это делать, через -r или -i ... странно... если надо пропарсить страницу по одному линку, заданному в параметре: http://stackoverflow.com/questions/9899760/use-sed-and-wget-to-retrieve-links-only Модератор: Тема перенесена из форума "Delphi". а как быть с сайтами которые защищены (в мазиле зеленый замочек в адресной строке) или проканывает ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.05.2016, 10:18 |
|
||
|
Ищу программу парсинга ссылок
|
|||
|---|---|---|---|
|
#18+
Такую программу можно и самому написать ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.05.2016, 15:40 |
|
||
|
Ищу программу парсинга ссылок
|
|||
|---|---|---|---|
|
#18+
Scorp1978а как быть с сайтами которые защищены (в мазиле зеленый замочек в адресной строке) или проканывает Код: powershell 1. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.05.2016, 16:26 |
|
||
|
Ищу программу парсинга ссылок
|
|||
|---|---|---|---|
|
#18+
... или wget 1.17.1, который умеет работать с системными хранилищами сертификатов. Но у которого есть глюк в опции -N ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.05.2016, 18:00 |
|
||
|
Ищу программу парсинга ссылок
|
|||
|---|---|---|---|
|
#18+
спасибо всем что откликнулись, может кто помочь команды wget подобрать под необходимые параметры Параметры (необходимо с сайта к примеру www.sql.ru) 1. Собрать все рабочие ссылки в лог (неважно в каком виде) 2. Желательно их не качать (страницы по ссылкам) 3. Если не качается ссылка в течении 2-3 секунд перейти к другой (если не сработает пункт 2) 4. размер скачиваемой инфы должен быть не более 2м вроде все ни че не забыл))) заранее благодарен. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.05.2016, 05:02 |
|
||
|
Ищу программу парсинга ссылок
|
|||
|---|---|---|---|
|
#18+
Scorp1978спасибо всем что откликнулись, может кто помочь команды wget подобрать под необходимые параметры Параметры (необходимо с сайта к примеру www.sql.ru) 1. Собрать все рабочие ссылки в лог (неважно в каком виде) 2. Желательно их не качать (страницы по ссылкам) 3. Если не качается ссылка в течении 2-3 секунд перейти к другой (если не сработает пункт 2) 4. размер скачиваемой инфы должен быть не более 2м вроде все ни че не забыл))) заранее благодарен. забыл надо еще чтоб с "зелеными замками работал" ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.05.2016, 05:07 |
|
||
|
Ищу программу парсинга ссылок
|
|||
|---|---|---|---|
|
#18+
Scorp1978Scorp1978спасибо всем что откликнулись, может кто помочь команды wget подобрать под необходимые параметры Параметры (необходимо с сайта к примеру www.sql.ru) 1. Собрать все рабочие ссылки в лог (неважно в каком виде) 2. Желательно их не качать (страницы по ссылкам) 3. Если не качается ссылка в течении 2-3 секунд перейти к другой (если не сработает пункт 2) 4. размер скачиваемой инфы должен быть не более 2м вроде все ни че не забыл))) заранее благодарен. забыл надо еще чтоб с "зелеными замками работал" то это ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.05.2016, 06:20 |
|
||
|
Ищу программу парсинга ссылок
|
|||
|---|---|---|---|
|
#18+
defecatorScorp1978пропущено... забыл надо еще чтоб с "зелеными замками работал" то это ? ну есть сайты защищенные в мозиле зелеными значками отражаются так вот wget с ними не работает, ну по крайней мере уменя не получилось вот моя строка wget -r -Q1m -l1 -R"*.pdf" -R"*.css" -R"*.png" -R"*.jpeg" -R"*.jpg" -R"*.js" --tries=2 &ht_ -o log но это не то что надо ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.05.2016, 08:28 |
|
||
|
Ищу программу парсинга ссылок
|
|||
|---|---|---|---|
|
#18+
Scorp1978defecatorпропущено... то это ? ну есть сайты защищенные в мозиле зелеными значками отражаются так вот wget с ними не работает, ну по крайней мере уменя не получилось вот моя строка wget -r -Q1m -l1 -R"*.pdf" -R"*.css" -R"*.png" -R"*.jpeg" -R"*.jpg" -R"*.js" --tries=2 &ht_ -o log но это не то что надо &ht_ - это сайт wget -r -Q1m -l1 -R"*.pdf" -R"*.css" -R"*.png" -R"*.jpeg" -R"*.jpg" -R"*.js" --tries=2 www.sql.ru -o log ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.05.2016, 08:29 |
|
||
|
|

start [/forum/topic.php?fid=26&msg=39230502&tid=1493517]: |
0ms |
get settings: |
11ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
28ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
48ms |
get tp. blocked users: |
2ms |
| others: | 12ms |
| total: | 136ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...