Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Java [игнор отключен] [закрыт для гостей] / Crawler / 20 сообщений из 20, страница 1 из 1
17.08.2014, 20:06
    #38722013
grinvich36
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
Хочу попрактиковаться в многопоточном и сетевом программировании. Решил написать свой веб-краулер, но не хватает общей информации. Собственно хотелось бы где ни будь почитать о том, с какой частотой принято делать поисковые запросы, чтоб не перегружать просматриваемый сервер? Также хотелось бы узнать обо всем, что можно объединить под термином "политики вежливости" для веб-краулера.
...
Рейтинг: 0 / 0
17.08.2014, 20:52
    #38722019
Leonidv
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
Все от задачи зависит. Вообще, сайты сами часто пишут свою политику в robots.txt ( http://robotstxt.org.ru/)
...
Рейтинг: 0 / 0
17.08.2014, 21:05
    #38722026
grinvich36
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
Leonidv,

Ну, к примеру, я хочу скормить краулеру ссылку на главный УРЛ сайта, после чего хочу получить все содержимое, которое доступно по ссылкам с главной страницы, потом сделать тоже самое со ссылками на каждой из полученных страниц. Таким образом можно довольно сильно нагрузить сервер, на котором крутится сканируемый сайт. Т.е. надо делать какую-то задержку по времени. Вот только вопрос какой длительности должна быть эта задержка?
...
Рейтинг: 0 / 0
18.08.2014, 00:19
    #38722102
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
Никаких задержек во времени не нужно делать. Но можно каждый сайт ограничить по числу открытых сокетов.
По трафу ограничений делать нет смысла. Пускай отдаёт так как может быстро.
...
Рейтинг: 0 / 0
18.08.2014, 00:27
    #38722107
cras
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
grinvich36,

забрать index.html, забрать robots.txt, проанализировать последний (политика вежливости, вдруг нас не хотят, просят помедленнее, куда-то не ходить) делать запросы из сылок index.html.

Принято, что бот не чаще 2 секунд заходит (robots.txt, из описаний).
Типичный бот появляется раз в минуту, новый бот валит сайт запросами на сколько у самого канал (как mail.ru делал и не только)
...
Рейтинг: 0 / 0
18.08.2014, 01:46
    #38722126
grinvich36
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
crasПринято, что бот не чаще 2 секунд заходит
Типичный бот появляется раз в минуту
Не совсем понял. Т.е. принято, что бот, зайдя на страницу и взяв с нее ссылки, в следующий раз заходит по одной из этих ссылок через минуту? Или не раньше чем через 2-е секунды? Объясните пожалуйста.
...
Рейтинг: 0 / 0
18.08.2014, 01:51
    #38722128
cras
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
grinvich36,

вы правильно поняли, кажется. не чаще, чем раз в две секунды. А обычно не чаще раза в минуту. Правда, когда сайт гугль/яндекс выкачивают, они могут и десять ботов сразу послать -- и десять яндексов крутится
...
Рейтинг: 0 / 0
18.08.2014, 01:52
    #38722129
cras
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
если поставите слишком часто -- забанят, руками или автоматом.
...
Рейтинг: 0 / 0
18.08.2014, 01:55
    #38722132
grinvich36
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
А сколько сокетов принято открывать для одного сайта, чтоб не правила вежливости не нарушить?
...
Рейтинг: 0 / 0
18.08.2014, 02:05
    #38722133
cras
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
grinvich36,

у ботов 1 на ip.

а так -- два уже быстро качают, один уже может обрываться, три уже могут сильно грузить. Браузер одномоментно загружает 10-30 файлов в 1-4 потока.

через wget/dm выкачивал средний сайт за 12/24ч: 2 потока, раз за 30/90 секунд рамдомно.
...
Рейтинг: 0 / 0
18.08.2014, 02:08
    #38722134
cras
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
т.е. 2 потока скачивания, каждый работает отдельно, ожидает 30-90с -- это на wget. DM не пользовал сколько не пользую мс, тот сильнее грузил
...
Рейтинг: 0 / 0
18.08.2014, 02:12
    #38722135
grinvich36
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
Спасибо. Буду разбираться.
...
Рейтинг: 0 / 0
18.08.2014, 02:18
    #38722136
cras
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
а цокеты/потоки на файл -- если тот больше нескольких мегов. На дуалапе оптимально было от одного начинать
...
Рейтинг: 0 / 0
18.08.2014, 13:45
    #38722463
grinvich36
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
crasт.е. 2 потока скачивания, каждый работает отдельно, ожидает 30-90с -- это на wget. DM не пользовал сколько не пользую мс, тот сильнее грузилА сколько времени работает?
Пока не закачает все что по обрабатываемой ссылке находится, потом перерыв 30-90 сек и следующая ссылка?
Также и второй поток?
...
Рейтинг: 0 / 0
18.08.2014, 14:15
    #38722514
Petro123
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
grinvich36,
AFAIK гугловский бот ходит редко. Так редко что SEO'шники его ждут как прибытия скорого поезда.
Но, я не думаю, что ты запросами с одного хоста можешь завалить сайт. Поэтому, работай спокойно))
...
Рейтинг: 0 / 0
18.08.2014, 14:19
    #38722525
Blazkowicz
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
Petro123Но, я не думаю, что ты запросами с одного хоста можешь завалить сайт.
Есть масса поделок на PHP, которые можно даже через F5 заддосить. Я отнажды так сайт чей-то завали колесом мыши в выпадающем списке. Он там на каждое событие запрос на сервер слал.
...
Рейтинг: 0 / 0
18.08.2014, 14:34
    #38722542
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
grinvich36А сколько сокетов принято открывать для одного сайта, чтоб не правила вежливости не нарушить?
От хостинга зависит. Я думаю что для современных сайтов нужно открывать растущий пул сокетов
до тех пор пока Апач не выдаст ошибку превышения макс числа соединений. Далле это число
зафиксировать и использовать как актуальное.
...
Рейтинг: 0 / 0
18.08.2014, 14:56
    #38722569
Petro123
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
BlazkowiczЕсть масса поделок на PHP,
ну, если поделка то да.
Мы жеж на Java и под бронёй хитреца контейнера)).
А вообще, интервал запросов - в настройку приблуды и все дела.
...
Рейтинг: 0 / 0
18.08.2014, 15:15
    #38722598
Alexey Tomin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
От сайта зависит. Например вконтакте разрешает 5 запросов в секунду с IP к api.vk.com.
И держит обещание (т.е. отдаёт даже замые заумные вопросы) :)

Обычно крупные "качатели" как-то договариваются. Например people.yandex.ru загружает 1млн профилей с соцсети (каждой) в день. По договорённости.

Да, надо сначала почитать сайт, robots.txt, а потом подумать. Небольшие сайты вряд ли что внятного пишут, и при этом могут просто лучь от запросов.

А общих правил нет. Для тестового приложения- можно сделать и очень просто (делаем запросы, а сайт пусть сам решает, когда падать), можно посложнее (глобальная настройка) можно ещё сложнее (настройка на сайт, или самонастройка по времени отклика- как стало увеличиваться- значит пора умерить запросы).
...
Рейтинг: 0 / 0
18.08.2014, 15:20
    #38722608
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Crawler
От сайта зависит на 100%. Кто-то в "облаках" сидит а у кого-то на балконе - пыльный системник шумит на DSL модеме...

Помните шутку как sql.ru упал и все шутили дескыть "Дуждж выключил ноутбук...".

За каждой шуткой есть другая шутка.
...
Рейтинг: 0 / 0
Форумы / Java [игнор отключен] [закрыт для гостей] / Crawler / 20 сообщений из 20, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]