powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Java [игнор отключен] [закрыт для гостей] / Crawler
20 сообщений из 20, страница 1 из 1
Crawler
    #38722013
grinvich36
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Хочу попрактиковаться в многопоточном и сетевом программировании. Решил написать свой веб-краулер, но не хватает общей информации. Собственно хотелось бы где ни будь почитать о том, с какой частотой принято делать поисковые запросы, чтоб не перегружать просматриваемый сервер? Также хотелось бы узнать обо всем, что можно объединить под термином "политики вежливости" для веб-краулера.
...
Рейтинг: 0 / 0
Crawler
    #38722019
Leonidv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Все от задачи зависит. Вообще, сайты сами часто пишут свою политику в robots.txt ( http://robotstxt.org.ru/)
...
Рейтинг: 0 / 0
Crawler
    #38722026
grinvich36
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Leonidv,

Ну, к примеру, я хочу скормить краулеру ссылку на главный УРЛ сайта, после чего хочу получить все содержимое, которое доступно по ссылкам с главной страницы, потом сделать тоже самое со ссылками на каждой из полученных страниц. Таким образом можно довольно сильно нагрузить сервер, на котором крутится сканируемый сайт. Т.е. надо делать какую-то задержку по времени. Вот только вопрос какой длительности должна быть эта задержка?
...
Рейтинг: 0 / 0
Crawler
    #38722102
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Никаких задержек во времени не нужно делать. Но можно каждый сайт ограничить по числу открытых сокетов.
По трафу ограничений делать нет смысла. Пускай отдаёт так как может быстро.
...
Рейтинг: 0 / 0
Crawler
    #38722107
cras
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
grinvich36,

забрать index.html, забрать robots.txt, проанализировать последний (политика вежливости, вдруг нас не хотят, просят помедленнее, куда-то не ходить) делать запросы из сылок index.html.

Принято, что бот не чаще 2 секунд заходит (robots.txt, из описаний).
Типичный бот появляется раз в минуту, новый бот валит сайт запросами на сколько у самого канал (как mail.ru делал и не только)
...
Рейтинг: 0 / 0
Crawler
    #38722126
grinvich36
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
crasПринято, что бот не чаще 2 секунд заходит
Типичный бот появляется раз в минуту
Не совсем понял. Т.е. принято, что бот, зайдя на страницу и взяв с нее ссылки, в следующий раз заходит по одной из этих ссылок через минуту? Или не раньше чем через 2-е секунды? Объясните пожалуйста.
...
Рейтинг: 0 / 0
Crawler
    #38722128
cras
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
grinvich36,

вы правильно поняли, кажется. не чаще, чем раз в две секунды. А обычно не чаще раза в минуту. Правда, когда сайт гугль/яндекс выкачивают, они могут и десять ботов сразу послать -- и десять яндексов крутится
...
Рейтинг: 0 / 0
Crawler
    #38722129
cras
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
если поставите слишком часто -- забанят, руками или автоматом.
...
Рейтинг: 0 / 0
Crawler
    #38722132
grinvich36
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
А сколько сокетов принято открывать для одного сайта, чтоб не правила вежливости не нарушить?
...
Рейтинг: 0 / 0
Crawler
    #38722133
cras
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
grinvich36,

у ботов 1 на ip.

а так -- два уже быстро качают, один уже может обрываться, три уже могут сильно грузить. Браузер одномоментно загружает 10-30 файлов в 1-4 потока.

через wget/dm выкачивал средний сайт за 12/24ч: 2 потока, раз за 30/90 секунд рамдомно.
...
Рейтинг: 0 / 0
Crawler
    #38722134
cras
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
т.е. 2 потока скачивания, каждый работает отдельно, ожидает 30-90с -- это на wget. DM не пользовал сколько не пользую мс, тот сильнее грузил
...
Рейтинг: 0 / 0
Crawler
    #38722135
grinvich36
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Спасибо. Буду разбираться.
...
Рейтинг: 0 / 0
Crawler
    #38722136
cras
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
а цокеты/потоки на файл -- если тот больше нескольких мегов. На дуалапе оптимально было от одного начинать
...
Рейтинг: 0 / 0
Crawler
    #38722463
grinvich36
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
crasт.е. 2 потока скачивания, каждый работает отдельно, ожидает 30-90с -- это на wget. DM не пользовал сколько не пользую мс, тот сильнее грузилА сколько времени работает?
Пока не закачает все что по обрабатываемой ссылке находится, потом перерыв 30-90 сек и следующая ссылка?
Также и второй поток?
...
Рейтинг: 0 / 0
Crawler
    #38722514
Фотография Petro123
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
grinvich36,
AFAIK гугловский бот ходит редко. Так редко что SEO'шники его ждут как прибытия скорого поезда.
Но, я не думаю, что ты запросами с одного хоста можешь завалить сайт. Поэтому, работай спокойно))
...
Рейтинг: 0 / 0
Crawler
    #38722525
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Petro123Но, я не думаю, что ты запросами с одного хоста можешь завалить сайт.
Есть масса поделок на PHP, которые можно даже через F5 заддосить. Я отнажды так сайт чей-то завали колесом мыши в выпадающем списке. Он там на каждое событие запрос на сервер слал.
...
Рейтинг: 0 / 0
Crawler
    #38722542
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
grinvich36А сколько сокетов принято открывать для одного сайта, чтоб не правила вежливости не нарушить?
От хостинга зависит. Я думаю что для современных сайтов нужно открывать растущий пул сокетов
до тех пор пока Апач не выдаст ошибку превышения макс числа соединений. Далле это число
зафиксировать и использовать как актуальное.
...
Рейтинг: 0 / 0
Crawler
    #38722569
Фотография Petro123
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BlazkowiczЕсть масса поделок на PHP,
ну, если поделка то да.
Мы жеж на Java и под бронёй хитреца контейнера)).
А вообще, интервал запросов - в настройку приблуды и все дела.
...
Рейтинг: 0 / 0
Crawler
    #38722598
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
От сайта зависит. Например вконтакте разрешает 5 запросов в секунду с IP к api.vk.com.
И держит обещание (т.е. отдаёт даже замые заумные вопросы) :)

Обычно крупные "качатели" как-то договариваются. Например people.yandex.ru загружает 1млн профилей с соцсети (каждой) в день. По договорённости.

Да, надо сначала почитать сайт, robots.txt, а потом подумать. Небольшие сайты вряд ли что внятного пишут, и при этом могут просто лучь от запросов.

А общих правил нет. Для тестового приложения- можно сделать и очень просто (делаем запросы, а сайт пусть сам решает, когда падать), можно посложнее (глобальная настройка) можно ещё сложнее (настройка на сайт, или самонастройка по времени отклика- как стало увеличиваться- значит пора умерить запросы).
...
Рейтинг: 0 / 0
Crawler
    #38722608
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
От сайта зависит на 100%. Кто-то в "облаках" сидит а у кого-то на балконе - пыльный системник шумит на DSL модеме...

Помните шутку как sql.ru упал и все шутили дескыть "Дуждж выключил ноутбук...".

За каждой шуткой есть другая шутка.
...
Рейтинг: 0 / 0
20 сообщений из 20, страница 1 из 1
Форумы / Java [игнор отключен] [закрыт для гостей] / Crawler
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]