
Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
|
17.08.2014, 20:06
|
|||
|---|---|---|---|
|
|||
Crawler |
|||
|
#18+
Хочу попрактиковаться в многопоточном и сетевом программировании. Решил написать свой веб-краулер, но не хватает общей информации. Собственно хотелось бы где ни будь почитать о том, с какой частотой принято делать поисковые запросы, чтоб не перегружать просматриваемый сервер? Также хотелось бы узнать обо всем, что можно объединить под термином "политики вежливости" для веб-краулера. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
17.08.2014, 20:52
|
|||
|---|---|---|---|
Crawler |
|||
|
#18+
Все от задачи зависит. Вообще, сайты сами часто пишут свою политику в robots.txt ( http://robotstxt.org.ru/) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
17.08.2014, 21:05
|
|||
|---|---|---|---|
|
|||
Crawler |
|||
|
#18+
Leonidv, Ну, к примеру, я хочу скормить краулеру ссылку на главный УРЛ сайта, после чего хочу получить все содержимое, которое доступно по ссылкам с главной страницы, потом сделать тоже самое со ссылками на каждой из полученных страниц. Таким образом можно довольно сильно нагрузить сервер, на котором крутится сканируемый сайт. Т.е. надо делать какую-то задержку по времени. Вот только вопрос какой длительности должна быть эта задержка? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 00:19
|
|||
|---|---|---|---|
Crawler |
|||
|
#18+
Никаких задержек во времени не нужно делать. Но можно каждый сайт ограничить по числу открытых сокетов. По трафу ограничений делать нет смысла. Пускай отдаёт так как может быстро. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 00:27
|
|||
|---|---|---|---|
Crawler |
|||
|
#18+
grinvich36, забрать index.html, забрать robots.txt, проанализировать последний (политика вежливости, вдруг нас не хотят, просят помедленнее, куда-то не ходить) делать запросы из сылок index.html. Принято, что бот не чаще 2 секунд заходит (robots.txt, из описаний). Типичный бот появляется раз в минуту, новый бот валит сайт запросами на сколько у самого канал (как mail.ru делал и не только) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 01:46
|
|||
|---|---|---|---|
|
|||
Crawler |
|||
|
#18+
crasПринято, что бот не чаще 2 секунд заходит Типичный бот появляется раз в минуту Не совсем понял. Т.е. принято, что бот, зайдя на страницу и взяв с нее ссылки, в следующий раз заходит по одной из этих ссылок через минуту? Или не раньше чем через 2-е секунды? Объясните пожалуйста. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 01:51
|
|||
|---|---|---|---|
Crawler |
|||
|
#18+
grinvich36, вы правильно поняли, кажется. не чаще, чем раз в две секунды. А обычно не чаще раза в минуту. Правда, когда сайт гугль/яндекс выкачивают, они могут и десять ботов сразу послать -- и десять яндексов крутится ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 01:52
|
|||
|---|---|---|---|
Crawler |
|||
|
#18+
если поставите слишком часто -- забанят, руками или автоматом. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 01:55
|
|||
|---|---|---|---|
|
|||
Crawler |
|||
|
#18+
А сколько сокетов принято открывать для одного сайта, чтоб не правила вежливости не нарушить? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 02:05
|
|||
|---|---|---|---|
Crawler |
|||
|
#18+
grinvich36, у ботов 1 на ip. а так -- два уже быстро качают, один уже может обрываться, три уже могут сильно грузить. Браузер одномоментно загружает 10-30 файлов в 1-4 потока. через wget/dm выкачивал средний сайт за 12/24ч: 2 потока, раз за 30/90 секунд рамдомно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 02:08
|
|||
|---|---|---|---|
Crawler |
|||
|
#18+
т.е. 2 потока скачивания, каждый работает отдельно, ожидает 30-90с -- это на wget. DM не пользовал сколько не пользую мс, тот сильнее грузил ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 02:12
|
|||
|---|---|---|---|
|
|||
Crawler |
|||
|
#18+
Спасибо. Буду разбираться. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 02:18
|
|||
|---|---|---|---|
Crawler |
|||
|
#18+
а цокеты/потоки на файл -- если тот больше нескольких мегов. На дуалапе оптимально было от одного начинать ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 13:45
|
|||
|---|---|---|---|
|
|||
Crawler |
|||
|
#18+
crasт.е. 2 потока скачивания, каждый работает отдельно, ожидает 30-90с -- это на wget. DM не пользовал сколько не пользую мс, тот сильнее грузилА сколько времени работает? Пока не закачает все что по обрабатываемой ссылке находится, потом перерыв 30-90 сек и следующая ссылка? Также и второй поток? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 14:15
|
|||
|---|---|---|---|
Crawler |
|||
|
#18+
grinvich36, AFAIK гугловский бот ходит редко. Так редко что SEO'шники его ждут как прибытия скорого поезда. Но, я не думаю, что ты запросами с одного хоста можешь завалить сайт. Поэтому, работай спокойно)) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 14:19
|
|||
|---|---|---|---|
|
|||
Crawler |
|||
|
#18+
Petro123Но, я не думаю, что ты запросами с одного хоста можешь завалить сайт. Есть масса поделок на PHP, которые можно даже через F5 заддосить. Я отнажды так сайт чей-то завали колесом мыши в выпадающем списке. Он там на каждое событие запрос на сервер слал. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 14:34
|
|||
|---|---|---|---|
Crawler |
|||
|
#18+
grinvich36А сколько сокетов принято открывать для одного сайта, чтоб не правила вежливости не нарушить? От хостинга зависит. Я думаю что для современных сайтов нужно открывать растущий пул сокетов до тех пор пока Апач не выдаст ошибку превышения макс числа соединений. Далле это число зафиксировать и использовать как актуальное. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 14:56
|
|||
|---|---|---|---|
Crawler |
|||
|
#18+
BlazkowiczЕсть масса поделок на PHP, ну, если поделка то да. Мы жеж на Java и под бронёй хитреца контейнера)). А вообще, интервал запросов - в настройку приблуды и все дела. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 15:15
|
|||
|---|---|---|---|
|
|||
Crawler |
|||
|
#18+
От сайта зависит. Например вконтакте разрешает 5 запросов в секунду с IP к api.vk.com. И держит обещание (т.е. отдаёт даже замые заумные вопросы) :) Обычно крупные "качатели" как-то договариваются. Например people.yandex.ru загружает 1млн профилей с соцсети (каждой) в день. По договорённости. Да, надо сначала почитать сайт, robots.txt, а потом подумать. Небольшие сайты вряд ли что внятного пишут, и при этом могут просто лучь от запросов. А общих правил нет. Для тестового приложения- можно сделать и очень просто (делаем запросы, а сайт пусть сам решает, когда падать), можно посложнее (глобальная настройка) можно ещё сложнее (настройка на сайт, или самонастройка по времени отклика- как стало увеличиваться- значит пора умерить запросы). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
18.08.2014, 15:20
|
|||
|---|---|---|---|
Crawler |
|||
|
#18+
От сайта зависит на 100%. Кто-то в "облаках" сидит а у кого-то на балконе - пыльный системник шумит на DSL модеме... Помните шутку как sql.ru упал и все шутили дескыть "Дуждж выключил ноутбук...". За каждой шуткой есть другая шутка. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|

start [/forum/topic.php?fid=59&tablet=1&tid=2126725]: |
0ms |
get settings: |
8ms |
get forum list: |
10ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
178ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
41ms |
get tp. blocked users: |
1ms |
| others: | 229ms |
| total: | 483ms |

| 0 / 0 |
