Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Как не срубить антипарсером хорошего гуглобота
|
|||
|---|---|---|---|
|
#18+
сабж. Задача: - бот парсит сайт. блочили по ip ботоделы поумнели и пошли валить из-под проксей. полностью рубануть всех роботов не того, ибо можно ненароком прибить и гуглобота или яндексбота. яндекс дал рецепт как определить его ли бот, если тот признается , что бот. но в то же время заверили, что у них есть боты, которые не будут признаваться. застрял. вопрос: как срубить левых ботов , но при этом не зацепить "правильных"? определять "налету" дороговато. цель - не давать парсить контент сайта, или кормить боту хлам вместо контента, не покалечив дизайн сайта/пользователей, дав скачивать нормальные страницы для индексации поисковикам. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.03.2015, 17:15 |
|
||
|
Как не срубить антипарсером хорошего гуглобота
|
|||
|---|---|---|---|
|
#18+
Яндекс с гуглом юзер-агенты свои подставляют. Но естественно злобный бот может выдавать эти юзер-агенты тоже. Единственный вариант - ip-адреса ботов яндекса с гуглом заносить в белый список (к примеру автоматически проверяя ip по сторонней базе), а остальных банить. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.03.2015, 18:07 |
|
||
|
Как не срубить антипарсером хорошего гуглобота
|
|||
|---|---|---|---|
|
#18+
_Judeопределять "налету" дороговато.Не так уж и дороговато. У меня отстреливаются на лету, превысил 40 запросов за 20 секунд - до свидания. Лимит подобран опытным путем, обычные пользователи и легальные поисковики за него практически не зашкаливают. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.03.2015, 18:10 |
|
||
|
Как не срубить антипарсером хорошего гуглобота
|
|||
|---|---|---|---|
|
#18+
p.s. при парсинге я представляюсь обычным пользователем с обычным юзер-агентом, так что меня обычно не банят при небольшой активности. Но в случае большой активности выход можно подсмотреть у яндекса и гугла - при частых запросах с одного ip они выдают капчу проверки, не бот ли ты. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.03.2015, 18:11 |
|
||
|
Как не срубить антипарсером хорошего гуглобота
|
|||
|---|---|---|---|
|
#18+
Диапазоны IP-адресов поисковых роботов обычно можно найти где-нить в хелпах или на СЕОшных форумах. Их не банить. Остальных - по желанию. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.03.2015, 18:15 |
|
||
|
Как не срубить антипарсером хорошего гуглобота
|
|||
|---|---|---|---|
|
#18+
Спасибо! были похожие идеи, но часть мыслей в голову не приходило. спасибо большое! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.03.2015, 18:54 |
|
||
|
Как не срубить антипарсером хорошего гуглобота
|
|||
|---|---|---|---|
|
#18+
_Jude, в инструкции яндекса пишут, што только связка прямого и обратного dns-запросов диапазоны ip-адресов не очень надежно http://help.yandex.ru/webmaster/robot-workings/check-yandex-robots.xml#robot-in-logs ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.03.2015, 10:48 |
|
||
|
Как не срубить антипарсером хорошего гуглобота
|
|||
|---|---|---|---|
|
#18+
miksoft, вот только сегодня, выяснил что на текущем месте работы частота захода ботов яши и гугля - от 20 до 50 в сек ... как быть? Не они, в смысле под них кто-то косит? :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.03.2015, 15:00 |
|
||
|
Как не срубить антипарсером хорошего гуглобота
|
|||
|---|---|---|---|
|
#18+
Arhat109miksoft, вот только сегодня, выяснил что на текущем месте работы частота захода ботов яши и гугля - от 20 до 50 в сек ... как быть? Не они, в смысле под них кто-то косит? :)Да может и они. На сайт масштаба sql.ru, наверное, могут и чаще заходить. Сильно зависит от декларируемой и фактической частоты изменения контента, количества страниц на сайте, скорости сайта и т.п. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.03.2015, 15:23 |
|
||
|
Как не срубить антипарсером хорошего гуглобота
|
|||
|---|---|---|---|
|
#18+
miksoft, Да какая там скорость... сервак на 8 процов и 96 гектар оперативы, с БД в 40 гектар... загрузка 0.13 из 8 ... мне бы такой года 3 назад. Запрос автокомплита по трем буквам к единой таблице метаданных (собраны ВСЕ текстовые строки из всех таблиц) ... 75мсек. (слюни текут)... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.03.2015, 19:14 |
|
||
|
Как не срубить антипарсером хорошего гуглобота
|
|||
|---|---|---|---|
|
#18+
Arhat109загрузка 0.13 из 8Ну а какие проблемы-то тогда? Пусть заходят сколько надо, если пользователям не мешает. Сайту это в плюс, высокая скорость сайта положительно сказывается на ранжировании. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.03.2015, 19:19 |
|
||
|
Как не срубить антипарсером хорошего гуглобота
|
|||
|---|---|---|---|
|
#18+
miksoft, Не, проблем как таковых нет, ну или я не нашел... пока тестируют мои поделки, попросили поковырять сервер на предмет оптимизации, а тут вы со своей цифирькой ... озадачился, поскольку не смотрел на предмет оригинальности ботов, вот и спросил. Кстати, вчера таки глянул: да, есть такие "мимикроты" и многа. Пока решили "пусть живут, раз не мешают". Хотя вот "не мешают ли"? Общий поток ботов составляет 87% от всего траффика, ну и посещаемость не настолько высока, сколько по идее должно бы быть... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.03.2015, 08:33 |
|
||
|
|

start [/forum/topic.php?fid=23&msg=38904435&tid=1461920]: |
0ms |
get settings: |
10ms |
get forum list: |
9ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
29ms |
get topic data: |
6ms |
get forum data: |
2ms |
get page messages: |
33ms |
get tp. blocked users: |
1ms |
| others: | 215ms |
| total: | 309ms |

| 0 / 0 |
