powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / Как не срубить антипарсером хорошего гуглобота
12 сообщений из 12, страница 1 из 1
Как не срубить антипарсером хорошего гуглобота
    #38904277
_Jude
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
сабж.

Задача:
- бот парсит сайт.
блочили по ip
ботоделы поумнели и пошли валить из-под проксей.

полностью рубануть всех роботов не того, ибо можно ненароком прибить и гуглобота или яндексбота.

яндекс дал рецепт как определить его ли бот, если тот признается , что бот.

но в то же время заверили, что у них есть боты, которые не будут признаваться.

застрял.

вопрос:
как срубить левых ботов , но при этом не зацепить "правильных"?
определять "налету" дороговато.
цель - не давать парсить контент сайта, или кормить боту хлам вместо контента, не покалечив дизайн сайта/пользователей, дав скачивать нормальные страницы для индексации поисковикам.
...
Рейтинг: 0 / 0
Как не срубить антипарсером хорошего гуглобота
    #38904367
st_st
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Яндекс с гуглом юзер-агенты свои подставляют. Но естественно злобный бот может выдавать эти юзер-агенты тоже. Единственный вариант - ip-адреса ботов яндекса с гуглом заносить в белый список (к примеру автоматически проверяя ip по сторонней базе), а остальных банить.
...
Рейтинг: 0 / 0
Как не срубить антипарсером хорошего гуглобота
    #38904375
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_Judeопределять "налету" дороговато.Не так уж и дороговато.
У меня отстреливаются на лету, превысил 40 запросов за 20 секунд - до свидания. Лимит подобран опытным путем, обычные пользователи и легальные поисковики за него практически не зашкаливают.
...
Рейтинг: 0 / 0
Как не срубить антипарсером хорошего гуглобота
    #38904377
st_st
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
p.s. при парсинге я представляюсь обычным пользователем с обычным юзер-агентом, так что меня обычно не банят при небольшой активности. Но в случае большой активности выход можно подсмотреть у яндекса и гугла - при частых запросах с одного ip они выдают капчу проверки, не бот ли ты.
...
Рейтинг: 0 / 0
Как не срубить антипарсером хорошего гуглобота
    #38904381
vkle
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Диапазоны IP-адресов поисковых роботов обычно можно найти где-нить в хелпах или на СЕОшных форумах. Их не банить. Остальных - по желанию.
...
Рейтинг: 0 / 0
Как не срубить антипарсером хорошего гуглобота
    #38904435
_Jude
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Спасибо!
были похожие идеи, но часть мыслей в голову не приходило.
спасибо большое!
...
Рейтинг: 0 / 0
Как не срубить антипарсером хорошего гуглобота
    #38905605
Фотография -k2-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_Jude,

в инструкции яндекса пишут, што только связка прямого и обратного dns-запросов
диапазоны ip-адресов не очень надежно
http://help.yandex.ru/webmaster/robot-workings/check-yandex-robots.xml#robot-in-logs
...
Рейтинг: 0 / 0
Как не срубить антипарсером хорошего гуглобота
    #38905968
Arhat109
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
miksoft,

вот только сегодня, выяснил что на текущем месте работы частота захода ботов яши и гугля - от 20 до 50 в сек ... как быть? Не они, в смысле под них кто-то косит? :)
...
Рейтинг: 0 / 0
Как не срубить антипарсером хорошего гуглобота
    #38906003
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Arhat109miksoft,

вот только сегодня, выяснил что на текущем месте работы частота захода ботов яши и гугля - от 20 до 50 в сек ... как быть? Не они, в смысле под них кто-то косит? :)Да может и они. На сайт масштаба sql.ru, наверное, могут и чаще заходить. Сильно зависит от декларируемой и фактической частоты изменения контента, количества страниц на сайте, скорости сайта и т.п.
...
Рейтинг: 0 / 0
Как не срубить антипарсером хорошего гуглобота
    #38906343
Arhat109
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
miksoft,

Да какая там скорость... сервак на 8 процов и 96 гектар оперативы, с БД в 40 гектар... загрузка 0.13 из 8 ... мне бы такой года 3 назад. Запрос автокомплита по трем буквам к единой таблице метаданных (собраны ВСЕ текстовые строки из всех таблиц) ... 75мсек. (слюни текут)...
...
Рейтинг: 0 / 0
Как не срубить антипарсером хорошего гуглобота
    #38906349
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Arhat109загрузка 0.13 из 8Ну а какие проблемы-то тогда? Пусть заходят сколько надо, если пользователям не мешает. Сайту это в плюс, высокая скорость сайта положительно сказывается на ранжировании.
...
Рейтинг: 0 / 0
Как не срубить антипарсером хорошего гуглобота
    #38906592
Arhat109
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
miksoft,

Не, проблем как таковых нет, ну или я не нашел... пока тестируют мои поделки, попросили поковырять сервер на предмет оптимизации, а тут вы со своей цифирькой ... озадачился, поскольку не смотрел на предмет оригинальности ботов, вот и спросил.

Кстати, вчера таки глянул: да, есть такие "мимикроты" и многа. Пока решили "пусть живут, раз не мешают". Хотя вот "не мешают ли"? Общий поток ботов составляет 87% от всего траффика, ну и посещаемость не настолько высока, сколько по идее должно бы быть...
...
Рейтинг: 0 / 0
12 сообщений из 12, страница 1 из 1
Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / Как не срубить антипарсером хорошего гуглобота
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]