Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / Бот "WebIndex" / 20 сообщений из 20, страница 1 из 1
05.11.2014, 21:32
    #38796752
Cyrax_02
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
1) Где найти информацию про бота "WebIndex" (ip 92.242.35.54) ?
2) Почему этот бот отсутствует в свежем full_php_browscap.ini ?

Информация :
автор[PATH] => /usr/local/bin:/usr/bin:/bin
[FCGI_ROLE] => RESPONDER
[REDIRECT_STATUS] => 200
[HTTP_HOST] => www.site.ru
[HTTP_ACCEPT_ENCODING] => gzip, deflate
[HTTP_CONNECTION] => close
[HTTP_USER_AGENT] => WebIndex
[HTTP_ACCEPT] => text/html
[SERVER_SIGNATURE] => <address>Apache/2.0.06 (Debian) Server at www.site.ru Port 80</address>

[SERVER_SOFTWARE] => Apache/2.0.06 (Debian)
[SERVER_NAME] => www.site.ru
[SERVER_ADDR] => x.x.x.x
[SERVER_PORT] => 80
[REMOTE_ADDR] => 92.242.35.54
[DOCUMENT_ROOT] => /var/www/user/data/www/site.ru
[SERVER_ADMIN] => admin@site.ru
[SCRIPT_FILENAME] => /var/www/user/data/www/site.ru/index.php
[REMOTE_PORT] => 60442
[REDIRECT_QUERY_STRING] => q=un
[REDIRECT_URL] => /un.html
[GATEWAY_INTERFACE] => CGI/1.1
[SERVER_PROTOCOL] => HTTP/1.1
[REQUEST_METHOD] => GET
[QUERY_STRING] => q=un
[REQUEST_URI] => /unit-list.html?group_type=ukeyword&group_id=927
[SCRIPT_NAME] => /index.php
[PHP_SELF] => /index.php
[REQUEST_TIME] => 1415175860
[argv] => Array
(
[0] => q=un
)
[argc] => 1
[HTTP_REFERER] =>
В интернете информации о нём никакой :
http://www.yaplakal.com/forum3/topic858801.html
http://vbsupport.org/forum/showthread.php?t=50304
http://www.cyberforum.ru/blogs/223974/blog2542.html

http://myip.ms/view/comp_browseragents/451334/WebIndex.html
http://myhouselife.ru/bots.php
https://wiki.umn.edu/RotBot/WebIndex
http://www.findip-address.com/92.242.35.54/browserinfo
...
Рейтинг: 0 / 0
05.11.2014, 22:11
    #38796767
vkle
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
Cyrax_021) Где найти информацию про бота "WebIndex" (ip 92.242.35.54) ?
Код: plaintext
1.
2.
3.
4.
5.
6.
$ whois 92.242.35.54
....
inetnum:        92.242.35.48 - 92.242.35.63
netname:        DTLN-CUSTOMERS
descr:          Mir Telematiki, llc
country:        RU
........
Возможно, оно: http://2ip.ru/isp/Mir Telematiki Ltd
А дальше уж по контактам стучаться...


Cyrax_022) Почему этот бот отсутствует в свежем full_php_browscap.ini ?Ну, а к примеру, напишем мы с коллегами пяток ботов и попросим их отправлять строкой юзер-агента сотню вариантов всякой ерунды. Да и будем изредка выпускать их на просторы тырнета... Должны ли наши боты появиться в оном файле?
...
Рейтинг: 0 / 0
06.11.2014, 11:43
    #38797099
alex564657498765453
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
как раз хотел последнюю мысль написать... я и в мозиле могу поставить автообновление страницы каждые пол часа, не выключать комп, а мозиле сказать чтобы идентифицировала себя строкой "СамПанСклепав ТретийГлазИнтернета версия - хз, но писал код 4 месяца"

и будут на форумах спрашивать, что за новый мегакрутой бот, что сканит сайт каждые пол часа.
...
Рейтинг: 0 / 0
07.11.2014, 22:28
    #38799090
Cyrax_02
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
авторкак раз хотел последнюю мысль написать... я и в мозиле могу поставить автообновление страницы каждые пол часа, не выключать комп, а мозиле сказать чтобы идентифицировала себя строкой "СамПанСклепав ТретийГлазИнтернета версия - хз, но писал код 4 месяца"
и будут на форумах спрашивать, что за новый мегакрутой бот, что сканит сайт каждые пол часа. Это Вы говорите про левотню. Левотню мы не рассматриваем:
Ориентируемся на корректное значение HTTP_USER_AGENT. Т.е. считаем, что никто ничего не подделывает и при формировании HTTP_USER_AGENT придерживается существующих стандартов / соглашений / рекомендаций.

Вот Вам другой хороший пример - поисковый бот "statdom.ru/Bot" : http://statdom.ru/bot.html
Его HTTP_USER_AGENT :
Код: php
1.
Mozilla/5.0 (compatible; statdom.ru/Bot; +http://statdom.ru/bot.html)

Причём в свежем php_browscap.ini его нет. А должен быть.
Получается конфуз какой-то...
...
Рейтинг: 0 / 0
17.12.2014, 18:18
    #38836288
ilejn
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
Cyrax_02 А должен быть.
Получается конфуз какой-то...

Можно полюбопытствовать, как Вы используете или планируете использовать BCP?
...
Рейтинг: 0 / 0
17.12.2014, 18:40
    #38836324
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
Cyrax_02про бота "WebIndex"У меня сегодня его один из сайтов заблокировал за чрезмерную активность.
Т.е. он еще и нетикет нарушает.
...
Рейтинг: 0 / 0
18.12.2014, 12:19
    #38836845
alex564657498765453
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
Cyrax_02авторкак раз хотел последнюю мысль написать... я и в мозиле могу поставить автообновление страницы каждые пол часа, не выключать комп, а мозиле сказать чтобы идентифицировала себя строкой "СамПанСклепав ТретийГлазИнтернета версия - хз, но писал код 4 месяца"
и будут на форумах спрашивать, что за новый мегакрутой бот, что сканит сайт каждые пол часа. Это Вы говорите про левотню. Левотню мы не рассматриваем:
Ориентируемся на корректное значение HTTP_USER_AGENT. Т.е. считаем, что никто ничего не подделывает и при формировании HTTP_USER_AGENT придерживается существующих стандартов / соглашений / рекомендаций.

Вот Вам другой хороший пример - поисковый бот "statdom.ru/Bot" : http://statdom.ru/bot.html
Его HTTP_USER_AGENT :
Код: php
1.
Mozilla/5.0 (compatible; statdom.ru/Bot; +http://statdom.ru/bot.html)

Причём в свежем php_browscap.ini его нет. А должен быть.
Получается конфуз какой-то...

это вы не расматриваете, а мы расматриваем реальный мир.
где на каждое одно решение оформелнное по стандартам, прописанное в справочниках и подобное, будет с 10 где не все правильно сделанно из 100 где люди просто по приколу чтото делают и им наплевать на то что ктото хочет получать нормально. они не подделывают!!! ничего, им просто всё-равно. ибо бот они делают для своих целей а не для кого-то.

яндекс бот идентифицирует себя не для того чтобы вам было удобно, а для того чтоб ему было удобно, потому что яндекс будет признательным если вы не будете отвечать на запросы, которые не для бота...или скрывать часть текста, который не хотите размещать в базе яндекса.

а вы смотрите на ситуацию, как если бот - должен себя идентифицировать. это продавец в магазине должен вам назвать правильное название товара и цены, бот в интернете не должен ничего - это обычный посетитель для вас, и лишь если разработчик бота хочет дать вам возможность отличать его ради собственной выгоды а не вашей, дадут такую возможность.
...
Рейтинг: 0 / 0
18.12.2014, 12:22
    #38836854
alex564657498765453
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
Cyrax_02,

поймите меня верно. не надо считать что люди другие боги, они такие же как и вы.

вот я бы вам за деньги поставил задачу, сделать бот - каковы шансы что при всех ваших стараниях не будет человека в мире, ни в китае, ни в индии, ни в штатах, ни у нас в россии, который на форуме напишет - а что это за бот, вот его нету в такой-то базе.

малы на самом деле, а каковы шансы будут если вы мне раскажете прото как важно прописать его где надо, а я скажу - хотите, делайте в своё личное время это, мне оно не надо, ни копейки за эту работу не дам.
...
Рейтинг: 0 / 0
18.12.2014, 12:27
    #38836861
ilejn
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
alex564657498765453каковы шансы будут если вы мне раскажете прото как важно прописать его где надо

Cyrax_02, расскажите мне, пожалуйста, про то, как это важно.

В чем смысл прописывания роботов в базах типа bcp?
Кому и как от этого становится хорошо?
...
Рейтинг: 0 / 0
18.12.2014, 13:13
    #38836937
toropblshka
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
miksoft,

А "чрезмерная активность" это как, когда?
Меня вот тоже любопытство разбирает, а найти ничего толком не получается.
...
Рейтинг: 0 / 0
18.12.2014, 13:34
    #38836971
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
toropblshkaА "чрезмерная активность" это как, когда?Конкретно у меня - более 40 хитов за 20 секунд. В CMS настроен такой порог для блокировки.
...
Рейтинг: 0 / 0
18.12.2014, 14:12
    #38837031
ilejn
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
miksoftКонкретно у меня - более 40 хитов за 20 секунд. В CMS настроен такой порог для блокировки.

А в какое время это произошло? Нагрузка на сайте была высокая?

У меня есть подшефный сайт на e107 (это такая допотопная CMS). В один прекрасный день я обнаружил, что сайт выпал из выдачи Яндекса.
Произошло это из-за похожих настроек автоматического бана.
Гугл использует больше IP, чем Яндекс, поэтому его роботы худо-бедно работали, но часть гугловых IP тоже была забанена.

Так что сами решайте, кто Ваш главный враг и с кем нужно бороться.
...
Рейтинг: 0 / 0
18.12.2014, 14:20
    #38837047
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
ilejnmiksoftКонкретно у меня - более 40 хитов за 20 секунд. В CMS настроен такой порог для блокировки.

А в какое время это произошло? Нагрузка на сайте была высокая?Последний раз был сегодня в 9:13 утра. Нагрузка вряд ли была высокая. Но это роли и не играет, считаются заходы с каждого хоста отдельно.

ilejnУ меня есть подшефный сайт на e107 (это такая допотопная CMS). В один прекрасный день я обнаружил, что сайт выпал из выдачи Яндекса.
Произошло это из-за похожих настроек автоматического бана.
Гугл использует больше IP, чем Яндекс, поэтому его роботы худо-бедно работали, но часть гугловых IP тоже была забанена.

Так что сами решайте, кто Ваш главный враг и с кем нужно бороться.Ну да, тут нужно осторожно.
Хотя ни один из "приличных" поисковиков у меня никогда не налетал на блокировку.
И, кстати, можно же не блокировать конкретные нужные поисковики по юзерагенту.
...
Рейтинг: 0 / 0
18.12.2014, 15:45
    #38837250
ilejn
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
miksoftможно же не блокировать конкретные нужные поисковики по юзерагенту.

Для начала лучше попробовать http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#crawl-delay
...
Рейтинг: 0 / 0
10.01.2015, 12:49
    #38851188
ksa242
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
WebIndex — предположительно бот конторы «таргетированной рекламы» http://www.imarker.ru/ Вот пара статей по этому поводу: http://habrahabr.ru/post/247465/ и http://sporaw.livejournal.com/347832.html
...
Рейтинг: 0 / 0
10.01.2015, 18:12
    #38851333
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
Удивительно, но ip-адрес все время один и тот же. Его же легко забанить на уровне файерволла.

Еще по логам заметно, что любит заходить на один и тот же адрес 2-3 раза подряд с интервалом в секунду или несколько.
...
Рейтинг: 0 / 0
03.03.2015, 16:28
    #38893782
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
miksoftУдивительно, но ip-адрес все время один и тот же. Его же легко забанить на уровне файерволла.Он мне таки надоел и я его забанил.

Попутно забанил megaindex.ru - тоже хамить начали часто в последнее время. Писал им письмо - проигнорировали.
...
Рейтинг: 0 / 0
15.05.2015, 16:20
    #38960035
autobuh
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
miksoftПопутно забанил megaindex.ru - тоже хамить начали часто в последнее время. Писал им письмо - проигнорировали.

А не подскажете IP этого megaindex - тоже заранее забаню.
Или поищу в списке уже приходивших IP.
...
Рейтинг: 0 / 0
15.05.2015, 16:33
    #38960054
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
autobuh,

у меня таблица банов выглядит вот так:
За Превышение лимита активностиЗапретить входящие от 188.165.208.29, 194.6.233.28, 194.6.233.33 на всех портах WebIndexЗапретить входящие от 92.242.35.54 на всех портах megaindex.ruЗапретить входящие от 144.76.27.118, 148.251.236.167, 192.162.241.78, 192.162.241.80, 78.46.174.55 на всех портах
Адреса 194.6.233.28, 194.6.233.33 принадлежат одной организации, возможно, имеет смысл банить всю их подсеть.

Кстати, есть сайт антибот.рф, там и другие адреса можно посмотреть. Я его не рекламирую, просто он первый попался на глаза в то время.
...
Рейтинг: 0 / 0
15.05.2015, 16:41
    #38960064
autobuh
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Бот "WebIndex"
miksoftautobuh,
у меня таблица банов выглядит вот так:

Спасибо !
А в Webindex я давно уже сам как-то разбирался, проводил так сказать своё расследование.
Мои поиски привели меня в итоге в компанию http://tns-counter.ru и http://tns-global.ru
Хотя на письма они упорно не отвечали.
Тупо поставил запрет на их IP.
...
Рейтинг: 0 / 0
Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / Бот "WebIndex" / 20 сообщений из 20, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]