|
|
|
Будут ли обнаружены интернет-ресурсы?
|
|||
|---|---|---|---|
|
#18+
Уважаемые коллеги, приветствую! Небольшой вопрос, если можно. Тут у нас с коллегами спор возник. Сразу скажу, что спор чисто академический, так что задавать вопросы типа «А зачем тебе это надо?», видимо, не имеет особого смысла. Вопрос вот какой. Будут ли обнаружены такие вот интернет-ресурсы – поисковыми серверами или народом? С какой вероятностью и за какое примерно время? Или никогда не будут обнаружены? Ситуация первая. Допустим, я создаю некий интернет-сайт чисто для личного пользования – ну типа личного справочника или личной записной книжки, которой можно пользоваться из любой точки мира, имея там выход в интернет. На этом сайте имеется, как и положено, файл index.html, а также другие файлы, ссылки на которые установлены из файла index.html – либо напрямую, либо транзитом через другие файлы, находящиеся здесь же. В общем, с технической точки зрения – обычный интернет-сайтик, ничем не примечательный. Ну поскольку инфа на нём личная и вряд ли кому-то интересная, кроме как его автору, то и нет смысла его где-то регистрировать, указывать ссылки на него, а уж тем более рекламировать, раскручивать. Вместе с тем, ко всем файлам сайта имеется свободный доступ на чтение – ну поскольку ничего секретного там нет. В общем, с технической точки зрения – ничем не примечательный интернет-сайтик, а с точки зрения известности (точнее, отсутствия таковой) – принцип такой, что «не скрывать и не рекламировать». Но этот сайт (на всех или почти всех страницах) содержит некие ключевые слова, которые крайне редко встречаются где-то в другом месте. И вот вопрос: а будет ли этот сайт когда-нибудь обнаружен или нет – ну поисковыми серверами или народом? Конечно, будь на него ссылки откуда-то из других мест – рано или поздно сайт обнаруживался бы поиском в поисковых серверах по ключевым словам. Но ведь никто не знает (и поисковые серверы тоже), что существует сайт с таким названием. На сайт не составляет труда зайти вручную, набрав его имя в адресной строке браузера. Но это при условии, если знаешь это самое имя (ну или IP-адрес). Но ведь никто не подозревает, что такое имя есть. Все подряд имена перебирать – каторжный труд, даже автоматом, а уж тем более вручную. И главное – зачем?.. Если, допустим, ошибиться в написании другого имени и попасть именно сюда по ошибке – также вероятность крайне мала. Так этот сайт вообще будет когда-нибудь обнаружен или нет – народом, поисковыми серверами? Через какое примерно время или с какой долей вероятности? Ситуация вторая. Допустим, у меня есть некий интернет-сайт. Сайт пользуется некоторой (ну пусть умеренной) популярностью, ссылки на него установлены на других сайтах; найти его поисковым сервером тоже, очевидно, не составляет труда. На этом сайте имеется, как и положено, файл index.html и другие HTML-файлы, ссылки на которые установлены из файла index.html – либо напрямую, либо транзитом через другие HTML-файлы, находящиеся здесь же. В общем, всё как обычно. И на этом же сайте имеется некоторое количество «висячих» HTML-файлов (ну допустим, с некоей несекретной служебной информацией), ссылок на которые нигде нет. Файлы открыты для чтения, как обычно. Попасть на эти «висячие» страницы в принципе не составляет труда, набрав в адресной строке браузера название сайта и через косую черту имя файла, как обычно. Но это при условии, если знаешь это самое имя файла. А вот пользуясь ссылками, на них никак не выйдешь, поскольку ссылок на эти файлы нигде нет (хотя они и открыты для чтения). Опять же, будут или нет когда-нибудь обнаружены такие «скрытые» (или «висячие») HTML-файлы – поисковыми серверами или народом? Опять же, перебирать все подряд имена файлов – каторжный труд, даже автоматом, а уж тем более вручную. И, главное – народ ведь не подозревает, что на этом сайте есть какие-то файлы, на которые не установлены ссылки из корня сайта (или ещё откуда-то), так что вряд ли кто-то будет заниматься такой ерундой, как перебор имён файлов в поисках «висячих» файлов. И опять же, допустим, попасть сюда случайно, просто допустив ошибку в названии файла при его наборе с намерением попасть куда-то в другое место – вероятность крайне мала. Так эти «висячие» (без ссылок на них) HTML-файлы будут когда-нибудь обнаружены или нет – народом, поисковыми серверами? Через какое примерно время или какова вероятность их обнаружения? (Извиняюсь за витиеватость изложения – есть у меня такой грешок...) Спасибо за ответы! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.11.2012, 00:23 |
|
||
|
Будут ли обнаружены интернет-ресурсы?
|
|||
|---|---|---|---|
|
#18+
... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.11.2012, 00:29 |
|
||
|
Будут ли обнаружены интернет-ресурсы?
|
|||
|---|---|---|---|
|
#18+
блин, "порвало" http://robotstxt.org.ru/rurobots/yandex • Bond, James Bond (version 0.07) — робот, заходящий на сайты из подсети Яндекса. Официально никогда не упоминался. Ходит выборочно по страницам. Referer не передает. Картинки не загружает. Судя по повадкам, робот занимается проверкой сайтов на нарушения – клоакинг и пр. извините за офтоп ) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.11.2012, 00:45 |
|
||
|
Будут ли обнаружены интернет-ресурсы?
|
|||
|---|---|---|---|
|
#18+
1. В тот же день, как откроется ресурс. Не знаю, как они это делают, возможно, перебором IP-шников, но логгер всегда показывает, что 2-3 поисковых системы засылают тут же. Возможно это из-за того, что при регистрации доменного имени (DNS) эта информация становится публичной и роботы просто периодически опрашивают, но попадают, само собой, при деплое. Поэтому ответ: тут же, со 100%-ной вероятностью. 2. "Я вам не скажу за всю Одессу", но в Java в папке деплоя всегда есть папка WEB-INF, до которой доступиться может только система, обычно там хранятся все классы, библиотеки, настройки и ... странички (jsp и подгружаемые в них). Также туда можно поместить все, что должно быть скрыто от посторонних глаз. Таким образом, можно отдавать страницы только зарегестрированным пользователям и скрывать от прямого чтения. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.11.2012, 00:47 |
|
||
|
Будут ли обнаружены интернет-ресурсы?
|
|||
|---|---|---|---|
|
#18+
Сергей Силкин, 1. Замечал, что новые домены, без внешних ссылок и регистрации в Яндекс, все равно в течение месяца начинают индексироваться Яндексом (может регистратор сообщает инфу), поэтому давно делаю новые сайты сначала на тестовом домене, а по готовности регистрирую новый домен и переношу сайт на него. Разумеется, если вероятность потери доменного имени за время разработки сайта высока, то регистрирую домен и создаю одну главную страницу с тематическим контентом. 2. Думаю, без ссылок, без информации в robots.txt и sitemap.xml, без установленной Яндекс-метрики или google-analytics, без поисковых панелей в браузерах, внутренние страницы сайта никогда не будут обнаружены поисковиками. Но это маловероятно, рано или поздно большинство URL будут "пощупаны" роботами. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.11.2012, 00:47 |
|
||
|
Будут ли обнаружены интернет-ресурсы?
|
|||
|---|---|---|---|
|
#18+
aswsНо это маловероятно, рано или поздно большинство URL будут "пощупаны" роботами.Никогда не будут. Разве что брутфорсом по словарю, но GUID решает этот вопрос. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.11.2012, 01:25 |
|
||
|
Будут ли обнаружены интернет-ресурсы?
|
|||
|---|---|---|---|
|
#18+
Думаю, что и да, и нет. Угадать точно робот не угадает - зачем? - Нет прямых линков из цепочки, следующей от корня, искать не будет. Тут другое - стоит хоть один раз запросить страницу, этот линк останется в кешах всех корреспондирующих серверов, следовательно, может достаться (и таки достанется) поисковикам, хотя за них это делают провайдеры, продавая базы. Тут спасение - динамические линки. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.11.2012, 02:28 |
|
||
|
|

start [/forum/topic.php?fid=22&fpage=150&tid=1449106]: |
0ms |
get settings: |
8ms |
get forum list: |
14ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
52ms |
get topic data: |
7ms |
get forum data: |
2ms |
get page messages: |
35ms |
get tp. blocked users: |
1ms |
| others: | 211ms |
| total: | 334ms |

| 0 / 0 |
