|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Вот это всегда работало: Код: vbnet 1. 2. 3. 4. 5.
А вот сегодня следующий фокус, вернее ошибка "Базовое соединение закрыто: Непредвиденная ошибка при передаче." Как лечить? ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 15:10 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Bujhm_C, проверить дату и время на компьютере, попробовать отключить проверку сертификата Код: c# 1.
... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 15:24 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Roman MejtesBujhm_C, проверить дату и время на компьютере, попробовать отключить проверку сертификата Код: c# 1.
Время проверил. Сертификат отключил! Не помогло. Что за фокус? Код: vbnet 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18.
... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 15:35 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Bujhm_C, а в браузере запрос выполняется? ("я не робот" не появляется?) https://prozorro.gov.ua/robots.txt User-agent: * Disallow: /*?* Disallow: /form/ Disallow: /search/ Запрос формально попадает под запрет (Disallow: /*?*). Т.е., они не хотят чтобы эти станицы парсили, как минимум они об этом заявили... Чаще всего, конечно, такие декларации остаются лишь декларациями, но всяко бывает... ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 15:40 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
LRBujhm_C, а в браузере запрос выполняется? ("я не робот" не появляется?) https://prozorro.gov.ua/robots.txt User-agent: * Disallow: /*?* Disallow: /form/ Disallow: /search/ Запрос формально попадает под запрет (Disallow: /*?*). Т.е., они не хотят чтобы эти станицы парсили, как минимум они об этом заявили... Чаще всего, конечно, такие декларации остаются лишь декларациями, но всяко бывает... В браузере выполняется на ура. Затык в чем то другом! ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 15:52 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
LRЗапрос формально попадает под запрет (Disallow: /*?*). Т.е., они не хотят чтобы эти станицы парсили, как минимум они об этом заявили... неправда, просто рекомендацмя не индексировать ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 16:09 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Bujhm_CВ браузере выполняется на ура. Затык в чем то другом! заголовки в запросе отдай такие, как у броузера ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 16:11 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Bujhm_CВ браузере выполняется на ура. Затык в чем то другом! Ну так браузер же не робот (в отличие от WebClient). С другого айпишника затыка же нет (у меня WebClient выполняет на ура). Поэтому антибота исключать рано... Попробуйте еще так Код: c# 1. 2. 3. 4. 5. 6.
... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 16:16 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
ИзопропилBujhm_CВ браузере выполняется на ура. Затык в чем то другом! заголовки в запросе отдай такие, как у броузера " https://prozorro.gov.ua/tender/search?edrpou=20915546" -это выполняется в браузере, а это не идет, ошибка Код: vbnet 1.
... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 16:20 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
ИзопропилLRЗапрос формально попадает под запрет (Disallow: /*?*). Т.е., они не хотят чтобы эти станицы парсили, как минимум они об этом заявили... неправда, просто рекомендацмя не индексировать Да, robots.txt изначально - рекомендации для поисковиков. Но, как я понял, в последнее время используется и как "антибот-декларация". К тому же, все чаще встречаются мнения типа "вместо того чтобы "запрещать" индексацию проще сделать так, чтобы робот просто не смог до нее добраться". ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 16:38 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
LRBujhm_CВ браузере выполняется на ура. Затык в чем то другом! Ну так браузер же не робот (в отличие от WebClient). С другого айпишника затыка же нет (у меня WebClient выполняет на ура). Поэтому антибота исключать рано... Попробуйте еще так Код: c# 1. 2. 3. 4. 5. 6.
То же не идет, что никак не обойти? Я боле года выполнял процедуру, никогда сбоев не было. А что сегодня за катаклизм? ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 16:39 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Bujhm_C, тогда, как Изопропил сказал - нажимаете в браузере F12 и добавляете WebClient аналогичные заголовки запроса wc.Headers.Add("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"); ...и т.д. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 16:49 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Изопропил, https://en.wikipedia.org/wiki/Internet_bot Servers may choose to outline rules on the behaviour of internet bots by implementing a robots.txt file: this file is simply text stating the rules governing a bot's behaviour on that server. Any bot interacting with (or 'spidering') any server that does not follow these rules should, in theory, be denied access to, or removed from, the affected website. https://en.wikipedia.org/wiki/Web_scraping Bots sometimes declare who they are (using user agent strings) and can be blocked on that basis using robots.txt; 'googlebot' is an example. Other bots make no distinction between themselves and a human using a browser. ... Websites can declare if crawling is allowed or not in the robots.txt file and allow partial access, limit the crawl rate, specify the optimal time to crawl and more. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 17:58 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Bujhm_C, чтобы откинуть версию с антиботом, попробуйте незапрещенную страничку var str = wc.DownloadString(" https://prozorro.gov.ua/"); хотя, если айпишник попал в черный список, могут рубить и на корню... ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 18:17 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
просто tls нужной версии ему нужен добавить Код: c# 1.
... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 18:22 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Изопропил, Да, похоже это оно. С Tls11 тоже проходит, а вот с Tls получается такая же ошибка. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 18:35 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
LRBujhm_C, чтобы откинуть версию с антиботом, попробуйте незапрещенную страничку var str = wc.DownloadString(" https://prozorro.gov.ua/"); хотя, если айпишник попал в черный список, могут рубить и на корню... 1. попробовал не запрещенную страничку var str = wc.DownloadString(" https://prozorro.gov.ua/"); - то же неудача! 2."айпишник попал в черный список"- и что, без вариантов? 3. System.Net.SecurityProtocolType.Tls12;- не проходит, только System.Net.SecurityProtocolType.Tls ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 19:30 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Bujhm_C3. System.Net.SecurityProtocolType.Tls12;- не проходит, только System.Net.SecurityProtocolType.Tls Ну вот в этом, вероятней всего, и причина. Нужен хотя бы System.Net.SecurityProtocolType.Tls11. А что значит "не проходит"? Ошибка при присваивании? ServicePointManager.SecurityProtocol = SecurityProtocolType.Tls | SecurityProtocolType.Tls11 | SecurityProtocolType.Tls12; (т.е. ServicePointManager.SecurityProtocol==SecurityProtocolType.Tls, и изменить это нельзя?) ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 19:52 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Bujhm_C, Погуглил, похоже .NET 4.0 не поддерживает Tls11/Tls12, одно решение видел - переводить проект на .NET 4.5... Есть ли другие решения, х.з. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 20:12 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
LRBujhm_C3. System.Net.SecurityProtocolType.Tls12;- не проходит, только System.Net.SecurityProtocolType.Tls Ну вот в этом, вероятней всего, и причина. Нужен хотя бы System.Net.SecurityProtocolType.Tls11. А что значит "не проходит"? Ошибка при присваивании? ServicePointManager.SecurityProtocol = SecurityProtocolType.Tls | SecurityProtocolType.Tls11 | SecurityProtocolType.Tls12; (т.е. ServicePointManager.SecurityProtocol==SecurityProtocolType.Tls, и изменить это нельзя?) Не присваивается! После точки только SecurityProtocolType.Tls или Ssl3! ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 20:13 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Bujhm_C Не присваивается! После точки только SecurityProtocolType.Tls или Ssl3! Ну, значит это .NET 4.0. Есть возможность перевести проект на .NET 4.5? ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 20:15 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
LR, Сейчас скачаю, попробую, какова вероятность, что поможет? ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 20:19 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Bujhm_C, пусть будет 95%)) но лучше спросить у Изопропила, мож есть более простое решение... ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 20:23 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
LRмож есть более простое решение... стартовать curl в отдельном процессе :] хотя это вряд ли будет проще - только при невозможности обновить фреймворк ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 21:01 |
|
Пропал парсинг web страницы
|
|||
---|---|---|---|
#18+
Помогло Код: vbnet 1.
!!! Но есть одно но... Проект собран на 10 Студии а там Framework 4. Пришлось опробовать на VS 2015 с Framework 4.5. Вот, если бы рыбку съесть.. на Framework 4? ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2018, 21:11 |
|
|
start [/forum/topic.php?fid=20&fpage=29&tid=1399286]: |
0ms |
get settings: |
9ms |
get forum list: |
12ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
39ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
57ms |
get tp. blocked users: |
1ms |
others: | 12ms |
total: | 146ms |
0 / 0 |