|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
Цель: "распарсить" сайт. А именно, нужно написать прогу, которая по запуску будет скачивать все файлы из определенного раздела по определенной дате. Основная сложность - что бы получить доступ к этим файлам, нужно пройти авторизацию (программно, судя по всему). Вопросы: как реализовать переходы по вкладкам в списке файлов (когда на странице отображается 10 из 7256892 файлов)? как настроить фильтрацию на сайте (это функционал сайта)? как пройти эту авторизацию (там множество переадресаций)? как правильно отправлять post/get запросы? пытался сам код писать, успехи есть, как и чувство что я что-то не догоняю:) Код: c# 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46.
... |
|||
:
Нравится:
Не нравится:
|
|||
18.03.2019, 14:53 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
Всё зависит от сайта, а его адрес как раз и не приведен. Если сайт SPA или что-то подобное, то, вполне возможно, гораздо проще не парсить html, а работать непосредственно с json, которым он обменивается с сервером ... |
|||
:
Нравится:
Не нравится:
|
|||
18.03.2019, 15:00 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
Shocker.Pro, ох, забыл совсем, что это внутренний портал, видимо, не для всего интернета доступный :) ... |
|||
:
Нравится:
Не нравится:
|
|||
18.03.2019, 16:53 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
bulaolen, хидеры нужно точь в точь передавать плюс в первом ответе наверняка есть токен сессии его нельзя игнорить ... |
|||
:
Нравится:
Не нравится:
|
|||
18.03.2019, 17:10 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
bulaolenShocker.Pro, ох, забыл совсем, что это внутренний портал, видимо, не для всего интернета доступный :)Тогда F12 в браузере в руки и смотри сетевой обмен ... |
|||
:
Нравится:
Не нравится:
|
|||
18.03.2019, 18:50 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
Shocker.Pro, смотрю:) при входе на страницу авторизации отправляется один get запрос, при входе один post запрос отправляется с двумя значениями и два get запроса. Кроме url и значений в post не знаю что смотреть и как использовать ... |
|||
:
Нравится:
Не нравится:
|
|||
19.03.2019, 08:57 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
нормальный API что ли недоступен? ... |
|||
:
Нравится:
Не нравится:
|
|||
19.03.2019, 09:04 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
bulaolenКроме url и значений в post не знаю что смотреть и как использоватьТело ответа смотри. Посмотри, что возвращается - html или json. Еще посмотри, какой будет обмен, когда листаешь страницы с файлами. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.03.2019, 10:17 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
Процесс примерно следующий: Захожу на стартовую страницу, где достаю ссылку на страницу авторизации Код: c# 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23.
Затем перехожу по этой ссылке, там форма (которую надо заполнить). Вот тут уже начинаются проблемки. Почему-то не уходят параметры для post запроса, непонятно что с куками происходит. Есть ощущение что происходит редирект, либо какая-то очень замысловатая дичь:) Код: c# 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45.
... |
|||
:
Нравится:
Не нравится:
|
|||
19.03.2019, 11:03 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
bulaolen, Делай код наоборот. 1. Скрин post/get сюда которай на F12. 2. На этот post/get пишем метод MyPostNumber1(входные) чтобы твой метод Один в один повторил то что на скрине. Всё. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.03.2019, 11:22 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
Shocker.Pro, и уходит и возвращается html меняются соответствующие параметры запросов заметил что кукисы появляются при прохождении авторизации ... |
|||
:
Нравится:
Не нравится:
|
|||
19.03.2019, 11:31 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
Petro123, вот что происходит при входе на страницу авторизации ... |
|||
:
Нравится:
Не нравится:
|
|||
19.03.2019, 11:41 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
Petro123, при авторизации (и последующем редиректе на главную страницу) ... |
|||
:
Нравится:
Не нравится:
|
|||
19.03.2019, 11:42 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
bulaolenавторизацииты же прошел данный уровень игры? ... |
|||
:
Нравится:
Не нравится:
|
|||
19.03.2019, 11:43 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
bulaolen, ок, то есть тонкий клиент. Тогда вопрос - зачем тебе тут HttpWebRequest? Возьми HttpClient, авторизуешься с его помощью, с куками возиться не понадобится, потому что пока у тебя есть экземпляр HttpClient-а, он авторизован. Дальше запрашиваешь нужные html-ки с нужными параметрами. Переадресацию он тоже сам отслеживает, если принудительно не запретить. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.03.2019, 12:10 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
Petro123, этот уровень я прошел, конечно-же. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.03.2019, 13:45 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
bulaolenPetro123, этот уровень я прошел, конечно-же.ОК Забудь про него.. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.03.2019, 13:47 |
|
парсер интернет ресурса на c#
|
|||
---|---|---|---|
#18+
Petro123, смотря в каком плане прошел:) если программно - то нет... ... |
|||
:
Нравится:
Не нравится:
|
|||
29.03.2019, 10:24 |
|
|
start [/forum/topic.php?fid=20&msg=39788404&tid=1399032]: |
0ms |
get settings: |
7ms |
get forum list: |
11ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
37ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
56ms |
get tp. blocked users: |
1ms |
others: | 11ms |
total: | 138ms |
0 / 0 |