powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Java [игнор отключен] [закрыт для гостей] / Делаю парсер форума на phpbb, проблемы с логином
3 сообщений из 3, страница 1 из 1
Делаю парсер форума на phpbb, проблемы с логином
    #39063858
Никанор Кузьмич
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Начал недавно изучать джаву. Сейчас хочу сделать парсер форума на phpbb (для себя нужно). Есть две проблемы:
1) стандартный парсер xml ругается на строчки вида
Код: html
1.
<script type="text/javascript" async src="http://..."></script>

ему не нравится слово async.
Эту проблему я решил использованием пакета jsoup.
Дальше появилась вторая. Надо зайти в закрытый раздел форума, то есть сначала надо залогиниться. В интернете полно примеров (все более-менее одинаковые), взял первый попавшийся (для пакета jsoup, естественно). Коннект:
Код: java
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Response res;
try {
	res = Jsoup
	    .connect("http://website.com")
	    .data("username", "user")
	    .data("password", "qwerty")
	    .data("autologin", "on")
	    .data("redirect", "index.php")
	    .method(Method.POST)
	    .execute();

	cookies = res.cookies();

Тут все ок, какие-то куки сохраняются, где-то в дебрях объекта res виден статус http 200, то есть вроде как все нормально. Но при этом сервер редиректит меня опять на страницу логина почему-то.

Дальше делаю запрос страницы из закрытого раздела:
Код: java
1.
org.jsoup.nodes.Document doc = Jsoup.connect("website.com/page1.html").cookies(cookies).get();

И получаю страницу с сообщением, что для просмотра страницы надо залогиниться. При заходе с этим логином через браузер я все вижу. Куда смотреть в этой ситуации?
...
Рейтинг: 0 / 0
Делаю парсер форума на phpbb, проблемы с логином
    #39063872
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Никанор Кузьмич,

1) HTML это не XML.
2) jsoup таки больше парсер, чем HTTP клиент.

Никанор Кузьмич Куда смотреть в этой ситуации?
Включить trace HTTP запросов и откликов и сравнить с аналогичными из браузера. Например, помимо cookies, возможно, не хватает каких-нибудь заголовков.

Посмотрите Selenium, в качестве клиента, возможно, окажется удобнее. Залогиниться им, выдрать контент, а потом парсить из jsoup.
...
Рейтинг: 0 / 0
Делаю парсер форума на phpbb, проблемы с логином
    #39063930
Никанор Кузьмич
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BlazkowiczПосмотрите Selenium, в качестве клиента, возможно, окажется удобнее. Залогиниться им, выдрать контент, а потом парсить из jsoup.О, интересная идея. Я Selenium видел только краем глаза, плагин для Firefox. Как это лучше сделать? Плагином страницы на диск сохранять? Или вы имели ввиду Selenium Webdriver?
...
Рейтинг: 0 / 0
3 сообщений из 3, страница 1 из 1
Форумы / Java [игнор отключен] [закрыт для гостей] / Делаю парсер форума на phpbb, проблемы с логином
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]