Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Java [игнор отключен] [закрыт для гостей] / Самый быстрый html парсер / 3 сообщений из 3, страница 1 из 1
27.03.2015, 15:20
    #38919195
denis111111
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Самый быстрый html парсер
Добрый день всем
Стоит задача парсить несколько десятков сайтов (на каждом сайте очень много страниц)
Есть некие временные рамки в которые мне нужно вложится при парсенге. Тож нужен самый шустрый html парсер:
- быстро парсит
- извлекает только то, что нужно из страницы, остальное в память не грузит (как SAX- парсер)
- коннект на сайт делается только раз, потом надсылаются только http запросы (по аналогии как с java Sockets)

В сети говорят то что хорошые парсеры это Jsoup и Jaunt
Но в меня такое подозрение что они сразу парсят весь документ (как DOM-парсер), а не то что мне нужно.
...
Рейтинг: 0 / 0
27.03.2015, 15:37
    #38919220
Alexey Tomin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Самый быстрый html парсер
denis111111Добрый день всем
Стоит задача парсить несколько десятков сайтов (на каждом сайте очень много страниц)
Есть некие временные рамки в которые мне нужно вложится при парсенге. Тож нужен самый шустрый html парсер:
- быстро парсит
- извлекает только то, что нужно из страницы, остальное в память не грузит (как SAX- парсер)
- коннект на сайт делается только раз, потом надсылаются только http запросы (по аналогии как с java Sockets)

В сети говорят то что хорошые парсеры это Jsoup и Jaunt
Но в меня такое подозрение что они сразу парсят весь документ (как DOM-парсер), а не то что мне нужно.

Сначала надо убедиться, что именно парсинг будет проблемой, а не сетевой запрос.
А потом уже переходить с удобного DOM на потоковый (или как его правильно).
Jsoup позволяет грузить очень большие сайты (с миллионами страниц) и не быть узким местом.
...
Рейтинг: 0 / 0
27.03.2015, 15:47
    #38919243
denis111111
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Самый быстрый html парсер
Alexey Tomin,

Спасибо за ответ.
Буду смотреть Jsoup.
Alexey TominСначала надо убедиться, что именно парсинг будет проблемой, а не сетевой запрос.
Это тоже)
Alexey TominА потом уже переходить с удобного DOM на потоковый (или как его правильно).
Но есть ли такие готовые парсеры?
...
Рейтинг: 0 / 0
Форумы / Java [игнор отключен] [закрыт для гостей] / Самый быстрый html парсер / 3 сообщений из 3, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]