Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Java [игнор отключен] [закрыт для гостей] / Как написать парсер на java для интернет магазина / 8 сообщений из 8, страница 1 из 1
21.12.2017, 17:35
    #39573895
vlad2018
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как написать парсер на java для интернет магазина
Получил тестовое задание написать парсер для интернет магазина, чтобы через поле поиска задать интересующий товар и на выходе получить xml файл со списком товара и его полями. Парсер должен имитировать человеческое поведение дабы не нарваться на бот-защиту.

Сам я начинающий и ничего подобного пока что не делал. Может, кто подскажет алгортим действий (с библиотеками) или даст ссылку на подобную задачу, где бы детально все объяснялось?
...
Рейтинг: 0 / 0
21.12.2017, 17:39
    #39573901
Blazkowicz
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как написать парсер на java для интернет магазина
Ща придёт партизан и объявит что слова "парсер" в русском языке нет.
Оптимальный вариант работы с сайтами в таком ключе это Selenium.
Но если нужно данные вытягивать массировано и быстро, то, вероятно, придётся писать на более низком уровне работы с HTTP и HTML.
Вполне вероятно, что вам нужен web crawler , а не "парсер"
...
Рейтинг: 0 / 0
21.12.2017, 21:17
    #39574050
Герой дня
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как написать парсер на java для интернет магазина
можно SWT браузер использовать
...
Рейтинг: 0 / 0
21.12.2017, 21:22
    #39574051
Hett
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как написать парсер на java для интернет магазина
А ты уверен, что это работодатель, а задание действительно "тестовое"?
Уж очень странно выглядит, для ТЗ при приеме на работу.
...
Рейтинг: 0 / 0
21.12.2017, 22:38
    #39574085
lleming
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как написать парсер на java для интернет магазина
BlazkowiczЩа придёт партизан и объявит что слова "парсер" в русском языке нет.

Чет заболел что ли он :-) уж больно долго отсуствует
...
Рейтинг: 0 / 0
21.12.2017, 22:46
    #39574088
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как написать парсер на java для интернет магазина
vlad2018Получил тестовое задание написать парсер для интернет магазина, чтобы через поле поиска задать интересующий товар и на выходе получить xml файл со списком товара и его полями. Парсер должен имитировать человеческое поведение дабы не нарваться на бот-защиту.

Сам я начинающий и ничего подобного пока что не делал. Может, кто подскажет алгортим действий (с библиотеками) или даст ссылку на подобную задачу, где бы детально все объяснялось?
Обычно такие задачки дают не джавистам а питонщикам. Python как-то более органично
вписывается в мир краулеров и индексаторов веб-содержимого.

Честно я ума не приложу как писать подобную задачу. Но в состав ее библиотек должны входить:
- http-клиент. Подойдет любой.
- HTML-парсер (jsoup например. я его не юзал но по рейтингам mvnrepository достаточно популярен)
- Xml-сериализатор (подойдет встроенный в Jdk)

По поводу человеческого поведения. Тут - непонятно. Возможно надо делать вдумчивые паузы между кликами.
Но если защита сработала то обход ее будет стоить еще раз 10 в 100 дороже с точки зрения разработки
чем то что было описано выше. Задача усложняется многократно.

По поводу ограничений на собственно сайт или магазин. Ушло время когда был голый HTML. Современный
магазин это часто Angular/GWT приложение. По сути большой-JavaScript клиент который моделирует
UI и обращается по прикладным протоколам к серверной части. Как его парсить - непонятно.
Парсинга как такового нет. Есть эмуляция приложения.

Вобщем задача в общей постановке на мильен багсов и лучше заранее уточнить что тестовое задание
будет сделано для тривиального магазина где всё деревянно и тупо. Вобщем it depends...
...
Рейтинг: 0 / 0
22.12.2017, 12:46
    #39574380
vlad2018
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как написать парсер на java для интернет магазина
maytonvlad2018Получил тестовое задание написать парсер для интернет магазина, чтобы через поле поиска задать интересующий товар и на выходе получить xml файл со списком товара и его полями. Парсер должен имитировать человеческое поведение дабы не нарваться на бот-защиту.

Сам я начинающий и ничего подобного пока что не делал. Может, кто подскажет алгортим действий (с библиотеками) или даст ссылку на подобную задачу, где бы детально все объяснялось?
Обычно такие задачки дают не джавистам а питонщикам. Python как-то более органично
вписывается в мир краулеров и индексаторов веб-содержимого.

Честно я ума не приложу как писать подобную задачу. Но в состав ее библиотек должны входить:
- http-клиент. Подойдет любой.
- HTML-парсер (jsoup например. я его не юзал но по рейтингам mvnrepository достаточно популярен)
- Xml-сериализатор (подойдет встроенный в Jdk)

По поводу человеческого поведения. Тут - непонятно. Возможно надо делать вдумчивые паузы между кликами.
Но если защита сработала то обход ее будет стоить еще раз 10 в 100 дороже с точки зрения разработки
чем то что было описано выше. Задача усложняется многократно.

По поводу ограничений на собственно сайт или магазин. Ушло время когда был голый HTML. Современный
магазин это часто Angular/GWT приложение. По сути большой-JavaScript клиент который моделирует
UI и обращается по прикладным протоколам к серверной части. Как его парсить - непонятно.
Парсинга как такового нет. Есть эмуляция приложения.

Вобщем задача в общей постановке на мильен багсов и лучше заранее уточнить что тестовое задание
будет сделано для тривиального магазина где всё деревянно и тупо. Вобщем it depends...
Эта задача на позицию джуна
...
Рейтинг: 0 / 0
22.12.2017, 23:02
    #39574714
andreykaT
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Как написать парсер на java для интернет магазина
ну что вы ж так сразу то на ТС набросились. может там инетмагаз на голом хтмле написан. такой и распарсить можно. какой-нибудь специальный чтоб тз давать его распаршивать.

хотя странное требование для работодателя. значит проект на три копейки каким-нибудь таким же доширакерам предназначенный. и делают дошираки и платить будут дошираками. ИМХО таких сторониться надо и вообще не заморачиваться выполнением таких стрёмных тз. они б еще страницу сверстать попросили.
...
Рейтинг: 0 / 0
Форумы / Java [игнор отключен] [закрыт для гостей] / Как написать парсер на java для интернет магазина / 8 сообщений из 8, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]