powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Java [игнор отключен] [закрыт для гостей] / Как написать парсер на java для интернет магазина
8 сообщений из 8, страница 1 из 1
Как написать парсер на java для интернет магазина
    #39573895
vlad2018
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Получил тестовое задание написать парсер для интернет магазина, чтобы через поле поиска задать интересующий товар и на выходе получить xml файл со списком товара и его полями. Парсер должен имитировать человеческое поведение дабы не нарваться на бот-защиту.

Сам я начинающий и ничего подобного пока что не делал. Может, кто подскажет алгортим действий (с библиотеками) или даст ссылку на подобную задачу, где бы детально все объяснялось?
...
Рейтинг: 0 / 0
Как написать парсер на java для интернет магазина
    #39573901
Фотография Blazkowicz
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ща придёт партизан и объявит что слова "парсер" в русском языке нет.
Оптимальный вариант работы с сайтами в таком ключе это Selenium.
Но если нужно данные вытягивать массировано и быстро, то, вероятно, придётся писать на более низком уровне работы с HTTP и HTML.
Вполне вероятно, что вам нужен web crawler , а не "парсер"
...
Рейтинг: 0 / 0
Как написать парсер на java для интернет магазина
    #39574050
Фотография Герой дня
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
можно SWT браузер использовать
...
Рейтинг: 0 / 0
Как написать парсер на java для интернет магазина
    #39574051
Фотография Hett
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А ты уверен, что это работодатель, а задание действительно "тестовое"?
Уж очень странно выглядит, для ТЗ при приеме на работу.
...
Рейтинг: 0 / 0
Как написать парсер на java для интернет магазина
    #39574085
lleming
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BlazkowiczЩа придёт партизан и объявит что слова "парсер" в русском языке нет.

Чет заболел что ли он :-) уж больно долго отсуствует
...
Рейтинг: 0 / 0
Как написать парсер на java для интернет магазина
    #39574088
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
vlad2018Получил тестовое задание написать парсер для интернет магазина, чтобы через поле поиска задать интересующий товар и на выходе получить xml файл со списком товара и его полями. Парсер должен имитировать человеческое поведение дабы не нарваться на бот-защиту.

Сам я начинающий и ничего подобного пока что не делал. Может, кто подскажет алгортим действий (с библиотеками) или даст ссылку на подобную задачу, где бы детально все объяснялось?
Обычно такие задачки дают не джавистам а питонщикам. Python как-то более органично
вписывается в мир краулеров и индексаторов веб-содержимого.

Честно я ума не приложу как писать подобную задачу. Но в состав ее библиотек должны входить:
- http-клиент. Подойдет любой.
- HTML-парсер (jsoup например. я его не юзал но по рейтингам mvnrepository достаточно популярен)
- Xml-сериализатор (подойдет встроенный в Jdk)

По поводу человеческого поведения. Тут - непонятно. Возможно надо делать вдумчивые паузы между кликами.
Но если защита сработала то обход ее будет стоить еще раз 10 в 100 дороже с точки зрения разработки
чем то что было описано выше. Задача усложняется многократно.

По поводу ограничений на собственно сайт или магазин. Ушло время когда был голый HTML. Современный
магазин это часто Angular/GWT приложение. По сути большой-JavaScript клиент который моделирует
UI и обращается по прикладным протоколам к серверной части. Как его парсить - непонятно.
Парсинга как такового нет. Есть эмуляция приложения.

Вобщем задача в общей постановке на мильен багсов и лучше заранее уточнить что тестовое задание
будет сделано для тривиального магазина где всё деревянно и тупо. Вобщем it depends...
...
Рейтинг: 0 / 0
Как написать парсер на java для интернет магазина
    #39574380
vlad2018
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
maytonvlad2018Получил тестовое задание написать парсер для интернет магазина, чтобы через поле поиска задать интересующий товар и на выходе получить xml файл со списком товара и его полями. Парсер должен имитировать человеческое поведение дабы не нарваться на бот-защиту.

Сам я начинающий и ничего подобного пока что не делал. Может, кто подскажет алгортим действий (с библиотеками) или даст ссылку на подобную задачу, где бы детально все объяснялось?
Обычно такие задачки дают не джавистам а питонщикам. Python как-то более органично
вписывается в мир краулеров и индексаторов веб-содержимого.

Честно я ума не приложу как писать подобную задачу. Но в состав ее библиотек должны входить:
- http-клиент. Подойдет любой.
- HTML-парсер (jsoup например. я его не юзал но по рейтингам mvnrepository достаточно популярен)
- Xml-сериализатор (подойдет встроенный в Jdk)

По поводу человеческого поведения. Тут - непонятно. Возможно надо делать вдумчивые паузы между кликами.
Но если защита сработала то обход ее будет стоить еще раз 10 в 100 дороже с точки зрения разработки
чем то что было описано выше. Задача усложняется многократно.

По поводу ограничений на собственно сайт или магазин. Ушло время когда был голый HTML. Современный
магазин это часто Angular/GWT приложение. По сути большой-JavaScript клиент который моделирует
UI и обращается по прикладным протоколам к серверной части. Как его парсить - непонятно.
Парсинга как такового нет. Есть эмуляция приложения.

Вобщем задача в общей постановке на мильен багсов и лучше заранее уточнить что тестовое задание
будет сделано для тривиального магазина где всё деревянно и тупо. Вобщем it depends...
Эта задача на позицию джуна
...
Рейтинг: 0 / 0
Как написать парсер на java для интернет магазина
    #39574714
andreykaT
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ну что вы ж так сразу то на ТС набросились. может там инетмагаз на голом хтмле написан. такой и распарсить можно. какой-нибудь специальный чтоб тз давать его распаршивать.

хотя странное требование для работодателя. значит проект на три копейки каким-нибудь таким же доширакерам предназначенный. и делают дошираки и платить будут дошираками. ИМХО таких сторониться надо и вообще не заморачиваться выполнением таких стрёмных тз. они б еще страницу сверстать попросили.
...
Рейтинг: 0 / 0
8 сообщений из 8, страница 1 из 1
Форумы / Java [игнор отключен] [закрыт для гостей] / Как написать парсер на java для интернет магазина
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]