|
|
|
Как написать парсер на java для интернет магазина
|
|||
|---|---|---|---|
|
#18+
Получил тестовое задание написать парсер для интернет магазина, чтобы через поле поиска задать интересующий товар и на выходе получить xml файл со списком товара и его полями. Парсер должен имитировать человеческое поведение дабы не нарваться на бот-защиту. Сам я начинающий и ничего подобного пока что не делал. Может, кто подскажет алгортим действий (с библиотеками) или даст ссылку на подобную задачу, где бы детально все объяснялось? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.12.2017, 17:35 |
|
||
|
Как написать парсер на java для интернет магазина
|
|||
|---|---|---|---|
|
#18+
Ща придёт партизан и объявит что слова "парсер" в русском языке нет. Оптимальный вариант работы с сайтами в таком ключе это Selenium. Но если нужно данные вытягивать массировано и быстро, то, вероятно, придётся писать на более низком уровне работы с HTTP и HTML. Вполне вероятно, что вам нужен web crawler , а не "парсер" ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.12.2017, 17:39 |
|
||
|
Как написать парсер на java для интернет магазина
|
|||
|---|---|---|---|
|
#18+
можно SWT браузер использовать ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.12.2017, 21:17 |
|
||
|
Как написать парсер на java для интернет магазина
|
|||
|---|---|---|---|
|
#18+
А ты уверен, что это работодатель, а задание действительно "тестовое"? Уж очень странно выглядит, для ТЗ при приеме на работу. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.12.2017, 21:22 |
|
||
|
Как написать парсер на java для интернет магазина
|
|||
|---|---|---|---|
|
#18+
BlazkowiczЩа придёт партизан и объявит что слова "парсер" в русском языке нет. Чет заболел что ли он :-) уж больно долго отсуствует ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.12.2017, 22:38 |
|
||
|
Как написать парсер на java для интернет магазина
|
|||
|---|---|---|---|
|
#18+
vlad2018Получил тестовое задание написать парсер для интернет магазина, чтобы через поле поиска задать интересующий товар и на выходе получить xml файл со списком товара и его полями. Парсер должен имитировать человеческое поведение дабы не нарваться на бот-защиту. Сам я начинающий и ничего подобного пока что не делал. Может, кто подскажет алгортим действий (с библиотеками) или даст ссылку на подобную задачу, где бы детально все объяснялось? Обычно такие задачки дают не джавистам а питонщикам. Python как-то более органично вписывается в мир краулеров и индексаторов веб-содержимого. Честно я ума не приложу как писать подобную задачу. Но в состав ее библиотек должны входить: - http-клиент. Подойдет любой. - HTML-парсер (jsoup например. я его не юзал но по рейтингам mvnrepository достаточно популярен) - Xml-сериализатор (подойдет встроенный в Jdk) По поводу человеческого поведения. Тут - непонятно. Возможно надо делать вдумчивые паузы между кликами. Но если защита сработала то обход ее будет стоить еще раз 10 в 100 дороже с точки зрения разработки чем то что было описано выше. Задача усложняется многократно. По поводу ограничений на собственно сайт или магазин. Ушло время когда был голый HTML. Современный магазин это часто Angular/GWT приложение. По сути большой-JavaScript клиент который моделирует UI и обращается по прикладным протоколам к серверной части. Как его парсить - непонятно. Парсинга как такового нет. Есть эмуляция приложения. Вобщем задача в общей постановке на мильен багсов и лучше заранее уточнить что тестовое задание будет сделано для тривиального магазина где всё деревянно и тупо. Вобщем it depends... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.12.2017, 22:46 |
|
||
|
Как написать парсер на java для интернет магазина
|
|||
|---|---|---|---|
|
#18+
maytonvlad2018Получил тестовое задание написать парсер для интернет магазина, чтобы через поле поиска задать интересующий товар и на выходе получить xml файл со списком товара и его полями. Парсер должен имитировать человеческое поведение дабы не нарваться на бот-защиту. Сам я начинающий и ничего подобного пока что не делал. Может, кто подскажет алгортим действий (с библиотеками) или даст ссылку на подобную задачу, где бы детально все объяснялось? Обычно такие задачки дают не джавистам а питонщикам. Python как-то более органично вписывается в мир краулеров и индексаторов веб-содержимого. Честно я ума не приложу как писать подобную задачу. Но в состав ее библиотек должны входить: - http-клиент. Подойдет любой. - HTML-парсер (jsoup например. я его не юзал но по рейтингам mvnrepository достаточно популярен) - Xml-сериализатор (подойдет встроенный в Jdk) По поводу человеческого поведения. Тут - непонятно. Возможно надо делать вдумчивые паузы между кликами. Но если защита сработала то обход ее будет стоить еще раз 10 в 100 дороже с точки зрения разработки чем то что было описано выше. Задача усложняется многократно. По поводу ограничений на собственно сайт или магазин. Ушло время когда был голый HTML. Современный магазин это часто Angular/GWT приложение. По сути большой-JavaScript клиент который моделирует UI и обращается по прикладным протоколам к серверной части. Как его парсить - непонятно. Парсинга как такового нет. Есть эмуляция приложения. Вобщем задача в общей постановке на мильен багсов и лучше заранее уточнить что тестовое задание будет сделано для тривиального магазина где всё деревянно и тупо. Вобщем it depends... Эта задача на позицию джуна ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.12.2017, 12:46 |
|
||
|
Как написать парсер на java для интернет магазина
|
|||
|---|---|---|---|
|
#18+
ну что вы ж так сразу то на ТС набросились. может там инетмагаз на голом хтмле написан. такой и распарсить можно. какой-нибудь специальный чтоб тз давать его распаршивать. хотя странное требование для работодателя. значит проект на три копейки каким-нибудь таким же доширакерам предназначенный. и делают дошираки и платить будут дошираками. ИМХО таких сторониться надо и вообще не заморачиваться выполнением таких стрёмных тз. они б еще страницу сверстать попросили. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.12.2017, 23:02 |
|
||
|
|

start [/forum/topic.php?fid=59&gotonew=1&tid=2122379]: |
0ms |
get settings: |
11ms |
get forum list: |
11ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
148ms |
get topic data: |
12ms |
get first new msg: |
8ms |
get forum data: |
3ms |
get page messages: |
50ms |
get tp. blocked users: |
1ms |
| others: | 230ms |
| total: | 480ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...