|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
Хотелось бы разобраться с темой парсинга сайтов. Что я имею ввиду. Есть задумка написать приложение для android, которое бы собирало информацию о ценах, например на лекарства, и выдавало аптеку с самым дешевым. Почитал немного в инете, пишут что подобная задача относится к теме парсинга сайтов. Подскажите с чего начать, что использовать (компоненты), вообще возможно ли для android решить такую задачу? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 09:01 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
nikompвообще возможно ли для android решить такую задачу? Не с того конца подходишь. Парсить должен нормальный (мощный) компьютер, а андроид тут лишь как клиент, отображающий результаты его работы. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 10:30 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
wadman, Получается подобные задачи решаются написанием web-сервисов, например на PHP? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 11:26 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
nikompПолучается подобные задачи решаются написанием web-сервисов, например на PHP? Почти... Нужен парсер (кладет результат в базу), сервис для клиента (выдает результат из базы) и сам клиент (отображает результат от сервиса). ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 11:37 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
wadman, Парсер пишется самостоятельно или используют уже существующие для складирования данных в БД? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 12:40 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
nikompПарсер пишется самостоятельно или используют уже существующие для складирования данных в БД? А "существующие" уже есть и они удовлетворяют потребности? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 13:00 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
wadman, у меня точно нет, я интересуюсь, собираю информацию. Пока не понимаю с чего начать. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 13:22 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
nikompwadman, у меня точно нет, я интересуюсь, собираю информацию. Пока не понимаю с чего начать. Хм, берешь любой сайт со списком лекарств или выложенный прайс. Получаешь его себе на диск. Заодно узнаешь, что мощности канала на Android обычно не хватает, чтобы получать 2-4-6Мб документа. Значит, надо это дело оптимизировать. Да и вывод прайса в Excel со всеми индексами тебе тоже не нужен. Приходишь к выводу, что нужно на первом шаге вбивать название препарата, и получать цену на него. В итоге, пишешь обычную форму, куда можно вбить название и получить его цену. Затем, начинаешь повторять этот процесс до обалдения, расширяя из новых прайсов и тому подобное, а также показывая несколько цен, местоположение, заказы и так далее ))) Или тебе приложение для бизнеса надо? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 13:39 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
lmv, Хотелось бы реализовать в таком виде: На форме вбил название лекарства получил список аптек где лекарство продается и в списке подсветилась аптека с наименьшей ценой. Аптеки желательно брать из указанного города. Может вы и права не стоит формировать у себя БД со всеми лекарствами, а на искать информацию только по указанному лекартсву. Куда в этом случае копать? Как из Androida послать запрос в Сеть на поиск нужного наименования, получить ответ, и распарсить его? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 15:52 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
В общем для парсописателей - для того чтобы сайты не парсили и не воровали инфу вэб программисты делают специальный алгоритм, который меняет структуру сайта в зависисмости от времени. Вот написал ты парсер, привязав поиск нужной инфы к идентификатору или классу элемента, а тут бац и поменялись эти имена со следующего месяца и будешь переписывать свой парсер ежемесячно, а то и чаще. И еще - уважающие себя вэб программисты формируют страничку при помощи java script - т.е. если ты спарсишь саму страничку *.html - то там никакой информации не будет, т.к. наполняется она через java script - т.е. тебе полюбому нужно открывать страничку в объекте вэб браузера и уже там выбирать нужные элементы, а это трафик+ а скорость-. Чтобы понять о чем это я попробуй написать парсер для http://rp5.ru Вот и подумай - а оно тебе надо? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 17:17 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
Микола ПитерскийЧтобы понять о чем это я попробуй написать парсер для http://rp5.ru Вот и подумай - а оно тебе надо? для многих других вещей это работает. не все парятся с тем, что их кто-то парсит. да, время от времени это будет ломаться, но дизайн не каждый день меняют, и желающих модифицировать свои css-классы каждый день тоже не много. иные парсеры годами работают. а когда альтернативы просто нет, так и вообще не о чем говорить. как учебная задача определенно годится, но то, что ТС ленится оторвать зад от стула и нагуглить ответы самому - удручает. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 17:24 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
Микола ПитерскийЧтобы понять о чем это я попробуй написать парсер для http://rp5.ru и что там такого? post-запросы, всё видно а ещё есть мобильная версия ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 18:02 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
chpashaдля многих других вещей это работает. не все парятся с тем, что их кто-то парсит. да, время от времени это будет ломаться, но дизайн не каждый день меняют, и желающих модифицировать свои css-классы каждый день тоже не много . Так модифицировать и не нужно - просто программно делается что сервак отдает страничку н-р по четным месяцам с одними идентификационными данными, по нечетным с другими, также и с глубиной вложенности - увеличиваем и уменьшаем и все парсеры идут лесом периодически. Правда заморачиваться с этим мало кто хочет - но нарваться на такое можно запросто. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 22:56 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
tip78Микола ПитерскийЧтобы понять о чем это я попробуй написать парсер для http://rp5.ru и что там такого? post-запросы, всё видно а ещё есть мобильная версия А то что по POST запросам ты из своего приложения не сможешь ничего получить из их сервера, т.к. проверяется откуда пришел этот запрос и если не из их странички на сервере - то тебе отправляют билиберду с данными не соответствующими действительности. Покрайней мере 5 лет назад у них было именно так. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.03.2016, 23:03 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
Микола ПитерскийВ общем для парсописателей - для того чтобы сайты не парсили и не воровали инфу вэб программисты делают специальный алгоритм, который меняет структуру сайта в зависисмости от времени. Вот написал ты парсер, привязав поиск нужной инфы к идентификатору или классу элемента, а тут бац и поменялись эти имена со следующего месяца и будешь переписывать свой парсер ежемесячно, а то и чаще. И еще - уважающие себя вэб программисты формируют страничку при помощи java script - т.е. если ты спарсишь саму страничку *.html - то там никакой информации не будет, т.к. наполняется она через java script - т.е. тебе полюбому нужно открывать страничку в объекте вэб браузера и уже там выбирать нужные элементы, а это трафик+ а скорость-. Чтобы понять о чем это я попробуй написать парсер для http://rp5.ru Вот и подумай - а оно тебе надо? так когда формируют страницку js это еще проще, можно просто вытягивать сырые данные и парсить html не нужно ) ... |
|||
:
Нравится:
Не нравится:
|
|||
22.03.2016, 12:48 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
Микола ПитерскийА то что по POST запросам ты из своего приложения не сможешь ничего получить из их сервера, т.к. проверяется откуда пришел этот запрос и если не из их странички на сервере - то тебе отправляют билиберду с данными не соответствующими действительности. Покрайней мере 5 лет назад у них было именно так. ну чаще можно обмануть хотя я столкнулся с одной страницей, где не прокатило. а дальше разбираться было лень. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.03.2016, 12:49 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
Микола Питерскийtip78пропущено... и что там такого? post-запросы, всё видно а ещё есть мобильная версия А то что по POST запросам ты из своего приложения не сможешь ничего получить из их сервера, т.к. проверяется откуда пришел этот запрос и если не из их странички на сервере - то тебе отправляют билиберду с данными не соответствующими действительности. Покрайней мере 5 лет назад у них было именно так. ну ах*еть теперь а что Referer отменили? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.03.2016, 15:52 |
|
Парсинг сайтов
|
|||
---|---|---|---|
#18+
tip78ну ах*еть теперь а что Referer отменили? Так это еще надо знать как формировать заголовок страницы запроса, а топикпостеру до этого еще лет 5 пешком. Я просто его про подводные камни парсинга предупредил - а дальше его дело. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.03.2016, 17:22 |
|
|
start [/forum/topic.php?fid=13&fpage=13&tid=1331141]: |
0ms |
get settings: |
11ms |
get forum list: |
16ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
32ms |
get topic data: |
14ms |
get forum data: |
3ms |
get page messages: |
54ms |
get tp. blocked users: |
2ms |
others: | 262ms |
total: | 402ms |
0 / 0 |