Гость
Форумы / Android [игнор отключен] [закрыт для гостей] / Парсинг сайтов / 18 сообщений из 18, страница 1 из 1
21.03.2016, 09:01
    #39196742
nikomp
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
Хотелось бы разобраться с темой парсинга сайтов.
Что я имею ввиду. Есть задумка написать приложение для android, которое бы собирало информацию о ценах, например на лекарства, и выдавало аптеку с самым дешевым.
Почитал немного в инете, пишут что подобная задача относится к теме парсинга сайтов.
Подскажите с чего начать, что использовать (компоненты), вообще возможно ли для android решить такую задачу?
...
Рейтинг: 0 / 0
21.03.2016, 10:30
    #39196812
wadman
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
nikompвообще возможно ли для android решить такую задачу?
Не с того конца подходишь. Парсить должен нормальный (мощный) компьютер, а андроид тут лишь как клиент, отображающий результаты его работы.
...
Рейтинг: 0 / 0
21.03.2016, 11:26
    #39196881
nikomp
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
wadman,

Получается подобные задачи решаются написанием web-сервисов, например на PHP?
...
Рейтинг: 0 / 0
21.03.2016, 11:37
    #39196905
wadman
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
nikompПолучается подобные задачи решаются написанием web-сервисов, например на PHP?
Почти... Нужен парсер (кладет результат в базу), сервис для клиента (выдает результат из базы) и сам клиент (отображает результат от сервиса).
...
Рейтинг: 0 / 0
21.03.2016, 12:40
    #39197018
nikomp
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
wadman,

Парсер пишется самостоятельно или используют уже существующие для складирования данных в БД?
...
Рейтинг: 0 / 0
21.03.2016, 13:00
    #39197048
wadman
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
nikompПарсер пишется самостоятельно или используют уже существующие для складирования данных в БД?
А "существующие" уже есть и они удовлетворяют потребности?
...
Рейтинг: 0 / 0
21.03.2016, 13:22
    #39197081
nikomp
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
wadman,

у меня точно нет, я интересуюсь, собираю информацию.
Пока не понимаю с чего начать.
...
Рейтинг: 0 / 0
21.03.2016, 13:39
    #39197109
lmv
lmv
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
nikompwadman,

у меня точно нет, я интересуюсь, собираю информацию.
Пока не понимаю с чего начать.

Хм, берешь любой сайт со списком лекарств или выложенный прайс.
Получаешь его себе на диск. Заодно узнаешь, что мощности канала на Android обычно не хватает, чтобы получать 2-4-6Мб документа.
Значит, надо это дело оптимизировать. Да и вывод прайса в Excel со всеми индексами тебе тоже не нужен. Приходишь к выводу, что нужно на первом шаге вбивать название препарата, и получать цену на него.

В итоге, пишешь обычную форму, куда можно вбить название и получить его цену.
Затем, начинаешь повторять этот процесс до обалдения, расширяя из новых прайсов и тому подобное, а также показывая несколько цен, местоположение, заказы и так далее )))

Или тебе приложение для бизнеса надо?
...
Рейтинг: 0 / 0
21.03.2016, 15:52
    #39197263
nikomp
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
lmv,

Хотелось бы реализовать в таком виде:
На форме вбил название лекарства получил список аптек где лекарство продается и в списке подсветилась аптека с наименьшей ценой. Аптеки желательно брать из указанного города.

Может вы и права не стоит формировать у себя БД со всеми лекарствами, а на искать информацию только по указанному лекартсву.
Куда в этом случае копать?
Как из Androida послать запрос в Сеть на поиск нужного наименования, получить ответ, и распарсить его?
...
Рейтинг: 0 / 0
21.03.2016, 17:17
    #39197355
Микола Питерский
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
В общем для парсописателей - для того чтобы сайты не парсили и не воровали инфу вэб программисты делают специальный алгоритм, который меняет структуру сайта в зависисмости от времени. Вот написал ты парсер, привязав поиск нужной инфы к идентификатору или классу элемента, а тут бац и поменялись эти имена со следующего месяца и будешь переписывать свой парсер ежемесячно, а то и чаще. И еще - уважающие себя вэб программисты формируют страничку при помощи java script - т.е. если ты спарсишь саму страничку *.html - то там никакой информации не будет, т.к. наполняется она через java script - т.е. тебе полюбому нужно открывать страничку в объекте вэб браузера и уже там выбирать нужные элементы, а это трафик+ а скорость-.
Чтобы понять о чем это я попробуй написать парсер для http://rp5.ru
Вот и подумай - а оно тебе надо?
...
Рейтинг: 0 / 0
21.03.2016, 17:24
    #39197362
chpasha
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
Микола ПитерскийЧтобы понять о чем это я попробуй написать парсер для http://rp5.ru
Вот и подумай - а оно тебе надо?
для многих других вещей это работает. не все парятся с тем, что их кто-то парсит. да, время от времени это будет ломаться, но дизайн не каждый день меняют, и желающих модифицировать свои css-классы каждый день тоже не много. иные парсеры годами работают. а когда альтернативы просто нет, так и вообще не о чем говорить. как учебная задача определенно годится, но то, что ТС ленится оторвать зад от стула и нагуглить ответы самому - удручает.
...
Рейтинг: 0 / 0
21.03.2016, 18:02
    #39197394
tip78
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
Микола ПитерскийЧтобы понять о чем это я попробуй написать парсер для http://rp5.ru
и что там такого?
post-запросы, всё видно
а ещё есть мобильная версия
...
Рейтинг: 0 / 0
21.03.2016, 22:56
    #39197528
Микола Питерский
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
chpashaдля многих других вещей это работает. не все парятся с тем, что их кто-то парсит. да, время от времени это будет ломаться, но дизайн не каждый день меняют, и желающих модифицировать свои css-классы каждый день тоже не много .
Так модифицировать и не нужно - просто программно делается что сервак отдает страничку н-р по четным месяцам с одними идентификационными данными, по нечетным с другими, также и с глубиной вложенности - увеличиваем и уменьшаем и все парсеры идут лесом периодически. Правда заморачиваться с этим мало кто хочет - но нарваться на такое можно запросто.
...
Рейтинг: 0 / 0
21.03.2016, 23:03
    #39197533
Микола Питерский
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
tip78Микола ПитерскийЧтобы понять о чем это я попробуй написать парсер для http://rp5.ru
и что там такого?
post-запросы, всё видно
а ещё есть мобильная версия

А то что по POST запросам ты из своего приложения не сможешь ничего получить из их сервера, т.к. проверяется откуда пришел этот запрос и если не из их странички на сервере - то тебе отправляют билиберду с данными не соответствующими действительности. Покрайней мере 5 лет назад у них было именно так.
...
Рейтинг: 0 / 0
22.03.2016, 12:48
    #39197878
Джибс
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
Микола ПитерскийВ общем для парсописателей - для того чтобы сайты не парсили и не воровали инфу вэб программисты делают специальный алгоритм, который меняет структуру сайта в зависисмости от времени. Вот написал ты парсер, привязав поиск нужной инфы к идентификатору или классу элемента, а тут бац и поменялись эти имена со следующего месяца и будешь переписывать свой парсер ежемесячно, а то и чаще. И еще - уважающие себя вэб программисты формируют страничку при помощи java script - т.е. если ты спарсишь саму страничку *.html - то там никакой информации не будет, т.к. наполняется она через java script - т.е. тебе полюбому нужно открывать страничку в объекте вэб браузера и уже там выбирать нужные элементы, а это трафик+ а скорость-.
Чтобы понять о чем это я попробуй написать парсер для http://rp5.ru
Вот и подумай - а оно тебе надо?

так когда формируют страницку js это еще проще, можно просто вытягивать сырые данные и парсить html не нужно )
...
Рейтинг: 0 / 0
22.03.2016, 12:49
    #39197881
Джибс
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
Микола ПитерскийА то что по POST запросам ты из своего приложения не сможешь ничего получить из их сервера, т.к. проверяется откуда пришел этот запрос и если не из их странички на сервере - то тебе отправляют билиберду с данными не соответствующими действительности. Покрайней мере 5 лет назад у них было именно так.

ну чаще можно обмануть

хотя я столкнулся с одной страницей, где не прокатило. а дальше разбираться было лень.
...
Рейтинг: 0 / 0
22.03.2016, 15:52
    #39198104
tip78
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
Микола Питерскийtip78пропущено...

и что там такого?
post-запросы, всё видно
а ещё есть мобильная версия

А то что по POST запросам ты из своего приложения не сможешь ничего получить из их сервера, т.к. проверяется откуда пришел этот запрос и если не из их странички на сервере - то тебе отправляют билиберду с данными не соответствующими действительности. Покрайней мере 5 лет назад у них было именно так.
ну ах*еть теперь
а что Referer отменили?
...
Рейтинг: 0 / 0
22.03.2016, 17:22
    #39198179
Микола Питерский
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсинг сайтов
tip78ну ах*еть теперь
а что Referer отменили?

Так это еще надо знать как формировать заголовок страницы запроса, а топикпостеру до этого еще лет 5 пешком.
Я просто его про подводные камни парсинга предупредил - а дальше его дело.
...
Рейтинг: 0 / 0
Форумы / Android [игнор отключен] [закрыт для гостей] / Парсинг сайтов / 18 сообщений из 18, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]