powered by simpleCommunicator - 2.0.40     © 2025 Programmizd 02
Форумы / Android [игнор отключен] [закрыт для гостей] / Парсинг сайтов
18 сообщений из 18, страница 1 из 1
Парсинг сайтов
    #39196742
nikomp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Хотелось бы разобраться с темой парсинга сайтов.
Что я имею ввиду. Есть задумка написать приложение для android, которое бы собирало информацию о ценах, например на лекарства, и выдавало аптеку с самым дешевым.
Почитал немного в инете, пишут что подобная задача относится к теме парсинга сайтов.
Подскажите с чего начать, что использовать (компоненты), вообще возможно ли для android решить такую задачу?
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39196812
Фотография wadman
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
nikompвообще возможно ли для android решить такую задачу?
Не с того конца подходишь. Парсить должен нормальный (мощный) компьютер, а андроид тут лишь как клиент, отображающий результаты его работы.
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39196881
nikomp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
wadman,

Получается подобные задачи решаются написанием web-сервисов, например на PHP?
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39196905
Фотография wadman
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
nikompПолучается подобные задачи решаются написанием web-сервисов, например на PHP?
Почти... Нужен парсер (кладет результат в базу), сервис для клиента (выдает результат из базы) и сам клиент (отображает результат от сервиса).
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39197018
nikomp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
wadman,

Парсер пишется самостоятельно или используют уже существующие для складирования данных в БД?
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39197048
Фотография wadman
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
nikompПарсер пишется самостоятельно или используют уже существующие для складирования данных в БД?
А "существующие" уже есть и они удовлетворяют потребности?
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39197081
nikomp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
wadman,

у меня точно нет, я интересуюсь, собираю информацию.
Пока не понимаю с чего начать.
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39197109
lmv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
lmv
Гость
nikompwadman,

у меня точно нет, я интересуюсь, собираю информацию.
Пока не понимаю с чего начать.

Хм, берешь любой сайт со списком лекарств или выложенный прайс.
Получаешь его себе на диск. Заодно узнаешь, что мощности канала на Android обычно не хватает, чтобы получать 2-4-6Мб документа.
Значит, надо это дело оптимизировать. Да и вывод прайса в Excel со всеми индексами тебе тоже не нужен. Приходишь к выводу, что нужно на первом шаге вбивать название препарата, и получать цену на него.

В итоге, пишешь обычную форму, куда можно вбить название и получить его цену.
Затем, начинаешь повторять этот процесс до обалдения, расширяя из новых прайсов и тому подобное, а также показывая несколько цен, местоположение, заказы и так далее )))

Или тебе приложение для бизнеса надо?
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39197263
nikomp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
lmv,

Хотелось бы реализовать в таком виде:
На форме вбил название лекарства получил список аптек где лекарство продается и в списке подсветилась аптека с наименьшей ценой. Аптеки желательно брать из указанного города.

Может вы и права не стоит формировать у себя БД со всеми лекарствами, а на искать информацию только по указанному лекартсву.
Куда в этом случае копать?
Как из Androida послать запрос в Сеть на поиск нужного наименования, получить ответ, и распарсить его?
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39197355
Микола Питерский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В общем для парсописателей - для того чтобы сайты не парсили и не воровали инфу вэб программисты делают специальный алгоритм, который меняет структуру сайта в зависисмости от времени. Вот написал ты парсер, привязав поиск нужной инфы к идентификатору или классу элемента, а тут бац и поменялись эти имена со следующего месяца и будешь переписывать свой парсер ежемесячно, а то и чаще. И еще - уважающие себя вэб программисты формируют страничку при помощи java script - т.е. если ты спарсишь саму страничку *.html - то там никакой информации не будет, т.к. наполняется она через java script - т.е. тебе полюбому нужно открывать страничку в объекте вэб браузера и уже там выбирать нужные элементы, а это трафик+ а скорость-.
Чтобы понять о чем это я попробуй написать парсер для http://rp5.ru
Вот и подумай - а оно тебе надо?
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39197362
chpasha
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Микола ПитерскийЧтобы понять о чем это я попробуй написать парсер для http://rp5.ru
Вот и подумай - а оно тебе надо?
для многих других вещей это работает. не все парятся с тем, что их кто-то парсит. да, время от времени это будет ломаться, но дизайн не каждый день меняют, и желающих модифицировать свои css-классы каждый день тоже не много. иные парсеры годами работают. а когда альтернативы просто нет, так и вообще не о чем говорить. как учебная задача определенно годится, но то, что ТС ленится оторвать зад от стула и нагуглить ответы самому - удручает.
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39197394
tip78
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Микола ПитерскийЧтобы понять о чем это я попробуй написать парсер для http://rp5.ru
и что там такого?
post-запросы, всё видно
а ещё есть мобильная версия
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39197528
Микола Питерский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
chpashaдля многих других вещей это работает. не все парятся с тем, что их кто-то парсит. да, время от времени это будет ломаться, но дизайн не каждый день меняют, и желающих модифицировать свои css-классы каждый день тоже не много .
Так модифицировать и не нужно - просто программно делается что сервак отдает страничку н-р по четным месяцам с одними идентификационными данными, по нечетным с другими, также и с глубиной вложенности - увеличиваем и уменьшаем и все парсеры идут лесом периодически. Правда заморачиваться с этим мало кто хочет - но нарваться на такое можно запросто.
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39197533
Микола Питерский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
tip78Микола ПитерскийЧтобы понять о чем это я попробуй написать парсер для http://rp5.ru
и что там такого?
post-запросы, всё видно
а ещё есть мобильная версия

А то что по POST запросам ты из своего приложения не сможешь ничего получить из их сервера, т.к. проверяется откуда пришел этот запрос и если не из их странички на сервере - то тебе отправляют билиберду с данными не соответствующими действительности. Покрайней мере 5 лет назад у них было именно так.
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39197878
Фотография Джибс
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Микола ПитерскийВ общем для парсописателей - для того чтобы сайты не парсили и не воровали инфу вэб программисты делают специальный алгоритм, который меняет структуру сайта в зависисмости от времени. Вот написал ты парсер, привязав поиск нужной инфы к идентификатору или классу элемента, а тут бац и поменялись эти имена со следующего месяца и будешь переписывать свой парсер ежемесячно, а то и чаще. И еще - уважающие себя вэб программисты формируют страничку при помощи java script - т.е. если ты спарсишь саму страничку *.html - то там никакой информации не будет, т.к. наполняется она через java script - т.е. тебе полюбому нужно открывать страничку в объекте вэб браузера и уже там выбирать нужные элементы, а это трафик+ а скорость-.
Чтобы понять о чем это я попробуй написать парсер для http://rp5.ru
Вот и подумай - а оно тебе надо?

так когда формируют страницку js это еще проще, можно просто вытягивать сырые данные и парсить html не нужно )
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39197881
Фотография Джибс
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Микола ПитерскийА то что по POST запросам ты из своего приложения не сможешь ничего получить из их сервера, т.к. проверяется откуда пришел этот запрос и если не из их странички на сервере - то тебе отправляют билиберду с данными не соответствующими действительности. Покрайней мере 5 лет назад у них было именно так.

ну чаще можно обмануть

хотя я столкнулся с одной страницей, где не прокатило. а дальше разбираться было лень.
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39198104
tip78
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Микола Питерскийtip78пропущено...

и что там такого?
post-запросы, всё видно
а ещё есть мобильная версия

А то что по POST запросам ты из своего приложения не сможешь ничего получить из их сервера, т.к. проверяется откуда пришел этот запрос и если не из их странички на сервере - то тебе отправляют билиберду с данными не соответствующими действительности. Покрайней мере 5 лет назад у них было именно так.
ну ах*еть теперь
а что Referer отменили?
...
Рейтинг: 0 / 0
Парсинг сайтов
    #39198179
Микола Питерский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
tip78ну ах*еть теперь
а что Referer отменили?

Так это еще надо знать как формировать заголовок страницы запроса, а топикпостеру до этого еще лет 5 пешком.
Я просто его про подводные камни парсинга предупредил - а дальше его дело.
...
Рейтинг: 0 / 0
18 сообщений из 18, страница 1 из 1
Форумы / Android [игнор отключен] [закрыт для гостей] / Парсинг сайтов
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]