Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Разработка информационных систем [игнор отключен] [закрыт для гостей] / Хаб для сбора и анализа информации с 15(!) сайтов / 20 сообщений из 20, страница 1 из 1
28.08.2018, 17:13
    #39694497
sqlart
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
Всем доброго времени суток!

Много наслышана хорошего про данный форум, потому решила спросить совета у здешних профессионалов.

В рамках стартапа, которым сейчас занимаюсь, я хотела бы разработать платформу/хаб для сбора и анализа информации, собранной с нескольких сайтов онлайн-продаж (15 сайтов).
Идея состояла в том, чтобы регулярно получать сводку о новых товарах, размещенных на аукционах, сохранять эти детали в локальной базе данных и уже там производить различные манипуляции над собранной информацией (фильтры, сортировки и т.д.)
Звучит достаточно понятно, как мне казалось, но на практике заказала эту работу в одной IT компании и получила ну очень медленно работающий черновой вариант и комментарии, что это очень сложно реализуемый проект, в первую очередь из-за того, что должны одновременно анализироваться сразу 15 сайтов.
А каким будет ваше мнение?

Заранее спасибо за любые (дельные) советы и комментарии:)
...
Рейтинг: 0 / 0
28.08.2018, 17:27
    #39694507
skyANA
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов


Сравни цены с сотен сайтов бронирования...
...
Рейтинг: 0 / 0
28.08.2018, 17:27
    #39694509
skyANA
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
sqlart,

вообщем врут Вам
...
Рейтинг: 0 / 0
28.08.2018, 23:13
    #39694613
Критик
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
skyANAвообщем врут Вам

ну зачем же так, "просто очень хочется денег" )

А так выйдет что-то вроде (если дешево и сердито):
15 сайтов, по 3 дня на сайт для парсера, плюс неделю-другую для базы и уже можно анализировать сводными таблицами экселя
...
Рейтинг: 0 / 0
29.08.2018, 10:11
    #39694730
Jurii
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
Некоторые сайты не любят, когда их парсят, и стараются защититься. Так что нужно смотреть, что это за конкретные 15 сайтов.
...
Рейтинг: 0 / 0
29.08.2018, 17:27
    #39695137
sqlart
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
JuriiНекоторые сайты не любят, когда их парсят, и стараются защититься. Так что нужно смотреть, что это за конкретные 15 сайтов.
Как пример, такие сайты, как Ebay и Авито.

Совершенно верно! Я понимаю, что это и была одна из загвоздок - достаточно сложная архитектура сайтов+защиты, которые нужно было "обходить" в каждом отдельном случае по-разному.
...
Рейтинг: 0 / 0
29.08.2018, 17:28
    #39695139
sqlart
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
Что бы вы посоветовали в моем случае, где лучше искать специалистов для реализации этого проекта?
Возможно, опубликовать объявление в других разделах этого форума или может вы знакомы с кем-то, кому интересно/по силам это задание?
...Сайты фрилансеров уже пробовала, после первого неудачного опыта немного боязно, хотелось бы найти специалиста с хорошим подтвержденным референсом.

Заранее спасибо!
...
Рейтинг: 0 / 0
29.08.2018, 18:34
    #39695185
alex55555
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
sqlartхотелось бы найти специалиста с хорошим подтвержденным референсом.
Во удивила, хочу сладко и много!

Но жизнь устроена так, что надо поработать, прежде чем будет сладко. И обычно бывает совсем не много.

Со спецами нужно работать. Отбор - есть обязательная составляющая любого прожекта. И если лень - вам стоит увольняться.
...
Рейтинг: 0 / 0
29.08.2018, 18:47
    #39695196
sqlart
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
alex55555sqlartхотелось бы найти специалиста с хорошим подтвержденным референсом.
Во удивила, хочу сладко и много!

Но жизнь устроена так, что надо поработать, прежде чем будет сладко. И обычно бывает совсем не много.

Со спецами нужно работать. Отбор - есть обязательная составляющая любого прожекта. И если лень - вам стоит увольняться.
Совсем не лень и была бы рада достойно заплатить за проделанную работу, но подскажите, пожалуйста - где их искать?
...
Рейтинг: 0 / 0
30.08.2018, 09:13
    #39695329
alex55555
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
sqlartно подскажите, пожалуйста - где их искать?
Ну как бы это же азы HR работы. Я в этом не глубокий спец, но и то набор сайтов, где программисты смотрят объявления, могу перечислить достаточно легко. То есть идите туда, где место рыбное. Но и не забывайте, что "воды по колено, а рыбы до ...я" - таких мест вообще нет, а потому просто не стоит ожидать мгновенного отклика и очередей из страждущих. Минимум месяц на скромный отбор, а на серьёзный - объявления в крупные конторы вообще годами висят, и так вот годами они собирают народ, он работает, потом увольняется, конторы опять собирают, и так в режиме нон-стоп всё вертится.

Новички ожидают именно очередей из супер-специалистов, в которых новички хотят рыться и перебирать, вылавливая только самую вкусную рыбу. Но нет сегодня нерестовых рек с дурачками-программистами, косяками плывущими прямо в пасть поджидающих их медведей. Поэтому - масштабно забрасываете сети везде, где только можно.
...
Рейтинг: 0 / 0
31.08.2018, 12:26
    #39696153
Jurii
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
2 sqlart:

Что бы вы посоветовали в моем случае, где лучше искать специалистов для реализации этого проекта?

Сообщите мне адреса этих 15 сайтов (мой адрес - cognos@yandex.ru ).
Если эти сайты будут интересны для обучаемого мною Искусственного интеллекта, то смогу Вам помочь.
...
Рейтинг: 0 / 0
31.08.2018, 16:00
    #39696317
Alex_496
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
sqlart,

напишите специалисту по hp1999@mail.ru
Укажите адреса этих 15 сайтов.

Сайты могут не только активно защищаться от парсинга, но и менять структуру данных, верстки, отслеживать простукивалки и т.п.

Юридический вопросы как по отношению к владельцам сайтов, так и по отношению к вам. Собранная вами инфа также может уйти к конкурентам через фирму-разработчик
...
Рейтинг: 0 / 0
01.09.2018, 13:18
    #39696602
Злой Бобр
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
sqlart,

Все зависит от сайтов с которых брать данные. С некоторыми можно получить прямой доступ к БД на чтение, а некоторые пошлют подальше. В самой реализации ничего сложного нет, все уже придумано и реализовано. Повторить с вариантами невопрос даже для студента.
Начните с четкого ТЗ. Без ТЗ или с ТЗ на уровне "хочу" вы никого не найдете.
...
Рейтинг: 0 / 0
01.09.2018, 16:40
    #39696663
waszkiewicz
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
Злой Бобр, а вот есть ли минимальные рекомендации, чтобы не попасть в категорию "С некоторыми можно получить прямой доступ к БД на чтение"
...
Рейтинг: 0 / 0
01.09.2018, 17:45
    #39696682
azsx
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
автори получила ну очень медленно работающий черновой вариант и комментарии, что это очень сложно реализуемый проект, в первую очередь из-за того, что должны одновременно анализироваться сразу 15 сайтов.
В вашей задаче надо уточнить только одну вещь -- сколько в итоге строк данных и какой характер выборки? Может у вас 3 млрд записей и 500 параметров для выборки? В чём суть "медленно работающий проект"?
Как надо решить вашу задачу.
1. Узнайте, можно ли парсить данные сайты. И что Вам за это будет.
2. Сперва сделайте свой сайт с тестовыми данными. То есть идеал для Вас, который потом будете наполнять парсингом. Морду и базу.
3. Потом (если сторонним готовым софтом парсить не вариант) напишите в вакансиях на любом php форуме "Куплю скрипты для парсинга обновления на сайтах + заранее спарсенные данные. Для каждого сайта отдельный автономный скрипт. Спарсить в таблицу (структура)." Затем сайты списком.
Важно, отдельные скрипты, так как сами вы писать их не хотите, а с парсингом будут бороться.
---
Хотя с виду покупок будет много, но на самом деле, способ точно рабочий.
А вот эти слова (стартап, заказала проект в it компании, платформа) оставьте для гос. контор. Ваш 100500 агрегатор никак не вяжется с этими словами :)
...
Рейтинг: 0 / 0
01.09.2018, 20:30
    #39696701
Злой Бобр
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
waszkiewiczЗлой Бобр, а вот есть ли минимальные рекомендации, чтобы не попасть в категорию "С некоторыми можно получить прямой доступ к БД на чтение"
Немного непонятен вопрос. Я не являюсь владельцем сайта и соответственно никак не могу влиять на ситуацию. Много сайтов прикручивают API как раз для сбора данных. Это тоже один из вариантов.
В любом случае автору начинать с ТЗ и потом идти например на одеску и там размещать заказ. Сейчас там индусы выгребают практически все подряд.
Размещать вариант тут - можно, но врядли будет выхлоп. Слишком тривиально и не интересно.
...
Рейтинг: 0 / 0
02.09.2018, 00:24
    #39696735
полудух
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
sqlartЗвучит достаточно понятно, как мне казалось, но на практике заказала эту работу в одной IT компании и получила ну очень медленно работающий черновой вариант и комментарии, что это очень сложно реализуемый проект, в первую очередь из-за того, что должны одновременно анализироваться сразу 15 сайтов.
А каким будет ваше мнение?

Заранее спасибо за любые (дельные) советы и комментарии:)
асинхронно пофигу, сколько они там будут анализироваться парситься
в real-time намного сложнее дороже, чем раз в час, например
но главное - 15 сайтов это 15 разных проектов, с разными уровнями сложности
кое-где может и защита от парсинга быть, что, опять же, удорожает
1 сайт от 15тыр (ну это если перестать вестись на предложения за 3000 с предоплатой 100%) и до 50
в среднем будет 25 + сам агрегат + сервис = ещё 100+, вот и считайте
...
Рейтинг: 0 / 0
02.09.2018, 15:40
    #39696851
alex55555
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
azsx3. Потом (если сторонним готовым софтом парсить не вариант) напишите в вакансиях на любом php форуме "Куплю скрипты для парсинга обновления на сайтах + заранее спарсенные данные. Для каждого сайта отдельный автономный скрипт. Спарсить в таблицу (структура)." Затем сайты списком.
Вот любопытно, авиты и прочие защищаются капчами, типа "выберите все картинки с мостами", плюс не дают с одного айпишника качать более какого-то скромного объёма (условно - тысяч 10 объявлений в сутки). Но бесплатные советчики смело предлагают купить магический скрипт на пыхе, который все капчи обойдёт и чудесным образом миллион объявлений с одного айпишника закачает.

Ну и суть любопытства - вы сами-то такие задачи решали? Решили? Миллион объявлений скачали?
...
Рейтинг: 0 / 0
02.09.2018, 16:47
    #39696860
azsx
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
Насчёт авито. Сам парсинг элементарен.
Но Вы правы. Ваще не знаю как такие телефоны доставать, только получать скрин и распознавать картинку.
зы
но никто за это не платит.
Уверены, что под датакул шаблон не работает?
Уверены, что ТС надо парсить авито?
зызы
Тем, что я когда то парсил сайты я не горжусь. Я бы задачу ТС решал именно так, как написал.
...
Рейтинг: 0 / 0
02.09.2018, 22:32
    #39696923
alex55555
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Хаб для сбора и анализа информации с 15(!) сайтов
azsxУверены, что под датакул шаблон не работает?
Уверены, что ТС надо парсить авито?
Ни в чём не уверен, но сложность вижу.
...
Рейтинг: 0 / 0
Форумы / Разработка информационных систем [игнор отключен] [закрыт для гостей] / Хаб для сбора и анализа информации с 15(!) сайтов / 20 сообщений из 20, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]