|
|
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
Всем доброго времени суток! Много наслышана хорошего про данный форум, потому решила спросить совета у здешних профессионалов. В рамках стартапа, которым сейчас занимаюсь, я хотела бы разработать платформу/хаб для сбора и анализа информации, собранной с нескольких сайтов онлайн-продаж (15 сайтов). Идея состояла в том, чтобы регулярно получать сводку о новых товарах, размещенных на аукционах, сохранять эти детали в локальной базе данных и уже там производить различные манипуляции над собранной информацией (фильтры, сортировки и т.д.) Звучит достаточно понятно, как мне казалось, но на практике заказала эту работу в одной IT компании и получила ну очень медленно работающий черновой вариант и комментарии, что это очень сложно реализуемый проект, в первую очередь из-за того, что должны одновременно анализироваться сразу 15 сайтов. А каким будет ваше мнение? Заранее спасибо за любые (дельные) советы и комментарии:) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.08.2018, 17:13 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.08.2018, 17:27 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
sqlart, вообщем врут Вам ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.08.2018, 17:27 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
skyANAвообщем врут Вам ну зачем же так, "просто очень хочется денег" ) А так выйдет что-то вроде (если дешево и сердито): 15 сайтов, по 3 дня на сайт для парсера, плюс неделю-другую для базы и уже можно анализировать сводными таблицами экселя ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.08.2018, 23:13 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
Некоторые сайты не любят, когда их парсят, и стараются защититься. Так что нужно смотреть, что это за конкретные 15 сайтов. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.08.2018, 10:11 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
JuriiНекоторые сайты не любят, когда их парсят, и стараются защититься. Так что нужно смотреть, что это за конкретные 15 сайтов. Как пример, такие сайты, как Ebay и Авито. Совершенно верно! Я понимаю, что это и была одна из загвоздок - достаточно сложная архитектура сайтов+защиты, которые нужно было "обходить" в каждом отдельном случае по-разному. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.08.2018, 17:27 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
Что бы вы посоветовали в моем случае, где лучше искать специалистов для реализации этого проекта? Возможно, опубликовать объявление в других разделах этого форума или может вы знакомы с кем-то, кому интересно/по силам это задание? ...Сайты фрилансеров уже пробовала, после первого неудачного опыта немного боязно, хотелось бы найти специалиста с хорошим подтвержденным референсом. Заранее спасибо! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.08.2018, 17:28 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
sqlartхотелось бы найти специалиста с хорошим подтвержденным референсом. Во удивила, хочу сладко и много! Но жизнь устроена так, что надо поработать, прежде чем будет сладко. И обычно бывает совсем не много. Со спецами нужно работать. Отбор - есть обязательная составляющая любого прожекта. И если лень - вам стоит увольняться. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.08.2018, 18:34 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
alex55555sqlartхотелось бы найти специалиста с хорошим подтвержденным референсом. Во удивила, хочу сладко и много! Но жизнь устроена так, что надо поработать, прежде чем будет сладко. И обычно бывает совсем не много. Со спецами нужно работать. Отбор - есть обязательная составляющая любого прожекта. И если лень - вам стоит увольняться. Совсем не лень и была бы рада достойно заплатить за проделанную работу, но подскажите, пожалуйста - где их искать? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.08.2018, 18:47 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
sqlartно подскажите, пожалуйста - где их искать? Ну как бы это же азы HR работы. Я в этом не глубокий спец, но и то набор сайтов, где программисты смотрят объявления, могу перечислить достаточно легко. То есть идите туда, где место рыбное. Но и не забывайте, что "воды по колено, а рыбы до ...я" - таких мест вообще нет, а потому просто не стоит ожидать мгновенного отклика и очередей из страждущих. Минимум месяц на скромный отбор, а на серьёзный - объявления в крупные конторы вообще годами висят, и так вот годами они собирают народ, он работает, потом увольняется, конторы опять собирают, и так в режиме нон-стоп всё вертится. Новички ожидают именно очередей из супер-специалистов, в которых новички хотят рыться и перебирать, вылавливая только самую вкусную рыбу. Но нет сегодня нерестовых рек с дурачками-программистами, косяками плывущими прямо в пасть поджидающих их медведей. Поэтому - масштабно забрасываете сети везде, где только можно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.08.2018, 09:13 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
2 sqlart: Что бы вы посоветовали в моем случае, где лучше искать специалистов для реализации этого проекта? Сообщите мне адреса этих 15 сайтов (мой адрес - cognos@yandex.ru ). Если эти сайты будут интересны для обучаемого мною Искусственного интеллекта, то смогу Вам помочь. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.08.2018, 12:26 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
sqlart, напишите специалисту по hp1999@mail.ru Укажите адреса этих 15 сайтов. Сайты могут не только активно защищаться от парсинга, но и менять структуру данных, верстки, отслеживать простукивалки и т.п. Юридический вопросы как по отношению к владельцам сайтов, так и по отношению к вам. Собранная вами инфа также может уйти к конкурентам через фирму-разработчик ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.08.2018, 16:00 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
sqlart, Все зависит от сайтов с которых брать данные. С некоторыми можно получить прямой доступ к БД на чтение, а некоторые пошлют подальше. В самой реализации ничего сложного нет, все уже придумано и реализовано. Повторить с вариантами невопрос даже для студента. Начните с четкого ТЗ. Без ТЗ или с ТЗ на уровне "хочу" вы никого не найдете. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.09.2018, 13:18 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
Злой Бобр, а вот есть ли минимальные рекомендации, чтобы не попасть в категорию "С некоторыми можно получить прямой доступ к БД на чтение" ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.09.2018, 16:40 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
автори получила ну очень медленно работающий черновой вариант и комментарии, что это очень сложно реализуемый проект, в первую очередь из-за того, что должны одновременно анализироваться сразу 15 сайтов. В вашей задаче надо уточнить только одну вещь -- сколько в итоге строк данных и какой характер выборки? Может у вас 3 млрд записей и 500 параметров для выборки? В чём суть "медленно работающий проект"? Как надо решить вашу задачу. 1. Узнайте, можно ли парсить данные сайты. И что Вам за это будет. 2. Сперва сделайте свой сайт с тестовыми данными. То есть идеал для Вас, который потом будете наполнять парсингом. Морду и базу. 3. Потом (если сторонним готовым софтом парсить не вариант) напишите в вакансиях на любом php форуме "Куплю скрипты для парсинга обновления на сайтах + заранее спарсенные данные. Для каждого сайта отдельный автономный скрипт. Спарсить в таблицу (структура)." Затем сайты списком. Важно, отдельные скрипты, так как сами вы писать их не хотите, а с парсингом будут бороться. --- Хотя с виду покупок будет много, но на самом деле, способ точно рабочий. А вот эти слова (стартап, заказала проект в it компании, платформа) оставьте для гос. контор. Ваш 100500 агрегатор никак не вяжется с этими словами :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.09.2018, 17:45 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
waszkiewiczЗлой Бобр, а вот есть ли минимальные рекомендации, чтобы не попасть в категорию "С некоторыми можно получить прямой доступ к БД на чтение" Немного непонятен вопрос. Я не являюсь владельцем сайта и соответственно никак не могу влиять на ситуацию. Много сайтов прикручивают API как раз для сбора данных. Это тоже один из вариантов. В любом случае автору начинать с ТЗ и потом идти например на одеску и там размещать заказ. Сейчас там индусы выгребают практически все подряд. Размещать вариант тут - можно, но врядли будет выхлоп. Слишком тривиально и не интересно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.09.2018, 20:30 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
sqlartЗвучит достаточно понятно, как мне казалось, но на практике заказала эту работу в одной IT компании и получила ну очень медленно работающий черновой вариант и комментарии, что это очень сложно реализуемый проект, в первую очередь из-за того, что должны одновременно анализироваться сразу 15 сайтов. А каким будет ваше мнение? Заранее спасибо за любые (дельные) советы и комментарии:) асинхронно пофигу, сколько они там будут анализироваться парситься в real-time намного сложнее дороже, чем раз в час, например но главное - 15 сайтов это 15 разных проектов, с разными уровнями сложности кое-где может и защита от парсинга быть, что, опять же, удорожает 1 сайт от 15тыр (ну это если перестать вестись на предложения за 3000 с предоплатой 100%) и до 50 в среднем будет 25 + сам агрегат + сервис = ещё 100+, вот и считайте ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.09.2018, 00:24 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
azsx3. Потом (если сторонним готовым софтом парсить не вариант) напишите в вакансиях на любом php форуме "Куплю скрипты для парсинга обновления на сайтах + заранее спарсенные данные. Для каждого сайта отдельный автономный скрипт. Спарсить в таблицу (структура)." Затем сайты списком. Вот любопытно, авиты и прочие защищаются капчами, типа "выберите все картинки с мостами", плюс не дают с одного айпишника качать более какого-то скромного объёма (условно - тысяч 10 объявлений в сутки). Но бесплатные советчики смело предлагают купить магический скрипт на пыхе, который все капчи обойдёт и чудесным образом миллион объявлений с одного айпишника закачает. Ну и суть любопытства - вы сами-то такие задачи решали? Решили? Миллион объявлений скачали? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.09.2018, 15:40 |
|
||
|
Хаб для сбора и анализа информации с 15(!) сайтов
|
|||
|---|---|---|---|
|
#18+
Насчёт авито. Сам парсинг элементарен. Но Вы правы. Ваще не знаю как такие телефоны доставать, только получать скрин и распознавать картинку. зы но никто за это не платит. Уверены, что под датакул шаблон не работает? Уверены, что ТС надо парсить авито? зызы Тем, что я когда то парсил сайты я не горжусь. Я бы задачу ТС решал именно так, как написал. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.09.2018, 16:47 |
|
||
|
|

start [/forum/topic.php?fid=33&fpage=5&tid=1547204]: |
0ms |
get settings: |
10ms |
get forum list: |
16ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
42ms |
get topic data: |
14ms |
get forum data: |
3ms |
get page messages: |
62ms |
get tp. blocked users: |
2ms |
| others: | 233ms |
| total: | 390ms |

| 0 / 0 |
