|
|
|
Обоснование методологии получения данных с сайтов
|
|||
|---|---|---|---|
|
#18+
Добрый день! Есть у кого - либо мысли по поводу того, бывают ли ситуации, когда не стоит использовать парсинг сайтов средствами языков веб-программирования (python или php), а следует попытаться договориться с владельцами данных о предоставлении данных в формате csv или xml? При том, что речь не идет о пользовательской активности на сайтах, а только об анализе его содержимого. Возможно, есть какие то еще варианты? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.01.2016, 11:08 |
|
||
|
Обоснование методологии получения данных с сайтов
|
|||
|---|---|---|---|
|
#18+
baza906, Нужно определиться, что такое "сайт". Статические страницы? Интерфейс к базе данных? Что парсить? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.01.2016, 20:15 |
|
||
|
Обоснование методологии получения данных с сайтов
|
|||
|---|---|---|---|
|
#18+
baza906бывают ли ситуации, когда не стоит использовать парсинг сайтов средствами языков веб-программирования (python или php), а следует попытаться договориться с владельцами данных о предоставлении данных в формате csv или xml? бывают например, когда ты тянешь инфу, а там админ смотрит на трафик, и банит твой айпи, в подозрении на ddos ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.01.2016, 20:19 |
|
||
|
Обоснование методологии получения данных с сайтов
|
|||
|---|---|---|---|
|
#18+
baza906, Бывают. И если есть возможность то стоит всегда договариваться, даже если можно парсить. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.01.2016, 21:12 |
|
||
|
Обоснование методологии получения данных с сайтов
|
|||
|---|---|---|---|
|
#18+
baza906Добрый день! Есть у кого - либо мысли по поводу того, бывают ли ситуации, когда не стоит использовать парсинг сайтов средствами языков веб-программирования (python или php), а следует попытаться договориться с владельцами данных о предоставлении данных в формате csv или xml? При том, что речь не идет о пользовательской активности на сайтах, а только об анализе его содержимого. Возможно, есть какие то еще варианты? Лучше договориться, ибо ваша активность и есть DDOS ;-) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.01.2016, 11:59 |
|
||
|
Обоснование методологии получения данных с сайтов
|
|||
|---|---|---|---|
|
#18+
baza906, обоснования кому надо предоставить, руководству? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.01.2016, 10:35 |
|
||
|
Обоснование методологии получения данных с сайтов
|
|||
|---|---|---|---|
|
#18+
Бредятина, статические страницы. Просто получение цифр из нужного участка html-кода ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.01.2016, 12:47 |
|
||
|
Обоснование методологии получения данных с сайтов
|
|||
|---|---|---|---|
|
#18+
skyANA, пока себе. Планирую сделать сделать парсинг нескольких сайтов в тестовом режиме, а потом уже думать о применении к конкретной задаче, которая имеется. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.01.2016, 12:50 |
|
||
|
Обоснование методологии получения данных с сайтов
|
|||
|---|---|---|---|
|
#18+
mad_nazgul, спасибо ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.01.2016, 12:53 |
|
||
|
Обоснование методологии получения данных с сайтов
|
|||
|---|---|---|---|
|
#18+
t0lix, спасибо ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.01.2016, 12:53 |
|
||
|
Обоснование методологии получения данных с сайтов
|
|||
|---|---|---|---|
|
#18+
Злой Бобр, спасибо большое. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.01.2016, 12:54 |
|
||
|
Обоснование методологии получения данных с сайтов
|
|||
|---|---|---|---|
|
#18+
baza906Бредятина, статические страницы. Просто получение цифр из нужного участка html-кода На статических страницах не может быть никаких цифр. Как, впрочем, и букв. Если они там оказались из-за ошибки разработчиков, то, конечно, придется договариваться)) Или, наоборот, нет смысла договариваться)) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.01.2016, 17:57 |
|
||
|
|

start [/forum/topic.php?fid=32&fpage=17&tid=1540408]: |
0ms |
get settings: |
9ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
37ms |
get topic data: |
12ms |
get forum data: |
2ms |
get page messages: |
50ms |
get tp. blocked users: |
2ms |
| others: | 12ms |
| total: | 145ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...