Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
CURL JavaScript движок
|
|||
|---|---|---|---|
|
#18+
Пишу робота, который скачивает и парсит определенную страницу. Проблема в том, что на странице стоит хитрая защита. После загрузки страницы, производится анализ некоторых скрытых элементов, на основании этого формируется некий идентификатор, этот идентификатор записывается в document.cookie и делается релоад страницы. И только после этого сервер отдает нужный контент. Скрытые элементы бывают разные. Мне попадался <select> с кучей <option>, форма с набором радиокнопок, таблица с ячейками. Т.е. самому сформировать этот идентификатор очень геморройно. Я находил несколько JS движков на PHP (честно говоря детально еще не смотрел), но разработчики поставили еще такую защиту Код: javascript 1. 2. Т.е. JS код страницы формируется на самом JS. Находил еще упоминания о селениуме, но, как я понял, этот товарищ написан на Java и на хостинг его не выставишь. Собственно вопрос: есть ли какие нибудь штатные решения задачи или нужно писать свой велосипед на регэкспах? С уважением, Vasilisk ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.05.2013, 13:46 |
|
||
|
CURL JavaScript движок
|
|||
|---|---|---|---|
|
#18+
авторНаходил еще упоминания о селениуме, но, как я понял, этот товарищ написан на Java и на хостинг его не выставишь. Ну так VDS ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.05.2013, 13:49 |
|
||
|
CURL JavaScript движок
|
|||
|---|---|---|---|
|
#18+
А как это согласуется "пишу робота" с кукисами и релоад? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.05.2013, 13:51 |
|
||
|
CURL JavaScript движок
|
|||
|---|---|---|---|
|
#18+
HettНу так VDSМожно подумать, но уже дедлайн скоро :) ShSergeА как это согласуется "пишу робота" с кукисами и релоад?Нужный контент на странице появляется только при запросе этой страницы с нужным куком. Сам кук формируется JS кодом страницы ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.05.2013, 14:22 |
|
||
|
CURL JavaScript движок
|
|||
|---|---|---|---|
|
#18+
_Vasilisk_Т.е. самому сформировать этот идентификатор очень геморройно. Начало 90-х было золотой эпохой, когда тянущиеся к познанию настоящих истин компьютерного программирования не боялись лишнего геморроя, а брали в руки карандаш, проводили кропотливый анализ изучая машинный код, и если хотите по буковкам создавали шедевры ПО. В вашем случае нужны только чуточка терпения и старательность. Начните aнализ кода страницы например с тега <noscript>. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.05.2013, 10:18 |
|
||
|
|

start [/forum/topic.php?fid=23&msg=38260214&tid=1463815]: |
0ms |
get settings: |
8ms |
get forum list: |
10ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
30ms |
get topic data: |
7ms |
get forum data: |
2ms |
get page messages: |
45ms |
get tp. blocked users: |
1ms |
| others: | 208ms |
| total: | 317ms |

| 0 / 0 |
