Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности

Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
|
16.05.2013, 13:46
|
|||
|---|---|---|---|
|
|||
CURL JavaScript движок |
|||
|
#18+
Пишу робота, который скачивает и парсит определенную страницу. Проблема в том, что на странице стоит хитрая защита. После загрузки страницы, производится анализ некоторых скрытых элементов, на основании этого формируется некий идентификатор, этот идентификатор записывается в document.cookie и делается релоад страницы. И только после этого сервер отдает нужный контент. Скрытые элементы бывают разные. Мне попадался <select> с кучей <option>, форма с набором радиокнопок, таблица с ячейками. Т.е. самому сформировать этот идентификатор очень геморройно. Я находил несколько JS движков на PHP (честно говоря детально еще не смотрел), но разработчики поставили еще такую защиту Код: javascript 1. 2. Т.е. JS код страницы формируется на самом JS. Находил еще упоминания о селениуме, но, как я понял, этот товарищ написан на Java и на хостинг его не выставишь. Собственно вопрос: есть ли какие нибудь штатные решения задачи или нужно писать свой велосипед на регэкспах? С уважением, Vasilisk ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
16.05.2013, 13:49
|
|||
|---|---|---|---|
CURL JavaScript движок |
|||
|
#18+
авторНаходил еще упоминания о селениуме, но, как я понял, этот товарищ написан на Java и на хостинг его не выставишь. Ну так VDS ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
16.05.2013, 13:51
|
|||
|---|---|---|---|
CURL JavaScript движок |
|||
|
#18+
А как это согласуется "пишу робота" с кукисами и релоад? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
16.05.2013, 14:22
|
|||
|---|---|---|---|
|
|||
CURL JavaScript движок |
|||
|
#18+
HettНу так VDSМожно подумать, но уже дедлайн скоро :) ShSergeА как это согласуется "пишу робота" с кукисами и релоад?Нужный контент на странице появляется только при запросе этой страницы с нужным куком. Сам кук формируется JS кодом страницы ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
17.05.2013, 10:18
|
|||
|---|---|---|---|
|
|||
CURL JavaScript движок |
|||
|
#18+
_Vasilisk_Т.е. самому сформировать этот идентификатор очень геморройно. Начало 90-х было золотой эпохой, когда тянущиеся к познанию настоящих истин компьютерного программирования не боялись лишнего геморроя, а брали в руки карандаш, проводили кропотливый анализ изучая машинный код, и если хотите по буковкам создавали шедевры ПО. В вашем случае нужны только чуточка терпения и старательность. Начните aнализ кода страницы например с тега <noscript>. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|

start [/forum/topic.php?fid=23&mobile=1&tid=1463815]: |
0ms |
get settings: |
7ms |
get forum list: |
9ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
57ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
39ms |
get tp. blocked users: |
1ms |
| others: | 264ms |
| total: | 393ms |

| 0 / 0 |
