Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / CURL JavaScript движок / 5 сообщений из 5, страница 1 из 1
16.05.2013, 13:46
    #38260214
_Vasilisk_
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
CURL JavaScript движок
Пишу робота, который скачивает и парсит определенную страницу. Проблема в том, что на странице стоит хитрая защита. После загрузки страницы, производится анализ некоторых скрытых элементов, на основании этого формируется некий идентификатор, этот идентификатор записывается в document.cookie и делается релоад страницы. И только после этого сервер отдает нужный контент.

Скрытые элементы бывают разные. Мне попадался <select> с кучей <option>, форма с набором радиокнопок, таблица с ячейками. Т.е. самому сформировать этот идентификатор очень геморройно. Я находил несколько JS движков на PHP (честно говоря детально еще не смотрел), но разработчики поставили еще такую защиту
Код: javascript
1.
2.
s := 'function x() {........}; function y() {........};'
document.write('<script>' + s + '<' + '/script>')


Т.е. JS код страницы формируется на самом JS.

Находил еще упоминания о селениуме, но, как я понял, этот товарищ написан на Java и на хостинг его не выставишь.

Собственно вопрос: есть ли какие нибудь штатные решения задачи или нужно писать свой велосипед на регэкспах?

С уважением, Vasilisk
...
Рейтинг: 0 / 0
16.05.2013, 13:49
    #38260226
Hett
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
CURL JavaScript движок
авторНаходил еще упоминания о селениуме, но, как я понял, этот товарищ написан на Java и на хостинг его не выставишь.
Ну так VDS
...
Рейтинг: 0 / 0
16.05.2013, 13:51
    #38260233
ShSerge
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
CURL JavaScript движок
А как это согласуется "пишу робота" с кукисами и релоад?
...
Рейтинг: 0 / 0
16.05.2013, 14:22
    #38260307
_Vasilisk_
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
CURL JavaScript движок
HettНу так VDSМожно подумать, но уже дедлайн скоро :)
ShSergeА как это согласуется "пишу робота" с кукисами и релоад?Нужный контент на странице появляется только при запросе этой страницы с нужным куком. Сам кук формируется JS кодом страницы
...
Рейтинг: 0 / 0
17.05.2013, 10:18
    #38261445
phpz
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
CURL JavaScript движок
_Vasilisk_Т.е. самому сформировать этот идентификатор очень геморройно.
Начало 90-х было золотой эпохой, когда тянущиеся к познанию настоящих истин компьютерного программирования не боялись лишнего геморроя, а брали в руки карандаш, проводили кропотливый анализ изучая машинный код, и если хотите по буковкам создавали шедевры ПО. В вашем случае нужны только чуточка терпения и старательность. Начните aнализ кода страницы например с тега <noscript>.
...
Рейтинг: 0 / 0
Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / CURL JavaScript движок / 5 сообщений из 5, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]