Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / парсинг страниц / 13 сообщений из 13, страница 1 из 1
16.08.2013, 21:45
    #38369486
JustCrazy
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг страниц
добрый вечер, помогите пожалуйста разобраться в таком вопросе:
есть страничка сайта типа
Код: php
1.
http://my-web-site.com/page/

пытаюсь вытянуть исходники курлом, как я делал для страниц типа
Код: php
1.
http://my-web-site.com/page.php/

а мне в ответ пустота... куда копать ?
...
Рейтинг: 0 / 0
16.08.2013, 21:53
    #38369488
vkle
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг страниц
JustCrazyпытаюсьКак именно?
...
Рейтинг: 0 / 0
16.08.2013, 21:57
    #38369491
JustCrazy
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг страниц
функцией
function get_web_page($url)
{
$uagent="Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8";
$ch = curl_init( $url );
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_ENCODING, "");
curl_setopt($ch, CURLOPT_USERAGENT, $uagent);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10);
curl_setopt($ch, CURLOPT_TIMEOUT, 10);
curl_setopt($ch, CURLOPT_MAXREDIRS, 5);
$content=curl_exec( $ch );
$err=curl_errno( $ch );
$errmsg=curl_error( $ch );
$header=curl_getinfo( $ch );
curl_close( $ch );
$header['errno']=$err;
$header['errmsg']=$errmsg;
$header['content']=$content;
return $header;
}
...
Рейтинг: 0 / 0
16.08.2013, 22:06
    #38369497
vkle
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг страниц
JustCrazy,
Код: php
1.
var_dump(get_web_page("http://sql.ru/"));


Код: php
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
array(29) {
  ["url"]=>
  string(18) "http://www.sql.ru/"
  ["content_type"]=>
  string(31) "text/html; charset=windows-1251"
  ["http_code"]=>
  int(200)
  ["header_size"]=>
  int(581)
  ["request_size"]=>
  int(360)
  ["filetime"]=>
  int(-1)
  ["ssl_verify_result"]=>
  int(0)
  ["redirect_count"]=>
  int(1)
  ["total_time"]=>
  float(1.021068)
  ["namelookup_time"]=>
  float(0.157675)
  ["connect_time"]=>
  float(0.2607)
  ["pretransfer_time"]=>
  float(0.26075)
  ["size_upload"]=>
  float(0)
  ["size_download"]=>
  float(11856)
  ["speed_download"]=>
  float(11611)
  ["speed_upload"]=>
  float(0)
  ["download_content_length"]=>
  float(11856)
  ["upload_content_length"]=>
  float(0)
  ["starttransfer_time"]=>
  float(0.483728)
  ["redirect_time"]=>
  float(0.379055)
  ["certinfo"]=>
  array(0) {
  }
  ["primary_ip"]=>
  string(14) "89.188.113.172"
  ["primary_port"]=>
  int(80)
  ["local_ip"]=>
  string(11) "81.22.57.28"
  ["local_port"]=>
  int(55083)
  ["redirect_url"]=>
  string(0) ""
  ["errno"]=>
  int(0)
  ["errmsg"]=>
  string(0) ""
  ["content"]=>
  string(34889) "<?xml version="1.0"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html lang="ru" xmlns="http://www.w3.org/1999/xhtml" xml:lang="ru">

............ и так далее ............

Что я делаю не так?
...
Рейтинг: 0 / 0
16.08.2013, 22:12
    #38369504
vkle
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг страниц
JustCrazy,

По Вашему адресу тоже возвращается страничка:
Код: php
1.
2.
3.
4.
5.
6.
7.
8.
9.
  ["content"]=>
  string(780) "<frameset rows="100%,*" frameborder="no" border="0" framespacing="0">
	<frame src="http://my-web-site.com/?fp=5%2B6sZTKocp16JzvZv7kTpqdL4WVnZuqUxRgmoq1OmLcHFEfDKa7q8XF%2BPqzfFk%2Bn0q3Gt343zCJDjBq4BYBXRQ%3D%3D&prvtof=NvUYd1B1zFKzkTFaGtWq4ykMvXDqxFFHEbhNvBmMJrA%3D&poru=ZkxZaWRpvP43E4yYl2RdvflRnmEL3E4YCxcZ%2BiHfkAjF77AyLI2s6tpeehOTYj8effmfTQRP7R923SmnvOwwjw%3D%3D&">
</frameset>
<noframes>
	<body bgcolor="#ffffff" text="#000000">
	<a href="http://my-web-site.com/?fp=5%2B6sZTKocp16JzvZv7kTpqdL4WVnZuqUxRgmoq1OmLcHFEfDKa7q8XF%2BPqzfFk%2Bn0q3Gt343zCJDjBq4BYBXRQ%3D%3D&prvtof=aVrkJWtzi2BpP67JV2fmb5Lda0B2P4gxUk%2BuykA2MEo%3D&poru=WBgT4eAdyGnLU5t4nwpHRCOWIL3AHCd28cMzR5SLNnIFmbLNJa573K6f6eP%2BHpPJIaRPq%2BoNGCpIad858EC3bA%3D%3D&">Click here to proceed</a>.
	</body>
</noframes>"
...
Рейтинг: 0 / 0
16.08.2013, 22:17
    #38369506
JustCrazy
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг страниц
vkleПо Вашему адресу тоже возвращается страничка:
ну адрес то я не реальный указал (любые совпадения считать случайными)
и функция рабочая, я же говорю, что ей без проблем всегда тянул исходники, а тут странности какие-то
...
Рейтинг: 0 / 0
16.08.2013, 23:34
    #38369540
vkle
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг страниц
Показывайте реальный проблемный адрес.
...
Рейтинг: 0 / 0
17.08.2013, 22:27
    #38369866
JustCrazy
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг страниц
vkleПоказывайте реальный проблемный адрес.
...
Рейтинг: 0 / 0
17.08.2013, 22:36
    #38369870
vkle
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг страниц
JustCrazy_http://chaoshd.com/unique-runes/И с этого URL прекрасно возвращается контент. Возможно, Вас забанил по IP владелец этого ресурса. Попробуйте с ним связаться для разрешения вопроса.
...
Рейтинг: 0 / 0
17.08.2013, 22:50
    #38369877
JustCrazy
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг страниц
vkleИ с этого URL прекрасно возвращается контент. Возможно, Вас забанил по IP владелец этого ресурса. Попробуйте с ним связаться для разрешения вопроса.
Спасибо, будем разбираться. Прошу как модератора замаскировать ссыль в предыдущем посте.
...
Рейтинг: 0 / 0
17.08.2013, 23:14
    #38369889
vkle
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг страниц
JustCrazy,

Ссылку убрал. Насчет бана по IP поспешил. Ведь тогда была бы ошибка подключения, а не пустота.
...
Рейтинг: 0 / 0
18.08.2013, 10:17
    #38369971
ShSerge
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг страниц
vkleJustCrazy,

Ссылку убрал. Насчет бана по IP поспешил. Ведь тогда была бы ошибка подключения, а не пустота.
Не знаю точно, что там происходит, но подозреваю, что дело в том, что некоторые хост-провайдеры очень не любят курл, филе_гет_контентс и прочие "внешние запросы". Например, ни на одном бесплатном хостинге, это дело работать не будет.
...
Рейтинг: 0 / 0
19.08.2013, 17:33
    #38371010
JustCrazy
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг страниц
ShSergeНе знаю точно, что там происходит, но подозреваю, что дело в том, что некоторые хост-провайдеры очень не любят курл, филе_гет_контентс и прочие "внешние запросы". Например, ни на одном бесплатном хостинге, это дело работать не будет.по-моему этот пост совсем не к месту, т.к. в самом начале я указывал, что одни страницы тяну без проблем, а другие нет и дело тут не в хост-провайдере. А что касается бесплатных хостеров, то тут вы тоже не правы, есть достаточное количество их, которые предоставляют возможность "внешних запросов".
...
Рейтинг: 0 / 0
Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / парсинг страниц / 13 сообщений из 13, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]