Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / Проблема с парсингом через curl / 13 сообщений из 13, страница 1 из 1
06.08.2013, 16:21
    #38356952
meg17m
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Проблема с парсингом через curl
При парсинге сайта через прокси:
Выдает:
Код: php
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
	public function action_checkfreetorrentsorg() {
		$data = $this->get_proxy('ххх.хх', 'хххххх:ххх');
		echo $data;
	}
	
	public function get_proxy($url, $proxy)
	{
		$ch = curl_init();
		curl_setopt($ch, CURLOPT_URL, $url);
		curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
		curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.0.1) Gecko/2008070208');
		curl_setopt($ch, CURLOPT_PROXY, "$proxy");
		$ss=curl_exec($ch);
		curl_close($ch);
		return $ss;
	}



Код: php
1.
&#65533;&#65533;&#65533;[w[&#1493;&#65533;&#65533;l~&#65533;e8&#584;&#65533;&#65533;$H&#65533;&#65533;&#65533;&#886;&#65533;VI&#65533;&#65533;*&#455;c&#65533;$a&#65533;u&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;<&#65533;5&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;q:n&#471;&#65533;I&#65533;N&#65533;3&#65533;H"D@J&;#65533;|(K&#65533;&#65533;k&#65533; l\H&#65533;&#65533;T&#65533;&#65533;*&#65533;&#65533;&#65533;^&#65533;&#65533;&#65533;&#65533;?&#65533;&#65533;&#33511;^?y&#65533;&#65533;&#991;V&#65533;^:wV&#65533;&#65533;&#65533;&#65533;3'&#65533;&#65533;&#65533;2z27gO&#65533;&#65533;&#65533;&#65533;Y&#65533;&#65533;&#65533;|.&#65533;+R&#65533;fm)&#254;64&#65533;&#65533;drW&#65533;&#65533;b&#65533;&#65533;&#65533;'o&#65533;&#65533;&#65533;)m&#65533;z&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;od&#65533; &#65533;^&#65533;&#65533;&#65533;=&#65533;&#65533;«&#65533;8q&#65533;&#65533;&#65533;&#65533;x&#65533;&#65533;k'&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;G&#991; &#65533;&#65533;&#65533;&#65533;&#65533;&#65533;y&#65533;&#65533;&#65533;&#65533;;&#29017;t&#65533;&#65533;&#65533;&#1753;	&#65533;&#65533;)&#65533;&#65533;&#65533;UdЊL .&#65533;&#65533;g&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;ks~&#65533;&#65533;&#65533;&#65533;u&#65533;d&#1470;&#65533;&#65533;&#65533;B&#65533;&#65533;&#65533;&#65533;&#1660;=&#65533;&#65533; &#65533;d@?)&#65533;&#31680;V&#65533;&#871;&#65533;&#65533;e&#65533;&#65533;&#65533;gPb8&#1710;}~~{F%&#65533;n#&#65533;=&#65533;v:&#741;&#65533;_S&#65533;X&#65533;&#65533;&#65533;0k&#65533;Ew&#259;l`,&#65533;d@&#65533; u&#65533;KO/&#65533;&#65533;t.&#65533;0,&#65533;s&#65533;&Y!&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#1945;&#65533;sV:`&#65533;:ve"w&#65533;_s&#65533;j&#65533;8O&#65533;&#65533;&#65533;&#65533;=gO9&#65533;&#1569;p&#996;M&#65533;r&#65533;&#65533;&#65533;&#65533;3&#65533;&#65533;-&#65533;9&#65533;E&#65533;&#65533;_&#65533;&#65533;&#65533;=&#65533;&#65533;|1&#65533;PT&#1943;;&#65533;&#65533;}&#65533;{	&#65533;d>=_t&#65533;&#65533;&#65533;&#65533;w&#65533;+&#65533;&#65533;&#65533;S&#65533;|r·&#65533;`&#869;&#65533;&#65533;;&#65533;&#65533;;&#65533;&#65533;`&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;;2H&#65533;8&#65533;Sм&#65533;&#65533;<&#882;&#65533;T&#65533;Q&#65533;&#65533;-%&#65533;H&#65533;R&#65533;&#65533;3&#65533;w&#65533;&#683;&#65533;\&#65533;xfnf&#65533;&#65533;u&#65533;&#65533;&#65533;TqVM(&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;_EB&#65533;#&#65533;[&#65533;g&#65533;3Y;&#65533;}&#65533;&#65533;U&#65533; &#65533;s&#65533;&#1280;&#65533;&#65533;`t&#65533;&#65533;&#65533;Z&#65533;&#65533;&#65533;4&#65533;N&#65533;&#65533;M&#1401;&#65533;&#65533;/N&#65533;S&#65533;&#65533;&#65533;&#65533;&#65533;Tf&#65533;=&#65533;&#65533;&#65533;y&#65533;!G&#65533;`	&#65533;&#65533;&#65533;Ra&#65533;&#65533;,Lg xk&#65533;&#65533;&#37602;&#65533;&#65533;A4&#65533;M%2V&#65533;2s&#65533;&#65533;Y&#65533;&#65533;&#65533;&#65533;G&#65533;>% A&#65533;nJj&#65533;&#65533;&#65533;f&#65533;&#65533;N&#65533;Jo&#65533;t&#65533;&#65533;I &#65533;G&#65533;s&#65533;&#65533;}&#65533;1&#65533;0&#65533;;z5&#65533;&#65533;&#65533;qG*&#65533;&#65533;&#65533;>&#65533;o&#65533;&#65533;w&#65533;&#65533;&#65533;&#65533;x}&#65533;&#65533;X=&#65533;|



Это что: защита на парсинг. Если да, как ее обойти? Если парсить через file_get_contents - та же фигня.
...
Рейтинг: 0 / 0
06.08.2013, 16:22
    #38356955
meg17m
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Проблема с парсингом через curl
MegaLasta,

тоесть выдает иероглифы вместо контента
...
Рейтинг: 0 / 0
06.08.2013, 17:05
    #38357092
meg17m
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Проблема с парсингом через curl
Код: php
1.
curl_setopt($ch, CURLOPT_HTTPHEADER, array("Content-type: text/xml;charset=\"windows-1251\""));


не помогает...
...
Рейтинг: 0 / 0
06.08.2013, 17:10
    #38357104
ScareCrow
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Проблема с парсингом через curl
...
Рейтинг: 0 / 0
06.08.2013, 17:15
    #38357121
ScareCrow
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Проблема с парсингом через curl
MegaLasta
Код: php
1.
curl_setopt($ch, CURLOPT_HTTPHEADER, array("Content-type: text/xml;charset=\"windows-1251\""));


не помогает...
а это вообще заголовок ОТВЕТА. responce header
...
Рейтинг: 0 / 0
06.08.2013, 17:25
    #38357154
meg17m
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Проблема с парсингом через curl
ScareCrow,

поменял кодировку вызывающего скрипта на windows-1251 - не помогло
...
Рейтинг: 0 / 0
06.08.2013, 17:54
    #38357233
h34d3r
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Проблема с парсингом через curl
MegaLasta,

Accept, Accept-Charset, Accept-Encoding, Accept-Language
...
Рейтинг: 0 / 0
06.08.2013, 18:22
    #38357290
meg17m
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Проблема с парсингом через curl
я сейчас пишу:
Код: php
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body>
<?php
	header("Content-Type: text/html; charset=utf-8");
	$data = get_proxy('xxx', '178.208.255.653:3128');
	//$data = iconv("utf-8", "windows-1251", $data);
	echo mb_detect_encoding($data).'<br>';
	echo strlen($data).'<br>';
	echo $data;
	echo strpos($data,'src="//free-torrents.org/forum/images/Banner 300-2.swf');
	
	function get_proxy($url, $proxy)
	{
		$ch = curl_init();
		
		$headers = array(
                    'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
                    'Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3',
                    'Accept-Encoding: deflate',
                    'Accept-Charset: utf-8;q=0.7,*;q=0.7');
		
		curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
		//curl_setopt($ch, CURLOPT_HTTPHEADER, array("Content-type: text/xml;charset='windows-1251'"));
		curl_setopt($ch, CURLOPT_URL, $url);
		curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
		curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.0.1) Gecko/2008070208');
		curl_setopt($ch, CURLOPT_PROXY, "$proxy");
		$ss=curl_exec($ch);
		curl_close($ch);
		return $ss;
	} 

?>
</body>
</html>



Код: php
1.
echo mb_detect_encoding($data).'<br>';

- выдает utf-8.
Весь файл в utf-8, но все равно выдает кракозябры что и выше. Что еще может быть не так? Пробовал менять все на windows-1251 - не помогает.
...
Рейтинг: 0 / 0
06.08.2013, 18:25
    #38357293
ScareCrow
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Проблема с парсингом через curl
авторвыдает utf-8.
curl_setopt($this->_ch, CURLINFO_HEADER_OUT, true);

и после curl_exec
var_dump(curl_getinfo($this->_ch, CURLINFO_HEADER_OUT));
...
Рейтинг: 0 / 0
06.08.2013, 18:30
    #38357299
meg17m
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Проблема с парсингом через curl
ScareCrow,

выдало вот это:
Код: php
1.
string(390) "GET http://ххх.org/forum/portal.php HTTP/1.1 User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.0.1) Gecko/2008070208 Host: free-torrents.org Proxy-Connection: Keep-Alive Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3 Accept-Encoding: deflate Accept-Charset: utf-8;q=0.7,*;q=0.7 "
...
Рейтинг: 0 / 0
06.08.2013, 18:34
    #38357305
ScareCrow
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Проблема с парсингом через curl
http://ххх.org/forum/portal.php
Host: free-torrents.org

и не надоело еще.
авторResponse Headersview source
Cache-Control private, pre-check=0, post-check=0, max-age=0
Content-Encoding gzip
Content-Type text/html
автор<meta http-equiv="Content-Type" content="text/html; charset=windows-1251" />
...
Рейтинг: 0 / 0
06.08.2013, 18:38
    #38357310
meg17m
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Проблема с парсингом через curl
ScareCrow http://ххх.org/forum/portal.php
Host: free-torrents.org

и не надоело еще.
авторResponse Headersview source
Cache-Control private, pre-check=0, post-check=0, max-age=0
Content-Encoding gzip
Content-Type text/html
автор<meta http-equiv="Content-Type" content="text/html; charset=windows-1251" />

так я не совсем понял, где ошибка в парсере?
...
Рейтинг: 0 / 0
06.08.2013, 21:12
    #38357450
vkle
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Проблема с парсингом через curl
Не понял, а где собственно сам то парсер?
...
Рейтинг: 0 / 0
Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / Проблема с парсингом через curl / 13 сообщений из 13, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]