powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / Проблема с парсингом через curl
13 сообщений из 13, страница 1 из 1
Проблема с парсингом через curl
    #38356952
Фотография meg17m
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
При парсинге сайта через прокси:
Выдает:
Код: php
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
	public function action_checkfreetorrentsorg() {
		$data = $this->get_proxy('ххх.хх', 'хххххх:ххх');
		echo $data;
	}
	
	public function get_proxy($url, $proxy)
	{
		$ch = curl_init();
		curl_setopt($ch, CURLOPT_URL, $url);
		curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
		curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.0.1) Gecko/2008070208');
		curl_setopt($ch, CURLOPT_PROXY, "$proxy");
		$ss=curl_exec($ch);
		curl_close($ch);
		return $ss;
	}



Код: php
1.
&#65533;&#65533;&#65533;[w[&#1493;&#65533;&#65533;l~&#65533;e8&#584;&#65533;&#65533;$H&#65533;&#65533;&#65533;&#886;&#65533;VI&#65533;&#65533;*&#455;c&#65533;$a&#65533;u&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;<&#65533;5&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;q:n&#471;&#65533;I&#65533;N&#65533;3&#65533;H"D@J&;#65533;|(K&#65533;&#65533;k&#65533; l\H&#65533;&#65533;T&#65533;&#65533;*&#65533;&#65533;&#65533;^&#65533;&#65533;&#65533;&#65533;?&#65533;&#65533;&#33511;^?y&#65533;&#65533;&#991;V&#65533;^:wV&#65533;&#65533;&#65533;&#65533;3'&#65533;&#65533;&#65533;2z27gO&#65533;&#65533;&#65533;&#65533;Y&#65533;&#65533;&#65533;|.&#65533;+R&#65533;fm)&#254;64&#65533;&#65533;drW&#65533;&#65533;b&#65533;&#65533;&#65533;'o&#65533;&#65533;&#65533;)m&#65533;z&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;od&#65533; &#65533;^&#65533;&#65533;&#65533;=&#65533;&#65533;«&#65533;8q&#65533;&#65533;&#65533;&#65533;x&#65533;&#65533;k'&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;G&#991; &#65533;&#65533;&#65533;&#65533;&#65533;&#65533;y&#65533;&#65533;&#65533;&#65533;;&#29017;t&#65533;&#65533;&#65533;&#1753;	&#65533;&#65533;)&#65533;&#65533;&#65533;UdЊL .&#65533;&#65533;g&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;ks~&#65533;&#65533;&#65533;&#65533;u&#65533;d&#1470;&#65533;&#65533;&#65533;B&#65533;&#65533;&#65533;&#65533;&#1660;=&#65533;&#65533; &#65533;d@?)&#65533;&#31680;V&#65533;&#871;&#65533;&#65533;e&#65533;&#65533;&#65533;gPb8&#1710;}~~{F%&#65533;n#&#65533;=&#65533;v:&#741;&#65533;_S&#65533;X&#65533;&#65533;&#65533;0k&#65533;Ew&#259;l`,&#65533;d@&#65533; u&#65533;KO/&#65533;&#65533;t.&#65533;0,&#65533;s&#65533;&Y!&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#1945;&#65533;sV:`&#65533;:ve"w&#65533;_s&#65533;j&#65533;8O&#65533;&#65533;&#65533;&#65533;=gO9&#65533;&#1569;p&#996;M&#65533;r&#65533;&#65533;&#65533;&#65533;3&#65533;&#65533;-&#65533;9&#65533;E&#65533;&#65533;_&#65533;&#65533;&#65533;=&#65533;&#65533;|1&#65533;PT&#1943;;&#65533;&#65533;}&#65533;{	&#65533;d>=_t&#65533;&#65533;&#65533;&#65533;w&#65533;+&#65533;&#65533;&#65533;S&#65533;|r·&#65533;`&#869;&#65533;&#65533;;&#65533;&#65533;;&#65533;&#65533;`&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;;2H&#65533;8&#65533;Sм&#65533;&#65533;<&#882;&#65533;T&#65533;Q&#65533;&#65533;-%&#65533;H&#65533;R&#65533;&#65533;3&#65533;w&#65533;&#683;&#65533;\&#65533;xfnf&#65533;&#65533;u&#65533;&#65533;&#65533;TqVM(&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;_EB&#65533;#&#65533;[&#65533;g&#65533;3Y;&#65533;}&#65533;&#65533;U&#65533; &#65533;s&#65533;&#1280;&#65533;&#65533;`t&#65533;&#65533;&#65533;Z&#65533;&#65533;&#65533;4&#65533;N&#65533;&#65533;M&#1401;&#65533;&#65533;/N&#65533;S&#65533;&#65533;&#65533;&#65533;&#65533;Tf&#65533;=&#65533;&#65533;&#65533;y&#65533;!G&#65533;`	&#65533;&#65533;&#65533;Ra&#65533;&#65533;,Lg xk&#65533;&#65533;&#37602;&#65533;&#65533;A4&#65533;M%2V&#65533;2s&#65533;&#65533;Y&#65533;&#65533;&#65533;&#65533;G&#65533;>% A&#65533;nJj&#65533;&#65533;&#65533;f&#65533;&#65533;N&#65533;Jo&#65533;t&#65533;&#65533;I &#65533;G&#65533;s&#65533;&#65533;}&#65533;1&#65533;0&#65533;;z5&#65533;&#65533;&#65533;qG*&#65533;&#65533;&#65533;>&#65533;o&#65533;&#65533;w&#65533;&#65533;&#65533;&#65533;x}&#65533;&#65533;X=&#65533;|



Это что: защита на парсинг. Если да, как ее обойти? Если парсить через file_get_contents - та же фигня.
...
Рейтинг: 0 / 0
Проблема с парсингом через curl
    #38356955
Фотография meg17m
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MegaLasta,

тоесть выдает иероглифы вместо контента
...
Рейтинг: 0 / 0
Проблема с парсингом через curl
    #38357092
Фотография meg17m
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Код: php
1.
curl_setopt($ch, CURLOPT_HTTPHEADER, array("Content-type: text/xml;charset=\"windows-1251\""));


не помогает...
...
Рейтинг: 0 / 0
Проблема с парсингом через curl
    #38357104
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Проблема с парсингом через curl
    #38357121
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MegaLasta
Код: php
1.
curl_setopt($ch, CURLOPT_HTTPHEADER, array("Content-type: text/xml;charset=\"windows-1251\""));


не помогает...
а это вообще заголовок ОТВЕТА. responce header
...
Рейтинг: 0 / 0
Проблема с парсингом через curl
    #38357154
Фотография meg17m
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ScareCrow,

поменял кодировку вызывающего скрипта на windows-1251 - не помогло
...
Рейтинг: 0 / 0
Проблема с парсингом через curl
    #38357233
h34d3r
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
MegaLasta,

Accept, Accept-Charset, Accept-Encoding, Accept-Language
...
Рейтинг: 0 / 0
Проблема с парсингом через curl
    #38357290
Фотография meg17m
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
я сейчас пишу:
Код: php
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body>
<?php
	header("Content-Type: text/html; charset=utf-8");
	$data = get_proxy('xxx', '178.208.255.653:3128');
	//$data = iconv("utf-8", "windows-1251", $data);
	echo mb_detect_encoding($data).'<br>';
	echo strlen($data).'<br>';
	echo $data;
	echo strpos($data,'src="//free-torrents.org/forum/images/Banner 300-2.swf');
	
	function get_proxy($url, $proxy)
	{
		$ch = curl_init();
		
		$headers = array(
                    'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
                    'Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3',
                    'Accept-Encoding: deflate',
                    'Accept-Charset: utf-8;q=0.7,*;q=0.7');
		
		curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
		//curl_setopt($ch, CURLOPT_HTTPHEADER, array("Content-type: text/xml;charset='windows-1251'"));
		curl_setopt($ch, CURLOPT_URL, $url);
		curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
		curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.0.1) Gecko/2008070208');
		curl_setopt($ch, CURLOPT_PROXY, "$proxy");
		$ss=curl_exec($ch);
		curl_close($ch);
		return $ss;
	} 

?>
</body>
</html>



Код: php
1.
echo mb_detect_encoding($data).'<br>';

- выдает utf-8.
Весь файл в utf-8, но все равно выдает кракозябры что и выше. Что еще может быть не так? Пробовал менять все на windows-1251 - не помогает.
...
Рейтинг: 0 / 0
Проблема с парсингом через curl
    #38357293
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
авторвыдает utf-8.
curl_setopt($this->_ch, CURLINFO_HEADER_OUT, true);

и после curl_exec
var_dump(curl_getinfo($this->_ch, CURLINFO_HEADER_OUT));
...
Рейтинг: 0 / 0
Проблема с парсингом через curl
    #38357299
Фотография meg17m
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ScareCrow,

выдало вот это:
Код: php
1.
string(390) "GET http://ххх.org/forum/portal.php HTTP/1.1 User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.0.1) Gecko/2008070208 Host: free-torrents.org Proxy-Connection: Keep-Alive Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3 Accept-Encoding: deflate Accept-Charset: utf-8;q=0.7,*;q=0.7 "
...
Рейтинг: 0 / 0
Проблема с парсингом через curl
    #38357305
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
http://ххх.org/forum/portal.php
Host: free-torrents.org

и не надоело еще.
авторResponse Headersview source
Cache-Control private, pre-check=0, post-check=0, max-age=0
Content-Encoding gzip
Content-Type text/html
автор<meta http-equiv="Content-Type" content="text/html; charset=windows-1251" />
...
Рейтинг: 0 / 0
Проблема с парсингом через curl
    #38357310
Фотография meg17m
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ScareCrow http://ххх.org/forum/portal.php
Host: free-torrents.org

и не надоело еще.
авторResponse Headersview source
Cache-Control private, pre-check=0, post-check=0, max-age=0
Content-Encoding gzip
Content-Type text/html
автор<meta http-equiv="Content-Type" content="text/html; charset=windows-1251" />

так я не совсем понял, где ошибка в парсере?
...
Рейтинг: 0 / 0
Проблема с парсингом через curl
    #38357450
vkle
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не понял, а где собственно сам то парсер?
...
Рейтинг: 0 / 0
13 сообщений из 13, страница 1 из 1
Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / Проблема с парсингом через curl
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]