Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
Привет всем. Используя Simple HTML DOM Parser, получаю набор строк с сайта (содержимое страницы) через file_get_html. Часть подстроки с различных страниц приходит почему-то в разных кодировках. По крайнеей мере, после записи в файл я это вижу. Вариант раз (первая чать кривая, вторая - нормальная): noaiaa?o n ieiuaaeie iia eaaaaeo Бампер силовой задний РИФ для UAZ вариант два (наоборот, первая ок, вторая не ок): UAZ Hunter стандарт с калиткой Бампер силовой задний Р Р Вопрос: существует ли класс, который понимает, что пришло и преобразует всё в один формат? Сами страницы исходно как бы cp1251, но видимо наполнение всё же различное. А браузер понимает и отображает нормально, без каракуль. Пробовал iconv (cp1251, utf-8, $text) нет положительного реультата Пробовал этот класс , но он не помог. В частности fixUTF возвращает только знаки вопроса. Помогите решить вопрос, пожалуйста. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.11.2013, 11:10 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
Anton Klyauzov А браузер понимает и отображает нормально, без каракуль. Не верю, что браузер нормально отображает страницу, у которой половина в 1251, а половина в utf8 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.11.2013, 11:14 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
Чего только не придумают чтоб контент не тырили ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.11.2013, 11:17 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
vkle, ну не, тут нет воровства. Мы - официальное представительство этой компании в своем регионе. Всё с разрешения. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.11.2013, 11:56 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
Вот пример исходника: http://autoventuri.ru/edit_book_form2.php?idtov=1210 Код парсинга примерно такой: Код: php 1. 2. 3. 4. 5. получим вот это: ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.11.2013, 12:02 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
Anton KlyauzovМы - официальное представительство этой компании в своем регионе.А отчего же нельзя официально запросить исходные данные в подходящем формате? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.11.2013, 12:26 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
vkle, А потому что заниматься этим на той стороне некому. Все, типа, заняты. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.11.2013, 16:15 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
Anton KlyauzovКод парсинга примерно такойНу значит проблема в вашем парсере. Потому что если утянуть эту страничку через file_get_contentы(), то весть текст идет в одной кодировке. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.11.2013, 16:37 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
Оказалось, проблема действительно в парсере. Саму реализацию в коде не стал искать но нашел закономерность. Если у нашего найденного "объекта" $parent содержимое начинается с простого текста, а не с с тега, и при этом обращаться к нему как к $parent->innertext то возникает такая чехарда с кодировками у текста, не заключенного в теги, например <p>. В таком случае достаточно просто взять и обратиться к содержимому как echo $parent к примеру. Всё будет обработано корректно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.11.2013, 22:16 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
Anton Klyauzov, кодировка для всей страницы задается. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.11.2013, 17:08 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
user199617Anton Klyauzov, кодировка для всей страницы задается. Это я прекрасно понимаю, не первый год в веб разработке. Парсер видимо как то не так реагирует на конструкции без открывающего тега. Ну и еще кодировка на исходном сервере cp1251, а на обрабатывающем - utf-8, тут возможны тоже несостыковки ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.11.2013, 17:58 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
Блин товарищ помоги таже песня половина текста на utf-8 половина на 1251 вылазит, хотя как описано выше все в одном виде у поставщика :) Как вы парсер правили? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.01.2014, 14:30 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
Если кому понадобится на будущие!!! simple_html_dom.php $converted_text = iconv($sourceCharset, $targetCharset, $text); меняем на $converted_text = $text; И автодетектор (кривой) убирается. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.01.2014, 15:08 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
А еще лучше исправить restore_noise заменить return $text; на return $this->nodes[0]->convert_text($text); правда на скорую руку сделал и не везде тестировал ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.07.2014, 16:02 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
автор// clean up memory due to php5 circular references memory leak... function clear() { $this->dom = null; $this->nodes = null; $this->parent = null; $this->children = null; } Выбери терабайты бесплатного кода написанного криворукими самоучками... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.07.2014, 16:13 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
ScareCrowавтор// clean up memory due to php5 circular references memory leak... function clear() { $this->dom = null; $this->nodes = null; $this->parent = null; $this->children = null; } Выбери терабайты бесплатного кода написанного криворукими самоучками... вот любишь ты погнать. А то ты не самоучка?? наверно в универе годовые курсы слушал по пхп, джаваскрипту и прочему??? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.07.2014, 16:37 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
у меня в дипломе написанно "инженер-программист". я инженер. программист. а ты кто? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.07.2014, 16:57 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
ScareCrowу меня в дипломе написанно "инженер-программист". я инженер. программист. а ты кто? :) магистр. информационные управляющие системы и технологии. но пхп в универе не учат. только основы веб = штмл, даже без стилей и джаваскрипта ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.07.2014, 17:11 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
alex564657498765453ScareCrowу меня в дипломе написанно "инженер-программист". я инженер. программист. а ты кто? :) магистр. информационные управляющие системы и технологии. но пхп в универе не учат. только основы веб = штмл, даже без стилей и джаваскрипта иди учись. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.07.2014, 17:15 |
|
||
|
Смешанные кодировки входных данных привести к UTF-8
|
|||
|---|---|---|---|
|
#18+
ScareCrowalex564657498765453пропущено... :) магистр. информационные управляющие системы и технологии. но пхп в универе не учат. только основы веб = штмл, даже без стилей и джаваскрипта иди учись. так ты не ответил - ты пхп где учил? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.07.2014, 17:32 |
|
||
|
|

start [/forum/topic.php?fid=23&msg=38689655&tid=1462631]: |
0ms |
get settings: |
10ms |
get forum list: |
11ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
37ms |
get topic data: |
6ms |
get forum data: |
2ms |
get page messages: |
51ms |
get tp. blocked users: |
1ms |
| others: | 252ms |
| total: | 374ms |

| 0 / 0 |
