(php) замена текста, пропуская html-мнемоники / PHP, Perl, Python

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / (php) замена текста, пропуская html-мнемоники

47 сообщений из 47, показаны все 2 страниц

все

(php) замена текста, пропуская html-мнемоники

#38708536

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

Например, имеется html-текст:

Код: html

0&amp;1;2;3

который при отображении страницы выглядит так:
0&1;2;3

В этом html-тексте точку с запятой нужно заменить переходом на новую строку:

Код: html

0&amp;1<br/>2<br/>3

и будет выглядеть это так:
0&1
2
3

Задача простая ? На первый взгляд.
Вручную парсить html-мнемоники не хочется. Можно ли решить задачу как-нибудь попроще ? Без ручного парсинга ?

Пару html_entity_decode / htmlentities использовать не получится, поскольку htmlentities у фрагмента ' ' заменит угловые скобки на html-сущности и в результате вместо перехода на новую строку мы получим строку ' ':
0&1 2 3

...

Рейтинг:

0 / 0

29.07.2014, 20:20

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38708602

vkle

Участник

Откуда: Самара

Сообщения: 14 253

Рейтинг: 0 / 0

Cyrax_02Пару html_entity_decode / htmlentities использовать не получится, поскольку htmlentities у фрагмента ' ' заменит угловые скобки на html-сущностиЭто было решение задачи в лоб. Думаю, можно сделать промежуточную замену, на что-то вроде '[br]', а затем, после обратного преобразования в сущности, заменить этот текст на требуемый.

Еще можно посмотреть в сторону регулярных выражений.

...

Рейтинг:

0 / 0

29.07.2014, 23:02

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38708745

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

авторДумаю, можно сделать промежуточную замену, на что-то вроде '[br]', а затем, после обратного преобразования в сущности, заменить этот текст на требуемый.
Вместо ' ' может быть любой текст, содержащий любые теги. Нужно общее решение.
Да, можно во фрагменте, на который происходит замена (в сабжевом примере - ' '), заменять все угловые скобки на некоторые комбинации, которые в html-тексте заведомо не встречаются (самый простой вариант - '[' и ']'), а в конце - их восстанавливать.

Но здесь есть 2 проблемы:
1. Комбинации, которые в html-тексте заведомо не встречаются , когда-нибудь могут встретиться.
2. После выполнения всех процедур в html-тексте железно все символы (имеющие html-мнемоники) будут заменены на эти самые html-мнемоники. А желательно сохранить исходную картину - так как было в самом начале (какие-то символы - в виде символов, какие-то - в виде html-мнемоник).
Т.е. данная процедура не должна производить никаких иных (побочных) манипуляций с html-строкой, кроме целевой замены (целевой задачи). Это одно из правил хорошего тона в программировании.

...

Рейтинг:

0 / 0

30.07.2014, 10:01

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38708747

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

Очень странно, что таком мощном языке как php не предусмотрено функций замены подстроки с исключением из поиска некоторых фрагментов (задаваемых, например, регуляркой).

...

Рейтинг:

0 / 0

30.07.2014, 10:03

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38708951

ScareCrow

Участник

Откуда: Белый город

Сообщения: 16 205

Рейтинг: 0 / 0

Cyrax_02Очень странно, что таком мощном языке как php не предусмотрено функций замены подстроки с исключением из поиска некоторых фрагментов (задаваемых, например, регуляркой).

то что вы их не знаете, не значит то их нет.

...

Рейтинг:

0 / 0

30.07.2014, 12:11

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38709092

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

А, ясно. Это т.н. скрытые функции php . Доступ только по паролю.

...

Рейтинг:

0 / 0

30.07.2014, 14:08

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38709139

ScareCrow

Участник

Откуда: Белый город

Сообщения: 16 205

Рейтинг: 0 / 0

https://php.net/manual/ru/function.preg-replace-callback.php

...

Рейтинг:

0 / 0

30.07.2014, 14:56

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38709218

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

ScareCrow https://php.net/manual/ru/function.preg-replace-callback.php Ну и каким образом Вы предполагаете внутри callback-функции определять, переданный ей фрагмент извлечён из html-сущности или нет ? (в первом случае замена выполняться НЕ должна, во втором случае - должна)

Внутри callback-функции контекст передаваемого ей фрагмента неизвестен.

...

Рейтинг:

0 / 0

30.07.2014, 15:58

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38709296

ScareCrow

Участник

Откуда: Белый город

Сообщения: 16 205

Рейтинг: 0 / 0

как хотите.

...

Рейтинг:

0 / 0

30.07.2014, 17:12

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38709391

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

Вообще-то, из того, что я описал, следует абсолютная бесполезность предложенной Вами функции preg_replace_callback() в решении сабжевой задачи.

...

Рейтинг:

0 / 0

30.07.2014, 18:32

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38709394

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

...а также голословность утверждения:
то что вы их не знаете, не значит то их нет.

...

Рейтинг:

0 / 0

30.07.2014, 18:34

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38709566

Програмёр

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

Cyrax_02,

ну вообще ScareCrow вроде прав в плане preg_replace_callback (если я верно понял).
можно составить регулярку как-то так: "/(&(#\d+|\w+))?;/"
это позволит выловить все ";", а также всё, что потенциально является &-последовательностью.
ну а в callback-е делать htmlspecialchars_decode выловленного участка, и если он не изменился, значит мы нашли не сущность и потому спокойно можем заменить ";" на " "

В общем как-то так :)

...

Рейтинг:

0 / 0

30.07.2014, 23:11

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38709745

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

авторможно составить регулярку как-то так: "/(&(#\d+|\w+))?;/"
это позволит выловить все ";", а также всё, что потенциально является &-последовательностью.
ну а в callback-е делать htmlspecialchars_decode выловленного участка, и если он не изменился, значит мы нашли не сущность и потому спокойно можем заменить ";" на " "Опять мимо:
1. htmlspecialchars_decode , htmlentities и html_entity_decode НЕ работают с кодами символов вида xxx;
2. Почему Вы зацикливаетесь на частностях ? Сегодня нужно найти заменить точку с запятой, завтра - амперсанд, а послезавтра - двузначное число.

После прочтения конкретного примера из 1-го поста, я так думаю, должна была решаться такая задача:
В строке str на подстроку substr2 необходимо заменить все подстроки substr1 , которые не входят в состав подстроки pass , задаваемой регулярным выражением.

P.S. Когда нам требуется написать парсер арифметического выражения 2+2, мы ведь не пишем парсер, который понимает только это выражение - мы пишем парсер, который работает с любым арифметическим выражением. Это же логично.

...

Рейтинг:

0 / 0

31.07.2014, 10:14

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38709961

Гость

Cyrax_02В строке str на подстроку substr2 необходимо заменить все подстроки substr1 , которые не входят в состав подстроки pass , задаваемой регулярным выражением.
preg_split с флагом PREG_SPLIT_DELIM_CAPTURE + preg_replace + implode.
Но вообще-то первоначальная постановка вызывает много вопросов, например - а надо ли делать замены в значениях атрибутов в htlm тегах? А во встроенных таблицах стилей / javascript? А html-entity достаточно просто проверять по регулярному выражению, или нужно учитывать только реально существующие?

...

Рейтинг:

0 / 0

31.07.2014, 13:06

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38710320

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

авторpreg_split с флагом PREG_SPLIT_DELIM_CAPTURE + preg_replace + implode.Такой вариант я уже реализовал (правда, вместо preg_split + PREG_SPLIT_DELIM_CAPTURE использовал preg_replace + explode ). По скорости вариант неприемлем. Потому что для каждого полученного фрагмента снова вызывается обработчик регулярок.
А обработчик регулярок должен быть вызван всего 1 раз - для разбития строки на подстроки по шаблону. Далее уже регулярки не трогаем. Такой вариант, думаю, реализуем с помощью preg_split + PREG_SPLIT_OFFSET_CAPTURE . Сейчас состряпаю...

...

Рейтинг:

0 / 0

31.07.2014, 18:49

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38710343

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

авторА обработчик регулярок должен быть вызван всего 1 раз - для разбития строки на подстроки по шаблону. Далее уже регулярки не трогаем. Такой вариант, думаю, реализуем с помощью preg_split + PREG_SPLIT_OFFSET_CAPTURE.Всё так и есть. Этот вариант работает в несколько раз быстрее:

Код: php

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.

function func_strReplaceWithExclusion($str, $substr1, $substr2, $pass = '') {
    $encoding = ...
        
    $output = '';
    if($pass == '') {
        $output = str_replace($substr1, $substr2, $str);
        
    } else {    
        if(preg_match($str, '') === false) { $pass = '/'.preg_quote($pass, '/').'/'; }
        $strParts = preg_split($pass, $str, -1, PREG_SPLIT_OFFSET_CAPTURE);
            
        $pos = 0;
        foreach($strParts as $part) {
            $output .= mb_substr($str, $pos, $part[1] - $pos, $encoding);
            $output .= str_replace($substr1, $substr2, $part[0]);
            $pos = $part[1] + mb_strlen($part[0], $encoding);
        }
    }
    return $output;
}

По скорости - вполне приемлем.

...

Рейтинг:

0 / 0

31.07.2014, 19:34

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38710351

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

Только вот здесь

Код: php

if(preg_match($str, '') === false) {...}

перед preg_match нужно поставить @

...

Рейтинг:

0 / 0

31.07.2014, 20:00

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38710424

Програмёр

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

Cyrax_02 P.S. Когда нам требуется написать парсер арифметического выражения 2+2, мы ведь не пишем парсер, который понимает только это выражение - мы пишем парсер, который работает с любым арифметическим выражением. Это же логично.

Да... вы правы... Нефига на Новый год покупать фейерверки, которые не способны запустить спутник в космос... А рогатку сыну только ту, из которой в случае чего можно завалить медведя...

Иначе смысл в таком фейерверке и в такой рогатке?
Ну думаю продолжать обсуждать задачу смысла нету, так как оказалось, что перед Вами стоит совсем не та задача, которую Вы описали.

авторВ строке str на подстроку substr2 необходимо заменить все подстроки substr1, которые не входят в состав подстроки pass, задаваемой регулярным выражением.

Код: php

$res = str_replace(array("/$pass/", "/$substr1/"), array("\0", $substr2), $str);

Только вот поставленная задача далека от первой, и соответственно решение к этой задаче не подойдёт для озвученной изначально. Или ставьте нормальную задачу... или закрывайте тему (а то Вам отвечают, а Вы тут аналогии непонятные приводите... типа поставили задачу, но решать надо не её, а некую сферическую в вакууме).

...

Рейтинг:

0 / 0

31.07.2014, 22:48

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38710583

vkle

Участник

Откуда: Самара

Сообщения: 14 253

Рейтинг: 0 / 0

Cyrax_02перед preg_match нужно поставить @Зачем?

...

Рейтинг:

0 / 0

01.08.2014, 10:42

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38710667

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

vkleCyrax_02перед preg_match нужно поставить @Зачем?
Чтобы не засорять логи.

...

Рейтинг:

0 / 0

01.08.2014, 11:53

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38710701

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

ПрограмёравторВ строке str на подстроку substr2 необходимо заменить все подстроки substr1, которые не входят в состав подстроки pass, задаваемой регулярным выражением.

Код: php

$res = str_replace(array("/$pass/", "/$substr1/"), array("\0", $substr2), $str);

...

Рейтинг:

0 / 0

01.08.2014, 12:20

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38710708

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

ПрограмёрТолько вот поставленная задача далека от первой, и соответственно решение к этой задаче не подойдёт для озвученной изначально. Или ставьте нормальную задачу... или закрывайте тему (а то Вам отвечают, а Вы тут аналогии непонятные приводите... типа поставили задачу, но решать надо не её, а некую сферическую в вакууме).
Вы сильно удивитесь, но решение задачи, которую выполняет функция func_strReplaceWithExclusion() - это и есть прямое и полное решение сабжевой задачи:

Код: php

1.
2.
3.
4.
5.

$str = '<span>0&amp;1;2;3/4/5</span>';
$substr1 = array('/', ';');
$substr2 = '<br/>';
$pass = '/(?:<[^<>]+>)|(?:\&\#?\w+;)/';  // в составе тегов и html-сущностей замена не производится
$output = func_strReplaceWithExclusion($str, $substr1, $substr2, $pass)

Получаем:

Код: html

<span>0&amp;1<br/>2<br/>3<br/>4<br/>5</span>

Если же что-то нужно заменить в составе тегов, то делаем так (используем ретроспективную позитивную проверку):

Код: php

1.
2.

$pass = '/(?:(?<=(?:^)|>)[^<>]+)|(?:\&\#?\w+;)/'  // в составе НЕтегов и html-сущностей замена не производится
$output = func_strReplaceWithExclusion($str, $substr1, $substr2, $pass)

P.S. Надеюсь, сферические кони в вакууме Вас больше не беспокоят ?

...

Рейтинг:

0 / 0

01.08.2014, 12:26

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38710978

Програмёр

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

Cyrax_02Програмёрпропущено...

Код: php

$res = str_replace(array("/$pass/", "/$substr1/"), array("\0", $substr2), $str);

Даже если предположить, что вместо str_replace Вы хотели написать preg_replace , то Ваш вариант всё-равно остаётся неработоспособным - в результирующей строке мы потеряем все фрагменты, соответствующие шаблону $pass.

да... ошибся... думал через str_replace делать... потом понял что не получится и переписал на preg_replace.... только вот перепечатать префикс забыл ))

А если сделать:

Код: php

$res = preg_replace(array("/$pass/", "/$substr1/"), array("\0", $substr2), $str);

то ничего не потеряется (тут Вы ошиблись)... первый шаблон заменится сам на себя, а второй - на то что нужно :)

...

Рейтинг:

0 / 0

01.08.2014, 15:32

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711015

Програмёр

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

Cyrax_02ПрограмёрТолько вот поставленная задача далека от первой, и соответственно решение к этой задаче не подойдёт для озвученной изначально. Или ставьте нормальную задачу... или закрывайте тему (а то Вам отвечают, а Вы тут аналогии непонятные приводите... типа поставили задачу, но решать надо не её, а некую сферическую в вакууме).
Вы сильно удивитесь, но решение задачи, которую выполняет функция func_strReplaceWithExclusion() - это и есть прямое и полное решение сабжевой задачи:

Код: php

1.
2.
3.
4.
5.

$str = '<span>0&amp;1;2;3/4/5</span>';
$substr1 = array('/', ';');
$substr2 = '<br/>';
$pass = '/(?:<[^<>]+>)|(?:\&\#?\w+;)/';  // в составе тегов и html-сущностей замена не производится
$output = func_strReplaceWithExclusion($str, $substr1, $substr2, $pass)

Получаем:

Код: html

<span>0&amp;1<br/>2<br/>3<br/>4<br/>5</span>

Нет ))) не всё что имеет формат "&\w+;" является &-последовательностью. Как пример -   и &nbps; Первая заменяется на пробел, а вторая не заменяется ни на что и не пропадает. Потому то я и сказал, что начальную задачу так не решить (без использования htmlspecialchars_decode или вбивания всех возможных мнемоник) :) А что Вы за лисапед намутили - вообще не понятно... решается одной строкой (как я написал, или просто регуляркой с использованием шаблона отрицательного просмотра назад (вроде так зовётся) )

P.S. Но как говорит мой бывший напарник - "тебе из погреба виднее". Просили подсказать - подсказали... а уж если свой вариант нравится больше, так никто же спорить не будет. Но если Ваш проект кому достанется... - я бы за такой код явно не поблагодарил :)

...

Рейтинг:

0 / 0

01.08.2014, 15:55

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711153

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

ПрограмёрА если сделать:

Код: php

$res = preg_replace(array("/$pass/", "/$substr1/"), array("\0", $substr2), $str);

то ничего не потеряется (тут Вы ошиблись)...Нет, я прав. Проверьте - и убедитесь, что строка $pass "теряется".
А после того, как проверите, Вам станет ясно, что вместо "\0" нужно было писать '\0' или '$0'. Это Ваша 2-я ошибка .

авторпервый шаблон заменится сам на себя, а второй - на то что нужно :)Да, второй шаблон заменится на то, что нужно, но не там, где нужно . Второй шаблон будет заменён и в том, фрагменте, который соответствует 1-му шаблону (во втором проходе). Т.е. точка с запятой будет заменена и в составе html-сущностей.
Это Ваша 3-я ошибка.

...

Рейтинг:

0 / 0

01.08.2014, 17:36

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711155

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

авторА что Вы за лисапед намутили - вообще не понятно... решается одной строкой (как я написал...Той строкой, в которой Вы допустили 3 ошибки ? И которая абсолютно неработоспособна ?

автор...или просто регуляркой с использованием шаблона отрицательного просмотра назад (вроде так зовётся) )Ретроспективная негативная проверка позволяет исключить слева какой-либо фрагмент, задаваемый регулярным выражением (например, можно вытащить из строки все html-теги или все текстовые фрагменты, не входящие в html-теги).
Но ни коим образом не позволяет в общем виде проверить вхождение/невхождение некоторой строки (например, точки с запятой или слэша) в более длинную строку (например, в html-сущность или тег). Т.е. одним лишь регулярным выражением невозможно выполнить замену только тех подстрок, которые не входят в состав другой подстроки, задаваемой регуляркой. Это Ваша 4-я ошибка .

авторP.S. Но как говорит мой бывший напарник - "тебе из погреба виднее". Просили подсказать - подсказали... а уж если свой вариант нравится больше, так никто же спорить не будет. Но если Ваш проект кому достанется... - я бы за такой код явно не поблагодарил :) Без комментариев. Нет слов...
Видно, новая мода пошла среди программистов - ментальное программирование, словесные выкрутасы и "американская" пропаганда...

...

Рейтинг:

0 / 0

01.08.2014, 17:41

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711261

Програмёр

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

Cyrax_02ПрограмёрА если сделать:

Код: php

$res = preg_replace(array("/$pass/", "/$substr1/"), array("\0", $substr2), $str);

Код: php

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

$str = '<span>&amp;1;2;3/4/5</span>';
$substr1 = ';';
$substr2 = '<br/>';
$pass = "&\w+;";

$res = preg_replace_callback(array("/($pass)|($substr1)/u"), function($m) use ($substr2){
  return !empty($m[2]) ? $substr2 : $m[0];
}, $str);

var_dump($res);

всё же 1 строка :) ну или 3, если с форматированием по фэншую :)

...

Рейтинг:

0 / 0

01.08.2014, 22:54

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711266

Програмёр

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

кстати... поправка )) Тут возможен баг при использовании групп в вводимых шаблонах... потому вместо "/($pass)|($substr1)/u" лучше юзать именованные группы: "/(?P<pass>$pass)|(?P<repl>$substr1)/u". Ну и соответственно проверять в коллбэке не группу 2, а группу "repl".

Вроде так :)

...

Рейтинг:

0 / 0

01.08.2014, 23:07

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711326

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

А вот теперь ещё интереснее. Что если $substr1 содержит регулярное выражение, а $substr2 - подмаски вида '$x' ?

Только не говорите, что это не имеет отношения к сабжевой задаче и что это надуманное условие. Это условие как раз-таки самое актуальное: точка с запято й может иметь слева или справа произвольное число пробелов, которые вместе с точкой с запятой должны быть заменены на ' '. Без регулярки здесь не обойтись (как и во множестве других реальных случаях).

Мой вариант такой:

Код: php

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.

function func_strReplaceWithExclusion($str, $substr1, $substr2, $pass = '') {
    $replaceFunc = (@preg_match($substr1, '') === false) ? 'str_replace': 'preg_replace';
    
    if($pass == '') {
        return $replaceFunc($substr1, $substr2, $str);
    } else {
        if(@preg_match($pass, '') === false) { $pass = '/'.preg_quote($pass, '/').'/'; }
        
        $output = ''; $pos = 0;
        foreach(preg_split($pass, $str, -1, PREG_SPLIT_OFFSET_CAPTURE) as $part) {
            $output .= substr($str, $pos, $part[1] - $pos).$replaceFunc($substr1, $substr2, $str);
            $pos = $part[1] + strlen($part[0]);
        }
        return $output;
    }
}

Ваш вариант ? Не обязательно программировать. Можете описать алгоритм словесно.

...

Рейтинг:

0 / 0

02.08.2014, 11:12

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711333

Програмёр

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

Cyrax_02,

я что-то не так сделал? или Вам надо отлаживать свой вариант?

Код: php

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.

function func_strReplaceWithExclusion($str, $substr1, $substr2, $pass = '') {
    $replaceFunc = (@preg_match($substr1, '') === false) ? 'str_replace': 'preg_replace';
    
    if($pass == '') {
        return $replaceFunc($substr1, $substr2, $str);
    } else {
        if(@preg_match($pass, '') === false) { $pass = '/'.preg_quote($pass, '/').'/'; }
        
        $output = ''; $pos = 0;
        foreach(preg_split($pass, $str, -1, PREG_SPLIT_OFFSET_CAPTURE) as $part) {
            $output .= substr($str, $pos, $part[1] - $pos).$replaceFunc($substr1, $substr2, $str);
            $pos = $part[1] + strlen($part[0]);
        }
        return $output;
    }
}
$str = '<span>&amp;1;2;3/4/5</span>';
$substr1 = ';';
$substr2 = '<br/>';
$pass = "&\w+;";
echo htmlspecialchars(func_strReplaceWithExclusion($str, $substr1, $substr2, $pass));

на выходе получил:
&amp 1 2 3/4/5

Думаю отлаживать надо... если из preg_quote($pass, '/') убрать экранирование, то в результате получаем 2 строки (не хочу разбираться почему... Ваш вариант - Вам его отлаживать ;) ), где первая неправильная, а вторая правильная...

В общем предлагаю предоставить правильное решение для предложенных входных данных (то есть не только функцию, но и пример её работы... что бы ошибки были видны явно, а не сидеть и мозговать правильно ли понял собеседника :) ).

Ну а я пока посижу над решением ситуации с заменой с учётом групп :)

...

Рейтинг:

0 / 0

02.08.2014, 11:56

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711338

Програмёр

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

мой вариант с заменой групп:

Код: php

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.

function repl($substr1, $substr2, $str, $pass){
  $substr1 = str_replace("/", "\\/", $substr1); //экранируем символ обрамления регулярки

  return preg_replace_callback(
    "/(?P<pass>$pass)|(?P<repl>$substr1)/u",
    function($m) use ($substr1, $substr2){
      return !empty($m["repl"]) ? preg_replace("/$substr1/", $substr2, $m[0]) : $m[0];
    }, 
    $str
  );
}

$str = '<span>&amp;1;2;3/4/5</span>';
$substr1 = '(;)';
$substr2 = '<br/>';
$pass = "&\w+;";

echo htmlspecialchars(repl($substr1, $substr2, $str, $pass));

если в $substr1 присутствует просмотр вперёд или назад нулевой длины, тогда возникнут сложности с заменой подгрупп (так как входная строка попадёт во внутренний preg_replace несоответсвующей шаблону). Но это уже по-моему совсем крайность и извращение :)

...

Рейтинг:

0 / 0

02.08.2014, 12:40

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711350

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

авторДумаю отлаживать надо... если из preg_quote($pass, '/') убрать экранирование, то в результате получаем 2 строки (не хочу разбираться почему... Ваш вариант - Вам его отлаживать ;) ), где первая неправильная, а вторая правильная...
1. Почему при тестировании Вами моей функции точка с запятой заменяется также и в html-сущности $amp; - потому что Вы подаёте на вход некорректные данные. А именно: строка $pass должна быть либо регулярным выражением, либо обычной строкой. А у Вас - ни то, ни другое (обычная строка, но содержащая спец.символы из регулярных выражений). В результате вот этот код

Код: php

if(@preg_match($pass, '') === false) { $pass = '/'.preg_quote($pass, '/').'/'; }

распознаёт в ней обычную строку (а в обычной строке все символы обозначают сами себя) и преобразует её в регулярное выражение, которое соответствует строке '&\w+;'. Именно эта строка (которой, естественно, нет в $str), и исключается из анализа. Т.е. нужно указывать либо '/&\w+;/' (регулярное выражение), либо '$amp;' (обычная строка).

2. А почему получаем 2 строки - потому что вот здесь

Код: php

$output .= substr($str, $pos, $part[1] - $pos).$replaceFunc($substr1, $substr2, $str);

в самом конце вместо $str нужно указывать $part[0].
Перед тем, как выложить усовершенствованный вариант функции на форум (вариант, которому можно передавать в $substr1 регулярное выражение) я провёл некоторую обфускацию, в ходе которой из-за копипастов оставил там $str (в исходном варианте всё было правильно).

Вот окончательный корректный вариант моей функции, которой можно выполнять замену $substr1 на $substr2 и по подстроке, и по регулярному выражению:

Код: php

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.

function func_strReplaceWithExclusion1($str, $substr1, $substr2, $pass = '') {
    $replaceFunc = (@preg_match($substr1, '') === false) ? 'str_replace': 'preg_replace';
    
    if($pass == '') {
        return $replaceFunc($substr1, $substr2, $str);
    } else {
        if(@preg_match($pass, '') === false) { $pass = '/'.preg_quote($pass, '/').'/'; }
        
        $output = ''; $pos = 0;
        foreach(preg_split($pass, $str, -1, PREG_SPLIT_OFFSET_CAPTURE) as $part) {
            $output .= substr($str, $pos, $part[1] - $pos).$replaceFunc($substr1, $substr2, $part[0]);
            $pos = $part[1] + strlen($part[0]);
        }
        return $output;
    }
}

В своём предыдущем посте я хотел сказать, что с задачей
В строке str на подстроку substr2 необходимо заменить все подстроки substr1, которые не входят в состав подстроки pass. Строка $pass и $substr1 могут быть и обычными строками, и регулярными выражениями.

мой вариант справляется, а Ваш - нет.

...

Рейтинг:

0 / 0

02.08.2014, 13:21

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711352

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

Вот входные данные для моего варианта:
1. Удаление точки с запятой (в html-сущностях замена не производится):

Код: php

1.
2.
3.
4.

$str = '<span>&amp;1;2;3/4/5</span>';
$substr1 = ';';
$substr2 = '<br/>';
$pass = "/&\w+;/";

2.Удаление точки с запятой и слэша (в html-сущностях замена не производится)

Код: php

1.
2.
3.
4.

$str = '&amp;1;2;3/4/5';
$substr1 = '/;|\//';  // регулярное выражение
$substr2 = '<br/>';
$pass = "/&\w+;/";

...

Рейтинг:

0 / 0

02.08.2014, 13:26

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711378

Програмёр

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

Cyrax_02В своём предыдущем посте я хотел сказать, что с задачей
В строке str на подстроку substr2 необходимо заменить все подстроки substr1, которые не входят в состав подстроки pass. Строка $pass и $substr1 могут быть и обычными строками, и регулярными выражениями.

мой вариант справляется, а Ваш - нет.

А чем мой то не справляется сейчас? ) Разве только он на вход не принимает строки... но тут вопрос производительности... так как для обычных строк (заменить одну подстроку на другую, но только если заменяемая подстрока не является частью другой подстроки) это делается через explode, str_replace и implode...

Код: php

implode($pass, str_replace($substr1, $substr2, explode($pass, $str)))

это намного быстрее, чем регулярками орудовать... а с регулярками неоднозначная ситуация получается... а что, если мне из кода надо будет определённый коммент вырезать? Ваша функция поведёт себя неправильно, то как /*...*/ поймёт как регулярку, а не строку...

А ещё предвижу проблему функции при использовании utf-8, так как в ней пользуются substr и strlen, которые не умеют работать с многобайтовыми кодировками :) То есть на не английском тексте она сломается... моя тоже... но у меня это решится просто, посредством добавления/удаления модификатора "u"... А в идеале вообще оставить это на усмотрение использующего... то есть вот так:

Код: php

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.

function repl($substr1, $substr2, $str, $pass, $modif){
  $substr1 = str_replace("/", "\\/", $substr1); //экранируем символ обрамления регулярки

  return preg_replace_callback(
    "/(?P<pass>$pass)|(?P<repl>$substr1)/$modif",
    function($m) use ($substr1, $substr2){
      return !empty($m["repl"]) ? preg_replace("/$substr1/$modif", $substr2, $m[0]) : $m[0];
    }, 
    $str
  );
}

...

Рейтинг:

0 / 0

02.08.2014, 14:57

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711381

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

Вот пример, на котором Ваша функция либо запарывается, либо выдаёт неверный результат:

Требуется заменить на звёздочку все фрагменты markXX (в любом регистре) кроме тех, которые имеют верхний регистр и заключены в квадратные скобки ([MARKxx]) :

Код: php

1.
2.
3.
4.

$str = '[MARK01] [mark02] mark03 MARK04';
$substr1 = '/(mark)\d+/i';
$substr2 = '*';
$pass = "/\[MARK\d+\]/";

Результат должен быть таким (именно такой результат выдаёт моя функция):

Код: php

[MARK01] [*] * *

Ваша функция запарывается.
Если же Вы в своей функции предварительно будете удалять модификаторы у $pass и $substr1, то функция вернёт неверный результат:

Код: php

[MARK01] [*] * MARK04

Если же модификатор i Вы поставите результирующему регулярному выражению, то функция по-прежнему вернёт неверный результат:

Код: php

[MARK01] [mark02] * *

...

Рейтинг:

0 / 0

02.08.2014, 15:02

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711385

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

авторэто намного быстрее, чем регулярками орудовать...В моём коде как раз для этого и предусмотрена строка:

Код: php

$replaceFunc = (@preg_match($substr1, '') === false) ? 'str_replace': 'preg_replace';

Если передаётся строка - используется str_replace, если передаётся регулярка - preg_replace.

автора с регулярками неоднозначная ситуация получается... а что, если мне из кода надо будет определённый коммент вырезать? Ваша функция поведёт себя неправильно, то как /*...*/ поймёт как регулярку, а не строку...Так это не проблема. Достаточно добавить функции ещё один или 2 параметра булевского типа.
А писать отдельные функции для каждого варианта не кошерно, поскольку, таких вариантов - 4 штуки (и $pass, и $substr1 могут быть и регулярками, и строками).

авторА ещё предвижу проблему функции при использовании utf-8, так как в ней пользуются substr и strlen, которые не умеют работать с многобайтовыми кодировками :) То есть на не английском тексте она сломается...Точно удивитесь, но моя функция на многобайтовых кодировках работает отлично. Сможете объяснить, почему ?

...

Рейтинг:

0 / 0

02.08.2014, 15:16

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711403

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

Вот вариант функции, лишённый всех недостатков:

Код: php

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.

function func_strReplaceWithExclusion($str, $substr1, $substr2, $pass, $substrPreg = null, $passPreg = null) {
    
    $passIsRegExpr = (is_null($passIsRegExpr)? (@preg_match($pass, '') !== false): $passIsRegExpr);
    $substrIsRegExpr = (is_null($substrIsRegExpr)? (@preg_match($substr1, '') !== false): $substrIsRegExpr);
    $replaceFunc = ($substrIsRegExpr) ? 'preg_replace': 'str_replace';
    
    if($pass == '') {
        return $replaceFunc($substr1, $substr2, $str);
        
    } elseif(!$passIsRegExpr) {
        return implode($pass, $replaceFunc($substr1, $substr2, explode($pass, $str)));
        
    } else {
        $output = ''; $pos = 0;
        foreach(preg_split($pass, $str, -1, PREG_SPLIT_OFFSET_CAPTURE) as $part) {
            $output .= substr($str, $pos, $part[1] - $pos).$replaceFunc($substr1, $substr2, $part[0]);
            $pos = $part[1] + strlen($part[0]);
        }
        return $output;
    }
}

Дополнительные параметры:
$substrPreg - признак регулярного выражения (true/false). По умолчанию определяется автоматически.
$passPreg - признак регулярного выражения (true/false). По умолчанию определяется автоматически.

Функция работает с любыми кодировками.

...

Рейтинг:

0 / 0

02.08.2014, 16:30

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711404

Програмёр

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

Cyrax_02авторА ещё предвижу проблему функции при использовании utf-8, так как в ней пользуются substr и strlen, которые не умеют работать с многобайтовыми кодировками :) То есть на не английском тексте она сломается...Точно удивитесь, но моя функция на многобайтовых кодировках работает отлично. Сможете объяснить, почему ?

Мы тут беседуем, дабы найти истину )) Потому давайте я не буду гадать, а лучше, если мой аргумент неверен, так опровергайте (с объяснением в чём ошибка) и двинемся далее :)
Иначе разговора не получится...

...

Рейтинг:

0 / 0

02.08.2014, 16:35

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711410

Програмёр

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

и ещё... как функция должна себя вести, если $substr1 = "/\w{5,7}/", а $pass = "/\w{2,3}/"?

Ну то есть если не substr является частью pass, а наоборот...

...

Рейтинг:

0 / 0

02.08.2014, 16:58

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711422

Програмёр

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

если нужны модификаторы, разные для двух регулярок - тогда только двумя по отдельности обработать... а потому только разбить по одной, заменить по другой... и слепить назад... то есть preg_split, preg_replace, foreach[$res .= ...]

Код: php

1.
2.
3.
4.
5.
6.
7.
8.
9.

  function repl($substr1, $substr2, $str, $pass){
    preg_match_all($pass, $str, $m);
    $resArr = preg_replace($substr1, $substr2, preg_split($pass, $str));
    $res = "";
    foreach($resArr as $k=>$text){
      $res .= $text.$m[0][$k];
    }
    return $res;
  }

...

Рейтинг:

0 / 0

02.08.2014, 17:50

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711456

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

автор если мой аргумент неверен, так опровергайте (с объяснением в чём ошибка) и двинемся далее :)
Доказывается опытным путём. Всё работает.А работает по той причине, что preg_split() возвращает байтовые позиции (символьные позиции возвращать не умеет) и соответственно, функции substr и strlen тоже должны работать исключительно с байтами, независимо от кодировки строк. Поскольку работают эти функции только с результатами выполнения preg_split(), то никаких проблем не возникает. Да и вообще, байтовые операции работают быстрее, чем символьные.

автори ещё... как функция должна себя вести, если $substr1 = "/\w{5,7}/", а $pass = "/\w{2,3}/"?
Ну то есть если не substr является частью pass, а наоборот... Строго формально, в таких случаях фрагменты $substr1 (внутри которых которых содержится фрагмент $pass), замене не подлежат (именно так и работают наши функции), поскольку запрет на замену части подстроки $substr делает невозможным замену всей подстроки (что-то вроде deadlock'а).
А если и требуется такая замена, то здесь нужно усложнять логику.

...

Рейтинг:

0 / 0

02.08.2014, 19:32

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711457

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

Програмёресли нужны модификаторы, разные для двух регулярок - тогда только двумя по отдельности обработать... а потому только разбить по одной, заменить по другой... и слепить назад... то есть preg_split, preg_replace, foreach[$res .= ...]

Код: php

1.
2.
3.
4.
5.
6.
7.
8.
9.

  function repl($substr1, $substr2, $str, $pass){
    preg_match_all($pass, $str, $m);
    $resArr = preg_replace($substr1, $substr2, preg_split($pass, $str));
    $res = "";
    foreach($resArr as $k=>$text){
      $res .= $text.$m[0][$k];
    }
    return $res;
  }

...

Рейтинг:

0 / 0

02.08.2014, 19:36

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711479

Програмёр

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

Cyrax_02Програмёресли нужны модификаторы, разные для двух регулярок - тогда только двумя по отдельности обработать... а потому только разбить по одной, заменить по другой... и слепить назад... то есть preg_split, preg_replace, foreach[$res .= ...]

Код: php

1.
2.
3.
4.
5.
6.
7.
8.
9.

  function repl($substr1, $substr2, $str, $pass){
    preg_match_all($pass, $str, $m);
    $resArr = preg_replace($substr1, $substr2, preg_split($pass, $str));
    $res = "";
    foreach($resArr as $k=>$text){
      $res .= $text.$m[0][$k];
    }
    return $res;
  }

Так значит, Вы отказались от Вашего варианта ?

Я ожидал, что Вы реализуете вариант, когда модификаторы стоят внутри регулярного выражения (такое возможно):
http://webdebri.ru/pcre/modifiers-pattern-regexp-php

Не знал что так можно.... ))) Но... в любом случае мне кажется такое ненормальным... я то беседу начал потому, что внешний вид кода мне не понравился (для меня он слабочитаем.. не знаю как для других)... Но вот спорить-спорить, а потом сделать ещё хуже - не вижу смысла )))) (фиг потом разберёшься что в этой регулярке происходит, и почему так). Но я не теряю веры, что можно всё же сделать легче :)

...

Рейтинг:

0 / 0

02.08.2014, 20:51

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711537

ScareCrow

Участник

Откуда: Белый город

Сообщения: 16 205

Рейтинг: 0 / 0

авторфункции substr и strlen тоже должны работать исключительно с байтами
http://php.net/manual/en/mbstring.overload.php

авторFor example, mb_substr() is called instead of substr() if function overloading is enabled.

...

Рейтинг:

0 / 0

03.08.2014, 05:32

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711564

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

ScareCrowавторфункции substr и strlen тоже должны работать исключительно с байтами
http://php.net/manual/en/mbstring.overload.php
авторFor example, mb_substr() is called instead of substr() if function overloading is enabled.
Буду знать про такое. В любом случае у меня в php.ini нет настройки mbstring.func_overload.

Всё-таки эта возможность в какой-то степени является вредной, поскольку функции preg_xxx не имеют mb-аналогов. Т.е. для остальных функций overloading выполняться будет, а для preg - нет. В итоге скрипты будут работать некорректно.
Уж лучше везде использовать mb-функции (для preg - собственные аналоги), просто предавать им соответствующую кодировку через константу или функцию. И при переносе сервера достаточно будет изменить кодировку в одном месте.

...

Рейтинг:

0 / 0

03.08.2014, 10:37

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711616

ScareCrow

Участник

Откуда: Белый город

Сообщения: 16 205

Рейтинг: 0 / 0

в phpinfo посмотри

...

Рейтинг:

0 / 0

03.08.2014, 15:43

| Ответить | Цитировать | Написать

(php) замена текста, пропуская html-мнемоники

#38711689

Cyrax_02

Участник

Сообщения: 1 484

Рейтинг: 0 / 0

ScareCrowв phpinfo посмотриmbstring.detect_order no value no value
mbstring.encoding_translation Off Off
mbstring.func_overload 0 0
mbstring.http_input pass pass
mbstring.http_output pass pass
mbstring.http_output_conv_mimetypes ^(text/|application/xhtml\+xml) ^(text/|application/xhtml\+xml)
mbstring.internal_encoding no value no value
mbstring.language neutral neutral
mbstring.strict_detection Off Off
mbstring.substitute_character no value no value

Вы не можете поверить, что func_strReplaceWithExclusion() нормально работает с многобайтными кодировками ?

...

Рейтинг:

0 / 0

03.08.2014, 19:30

| Ответить | Цитировать | Написать

47 сообщений из 47, показаны все 2 страниц

все

Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / (php) замена текста, пропуская html-мнемоники

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/search_topic.php?author=pervasive+%D0%B8+btrieve&author_mode=last_posts&do_search=1]:	0ms
get settings:	9ms
get forum list:	14ms
get settings:	9ms
get forum list:	23ms
check forum access:	4ms
check topic access:	4ms
track hit:	162ms
get topic data:	9ms
get forum data:	2ms
get page messages:	74ms
get tp. blocked users:	1ms
others:	834ms

total:	1145ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы