Переменные в регулярных выражениях. Perl / PHP, Perl, Python

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / Переменные в регулярных выражениях. Perl

17 сообщений из 17, страница 1 из 1

Переменные в регулярных выражениях. Perl

#38421840

Testor1

Гость

Привет всем!

Нужен совет с регулярными выражениями

есть строка aq|bs|df|[132-343-34][12-34-96-09]|ere|werw|[324-343][3032-123]

требуется
1) найти в строке выражение которое находиться |[ по ]| или ] конец строки
2) только для данной подстроки применить регулярные выражения (несколько разных) для замены текста.

вопрос как это сделать правильно ?

Я использую регулярное выражение для поиска подстроки и замены, но мне кажется, такой подход не корректный с точки зрения производительности.

...

Рейтинг:

0 / 0

09.10.2013, 16:50

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38422183

Testor1

Гость

Привожу пример из реальной задачи.

Ниже приведенный код работает корректно, но медленно.
Как его можно оптимизировать ?
Самое плохое, что код четыре раза сканирует строку в поиске подстроки вида [число~число~число(~число)?] в целой строке

столбец1|столбец2|столбец3|[число1~число2~число3(~число4)?] |столбец4|столбец5

суть выражений для числа2 и числа3 удалить незначащие нули после запятой.
например
123.000 -> 123
123.450 -> 123.45

while($file_line=<STDIN>)
{

for($file_line)
{
s/(\[\d+\~-?\d*\.?\d*~-?\d*)(\.0*)?(~\d*)?(\])/\1\3\4/g;
s/(\[\d+\~-?\d*)(\.0*)?(~-?\d*\.?\d*)?(~\d*)?(\])/\1\3\4\5/g;

s/(\[\d+\~-?\d*\.?\d*-?~\d+\.\d*[1-9])(0+)(~\d*)?(\])/\1\3\4/g;
s/(\[\d+\~-?\d*\.?\d*[1-9])(0+)(~-?\d*\.?\d*)(~\d*)?(\])/\1\3\4\5/g;

}
print STDOUT $file_line;
}

...

Рейтинг:

0 / 0

09.10.2013, 22:59

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38422965

S_Andrey_A

Участник

Откуда: г.Москва

Сообщения: 79

Рейтинг: 0 / 0

Код: plsql

aq|bs|df|[132-343-34][12-34-96-09]|ere|werw|[324-343][3032-123]

где тут нули и где запятые?

Напиши реальную строчку и что из нее нужно получить.

...

Рейтинг:

0 / 0

10.10.2013, 14:24

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38423341

Testor1

Гость

S_Andrey_A

Код: plsql

aq|bs|df|[132-343-34][12-34-96-09]|ere|werw|[324-343][3032-123]

где тут нули и где запятые?

Напиши реальную строчку и что из нее нужно получить.

aq|bs|df|[132-343.0200-34.0000][12-34.0000100-96.00000-9]|ere|werw|[324-343-232.000][3032-123.0000-100.0000]

должно получиться
aq|bs|df|[132-343.02-34[12-34.00001-96-9]|ere|werw|[324-343-232][3032-123-100]

...

Рейтинг:

0 / 0

10.10.2013, 17:14

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38424006

S_Andrey_A

Участник

Откуда: г.Москва

Сообщения: 79

Рейтинг: 0 / 0

Тут нолики обрубаются во всех полях, а не только во втором и третьем...
Если так и надо то сильвупле:

Код: plsql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.

#!/usr/bin/perl
use strict;
my $str='';

$str='aq|bs|df|[132-343.0200-34.0000][12-34.0000100-96.00000-9]|ere|werw|[324-343-232.000][3032-123.0000-100.0000]';

print "\n$str";
$str=~ s/(\d+\.\d+)/$1*1/ge;
print "\n$str";
print "\n";
-----------------------------------------
aq|bs|df|[132-343.0200-34.0000][12-34.0000100-96.00000-9]|ere|werw|[324-343-232.000][3032-123.0000-100.0000]
aq|bs|df|[132-343.02-34][12-34.00001-96-9]|ere|werw|[324-343-232][3032-123-100]

...

Рейтинг:

0 / 0

11.10.2013, 09:44

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38424575

Testor1

Гость

S_Andrey_AТут нолики обрубаются во всех полях, а не только во втором и третьем...
Если так и надо то сильвупле:

Код: plsql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.

#!/usr/bin/perl
use strict;
my $str='';

$str='aq|bs|df|[132-343.0200-34.0000][12-34.0000100-96.00000-9]|ere|werw|[324-343-232.000][3032-123.0000-100.0000]';

print "\n$str";
$str=~ s/(\d+\.\d+)/$1*1/ge;
print "\n$str";
print "\n";
-----------------------------------------
aq|bs|df|[132-343.0200-34.0000][12-34.0000100-96.00000-9]|ere|werw|[324-343-232.000][3032-123.0000-100.0000]
aq|bs|df|[132-343.02-34][12-34.00001-96-9]|ere|werw|[324-343-232][3032-123-100]

Спасибо за поддержку

Не могу понять по регуляторному выражению, какая его часть отвечает за удаление 0 после дробной части
(\d+\.\d+)- выбираем все числа с разделителем знака
$1 - оставляем группу. то есть должно скопироваться исходное число как есть.
а почему нолики должны удалиться?

нужно удалять нолики для
1) заданных столбцов CSV строки
2) только после разделителя дробной части для второго и третьего числа внутри квадратных скобок

Как это сделать ? Можешь помочь?

...

Рейтинг:

0 / 0

11.10.2013, 15:21

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38424626

S_Andrey_A

Участник

Откуда: г.Москва

Сообщения: 79

Рейтинг: 0 / 0

Testor1

Спасибо за поддержку

Не могу понять по регуляторному выражению, какая его часть отвечает за удаление 0 после дробной части
(\d+\.\d+)- выбираем все числа с разделителем знака
$1 - оставляем группу. то есть должно скопироваться исходное число как есть.
а почему нолики должны удалиться?

нужно удалять нолики для
1) заданных столбцов CSV строки
2) только после разделителя дробной части для второго и третьего числа внутри квадратных скобок

Как это сделать ? Можешь помочь?
я тупо привожу строчку к числу путем умножения его на 1 _)))
Править только заданные поля одной регуляркой, боюсь получится геморойно... Если вообще получится... Я бы бил строчку split на поля и уже в нужных полях все обрезал, потом собирал строчку назад. Если такой вариант подойдет - можно сделать._)

...

Рейтинг:

0 / 0

11.10.2013, 15:52

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38424629

Testor1

Гость

S_Andrey_ATestor1
Спасибо за поддержку

Не могу понять по регуляторному выражению, какая его часть отвечает за удаление 0 после дробной части
(\d+\.\d+)- выбираем все числа с разделителем знака
$1 - оставляем группу. то есть должно скопироваться исходное число как есть.
а почему нолики должны удалиться?

нужно удалять нолики для
1) заданных столбцов CSV строки
2) только после разделителя дробной части для второго и третьего числа внутри квадратных скобок

Как это сделать ? Можешь помочь?
я тупо привожу строчку к числу путем умножения его на 1 _)))
Править только заданные поля одной регуляркой, боюсь получится геморойно... Если вообще получится... Я бы бил строчку split на поля и уже в нужных полях все обрезал, потом собирал строчку назад. Если такой вариант подойдет - можно сделать._)

Пойдет, для первичного анализа. Потом буду оптимизировать.
В c# сплит очень медленная функция :(

...

Рейтинг:

0 / 0

11.10.2013, 15:55

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38425131

Testor1

Гость

S_Andrey_A,

С твоей помощью написал нужный код.
Теперь надо придумать как оптимизировать его по производительности.

#!/usr/bin/perl
my $str='';

$str='aq|bs|df|[132~343.0200~34.0000][12~-34.0000100~0.000~9]|ere|werw|[324~-343~232.0001001][3032~123.0000~-100.000010]';

@index = (3,6);

@a = split /\|/, $str;

print "\n$str";
print "\n@a";

foreach $arg(@index)
{
print "\nList item: @a[$arg]\n";
@a[$arg]=~s/(\d*\.\d*)/$1*1/ge;
@a[$arg]=~s/\[(([2-9]~)|(\d\d+~))(-?\d*(\.\d*)?~0)(~\d*)?\]//g;
print "\nList item: @a[$arg]\n";

}

$str = join("|",@a);

print "\n$str";
print "\n";

p.s.
Какой ты выбираешь SRC при вставке кода? там же нет perl.

...

Рейтинг:

0 / 0

12.10.2013, 11:05

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38427030

S_Andrey_A

Участник

Откуда: г.Москва

Сообщения: 79

Рейтинг: 0 / 0

Testor1,

Регулярки в Perl самые регулярные _) Несколько простых, будут работать(в общем случае) быстрее чем одна навороченная и если ты не микроконтроллер программишь, наврядли есть смысл запариваться о производительности (в разумных конечно же пределах_))

В твоем примере все же не понятно что значит "дробные числа во 2 и 3 числе в скобках"
Сколько скобок бывает? Могут ли быть дробные числа в других позициях? Сколько вообще чисел может быть в скобках?
Я бы сначала разбирал все по полям (split /|/), и потом поля разбирал на конкретные числа - обрабатывал нужные числа и собирал все в зад.
Но если ты уверен, что нужно менять именно конкретные числа в конкретных позициях - то можно конечно захардкодить обработку только этих символов... Но опять же (ИМХО) лучше написать несколько простых регулярок чем городить мегадлинную.

...

Рейтинг:

0 / 0

14.10.2013, 17:45

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38427245

Testor1

Гость

S_Andrey_ATestor1,

Регулярки в Perl самые регулярные _) Несколько простых, будут работать(в общем случае) быстрее чем одна навороченная и если ты не микроконтроллер программишь, наврядли есть смысл запариваться о производительности (в разумных конечно же пределах_))

В твоем примере все же не понятно что значит "дробные числа во 2 и 3 числе в скобках"
Сколько скобок бывает? Могут ли быть дробные числа в других позициях? Сколько вообще чисел может быть в скобках?
Я бы сначала разбирал все по полям (split /|/), и потом поля разбирал на конкретные числа - обрабатывал нужные числа и собирал все в зад.
Но если ты уверен, что нужно менять именно конкретные числа в конкретных позициях - то можно конечно захардкодить обработку только этих символов... Но опять же (ИМХО) лучше написать несколько простых регулярок чем городить мегадлинную.

Я тут начал потихоньку вникать в суть перл-А

[132~343.0200~34.0000]
первое число 132 - ID-ишка
второе число некая величина - 343.0200
третье число некая величина - 34.0000

мне нужно исключить незначащие нули для второго и третьего числа внутри скобок.
более того, если третье число равно нулю, то в этом случае удалить все выражение внутри текущих квадратных скобок [].

в заданных столбцах csv файла могут размещаются выражения в скобках. в одном столбце может быть разное число выражений в скобках.

Кол-во строк в файле более 100 миллионов.

Я оптимизировать.

По логике вещей самый быстрый вариант, если регулярка обработает строку за один раз.
Пытаюсь понять на сколько это возможно технически. Возможно ли использовать условия и т.д.

...

Рейтинг:

0 / 0

14.10.2013, 20:54

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38427663

S_Andrey_A

Участник

Откуда: г.Москва

Сообщения: 79

Рейтинг: 0 / 0

Testor1,

Сложная регулярка (с множеством шаблонов, условий и пр) не обработает строку за один проход! Парсер так же будет читать ее много-много раз ища всевозможные варианты для совпадения! Поэтому я и говорю, что часто, выгоднее и сточки зрения производительности и с точки зрения скорости разработки и затрат на сопровождение, написать несколько простых регулярок.

Добавив цикл по полям строчки, у тебя будет фиксированное число итераций + пара элементарных замен s//. В то время как метровый регэксп может шариться по этой же строчке достаточно долго. И вероятность ошибок в солжных регэкспах велика, не говоря уже о внесении в них изменений

...

Рейтинг:

0 / 0

15.10.2013, 10:15

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38432326

Testor1

Гость

S_Andrey_ATestor1,

Сложная регулярка (с множеством шаблонов, условий и пр) не обработает строку за один проход! Парсер так же будет читать ее много-много раз ища всевозможные варианты для совпадения! Поэтому я и говорю, что часто, выгоднее и сточки зрения производительности и с точки зрения скорости разработки и затрат на сопровождение, написать несколько простых регулярок.

Добавив цикл по полям строчки, у тебя будет фиксированное число итераций + пара элементарных замен s//. В то время как метровый регэксп может шариться по этой же строчке достаточно долго. И вероятность ошибок в солжных регэкспах велика, не говоря уже о внесении в них изменений

Сплит - плохая идея. Тормозит процесс.
Думаю может найти m/ нужный кусок. Отдельно его обработать, а потом заменить просто.

...

Рейтинг:

0 / 0

18.10.2013, 09:47

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38432878

Testor1

Гость

Testor1,

Как сделать замену в зависимости от найденного значения?

Если встретиться слово кошка, то заменить это слово на черная,
если встретиться слово собака, то заменит это слово на белая

s/(кошка|собака)/????/g

...

Рейтинг:

0 / 0

18.10.2013, 14:12

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38433084

S_Andrey_A

Участник

Откуда: г.Москва

Сообщения: 79

Рейтинг: 0 / 0

Testor1,

авторСплит - плохая идея. Тормозит процесс.
Думаю может найти m/ нужный кусок. Отдельно его обработать, а потом заменить просто.

авторКак сделать замену в зависимости от найденного значения?
Если встретиться слово кошка, то заменить это слово на черная,
если встретиться слово собака, то заменит это слово на белая

Т.е. по твоему вторая идея хорошая? _)) Тогда я пас _)
Если серьезно split наврядли будет занимает какое то ощутимое время. Тебе нужно переписать over100.000.000 строк - те полностью перезаписать файл, имхо основное время уйдет на ввод/вывод, а не на разбор строк...

Ради эксперимента сделай построчное чтение /запись и тоже самое со сплитом и парой замен s//

...

Рейтинг:

0 / 0

18.10.2013, 16:04

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38433147

Testor1

Гость

S_Andrey_ATestor1,

авторСплит - плохая идея. Тормозит процесс.
Думаю может найти m/ нужный кусок. Отдельно его обработать, а потом заменить просто.

авторКак сделать замену в зависимости от найденного значения?
Если встретиться слово кошка, то заменить это слово на черная,
если встретиться слово собака, то заменит это слово на белая

Т.е. по твоему вторая идея хорошая? _)) Тогда я пас _)
Если серьезно split наврядли будет занимает какое то ощутимое время. Тебе нужно переписать over100.000.000 строк - те полностью перезаписать файл, имхо основное время уйдет на ввод/вывод, а не на разбор строк...

Ради эксперимента сделай построчное чтение /запись и тоже самое со сплитом и парой замен s//

Так и сделал.
9 ГБ файл. без сплита работал 24 минуты. А в случае сплита 42 минуты.

Поясню почему сплит будет медленее. Ведь при разбивке строки на массив нужно динамическое выделения памяти для каждой создаваемой подстроки. Это время и ресурсы, но больше время. Если в строке более 500 столбцов, то это уже сказывается на производительности.
Прощу регулярному выражению найти нужную подстроку по шаблону и в ней сделать подмену.

Ты сможешь помочь с моим вопросом по поводу замены с условием ? (пример про кошку и собаку)

...

Рейтинг:

0 / 0

18.10.2013, 16:34

| Ответить | Цитировать | Написать

Переменные в регулярных выражениях. Perl

#38473522

volodin661

Участник

Откуда: Внутренняя Монголия

Сообщения: 537

Рейтинг: 0 / 0

Testor1Testor1,

Как сделать замену в зависимости от найденного значения?

Если встретиться слово кошка, то заменить это слово на черная,
если встретиться слово собака, то заменит это слово на белая

s/(кошка|собака)/????/g

perl -pE ' s/(cat|dog)/if($1 eq "cat"){"black"}elsif($1 eq "dog"){"white"}/e'

...

Рейтинг:

0 / 0

21.11.2013, 21:50

| Ответить | Цитировать | Написать

17 сообщений из 17, страница 1 из 1

Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / Переменные в регулярных выражениях. Perl

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=23&msg=38424626&tid=1463253]:	0ms
get settings:	6ms
get forum list:	16ms
check forum access:	3ms
check topic access:	3ms
track hit:	164ms
get topic data:	11ms
get forum data:	3ms
get page messages:	56ms
get tp. blocked users:	1ms
others:	217ms

total:	480ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы