|
|
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
Табличка из восьми полей, хочу достать ее строчки по очереди, пишу регвыр в Matcher: Код: java 1. Но matcher.find(startpos) и затем matcher.group() возвращает сразу всю таблицу (т.е. все подходящие tr-ы), что логично, но как в выражении ограничить, чтобы брал подходящую подстроку с минимальной длиной или только первые восемь </td> например ) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2015, 15:50 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
Почему бы не взять HTML парсер? Ну, и RTFM: http://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html X{n,m} X, at least n but not more than m times ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2015, 15:56 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
BlazkowiczПочему бы не взять HTML парсер? Готовый не нужен, если речь о неких готовых модулях, то вроде как тоже не особо нужны пока. BlazkowiczX{n,m} X, at least n but not more than m times Это конечно пробовал, но ".*" оно ж все равно вырубает это ), т.е. надо кроме того как-то четко обозначит конец строки, чтобы он отличался от конца последней строки ), или как-то указать, чтобы брал миним. подходящую по длине подстроку. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2015, 16:01 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
JDS, Опубликуй тестовый пример. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2015, 16:09 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
Тут любой Dom/XPath запрос был-бы эффективнее регулярки с точки зрения сложности и понимания самого кодинга. И вобщем-то подобный пример (даже если он взлетит) я-бы рекомендовал как антипаттерн или как пример того как НЕ НАДО кодить. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2015, 16:12 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
авторОпубликуй тестовый пример. Разобрался. Нуна очень жадная квантификация ) Код: java 1. Так нормально по одной строчке ищет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2015, 16:12 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
Т.е. наоборот, ленивая называется ) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2015, 16:13 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
JDSЭто конечно пробовал, но ".*" оно ж все равно вырубает это ) Если в td ожидаем только текст, то можно не .*, а [^<]* ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2015, 16:14 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
maytonТут любой Dom/XPath запрос был-бы эффективнее регулярки с точки зрения сложности и понимания самого кодинга. Возможно, но у меня нет здесь какой-то сложной иерархии и регулярок вполне должно хватить, для меня они напротив кажутся проще в данном случае, т.к. немного знакомо. Позже потыкаю XPath ) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2015, 16:30 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454]You can't parse [X]HTML with regex... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2015, 09:17 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
imperfekt http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454]You can't parse [X]HTML with regex... Спасибо, поржал ) "...Каждый раз при попытке парсить HTML с помощью регулярных выражений, порочный ребенок плачет крови девственниц... HTML-код-плюс-регулярное выражение будет пластика нервов чувствующих в то время как вы наблюдаете, ваша Психея увядание в натиск ужаса....HTML-теги протекать frǫm твои глаза как жидкость боль, песня регулярные выражения парсинг будет гасить голоса смертного человека из сферы я вижу это может вы видите ît это красивый финал нюхательного лжи человека..." Онлайн-переводчег конечно ) Когда-то давно вроде как даже использовал XPath, сейчас забыл уже что это и как это. Для конкретной задачи пока хватает рег.выров. Будет интересно, если кто-то приведет простой пример разбора какой-ниб. страницы, который лучше делать через XPath, чем регвырами. Т.е. ссылка на страницу и пример, как просто из нее достать определенное содержимое с пом. XPath, а с регвыр мол затрахаешься ) Пока навскидку XPath хорош тем, что как понял, может сразу забирать все нужные теги по указ. пути в список, плюс видимо, может учитывать, что теги могут быть не закрытми ну и в целом видимо, более заточен наверно именно под это дело. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2015, 11:44 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
Регулярки проще тем что инфраструктуры для них не нужно никакой. Взял документ и херячишь. Вобщем я почти согласен с тезисом что большая часть юзкейсов подобных задач решается регулярками. Но если-б сам для себя делал - то по другому. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2015, 14:20 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
В каком случае может виснуть метод Matcher.find()? Поискал, народ периодически сталкивается, но в итоге разруливают изменением регулярки практически методом тыка. Может кто в курсе что именно надо исправлять в РВ? Может что-то категорически нельзя писать в РВ? ) При этом странно, что на одном и том же контенте - запускаешь в SE-приложении - работает, запускаешь в виде все того же сервлета - наглухо виснет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.10.2015, 17:49 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
JDSна одном и том же контенте - запускаешь в SE-приложении - работает, запускаешь в виде все того же сервлета - наглухо виснет. а это не факт , что на одном и том же. попробуй вывести контент из сервлета - наверняка что-нибудь обнаружишь ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.10.2015, 19:36 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
JDSБудет интересно, если кто-то приведет простой пример разбора какой-ниб. страницы, который лучше делать через XPath, чем регвырами. Т.е. ссылка на страницу и пример, как просто из нее достать определенное содержимое с пом. XPath, а с регвыр мол затрахаешься ) достаточно вложенных таблиц, комментариев, атрибутов, CDATA разделов, Entity-кодов ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.10.2015, 19:47 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
rema174а это не факт , что на одном и том же. попробуй вывести контент из сервлета - наверняка что-нибудь обнаружишь Да так и оказалось - в SE доставал немного по-другому и контент получался с символами новой строки. Но все равно досадно, что поиск по РВ может в принципе наглухо виснуть. Или надо запускать его в отд. потоке и вырубать по таймауту на этот случай? ) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.10.2015, 10:25 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
JDS, Вряд ли он наглухо виснет, просто уходит в какую-нибудь глубокую рекурсию. Все толковые советы уже дали выше. Остальное - костыли. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.10.2015, 10:32 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
Понятно, что уходит, но по времени все равно что наглухо ) Посмотрю еще XPath конечно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.10.2015, 10:40 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
JDS, Я не знаю кем надо быть чтобы игнорировать Jsoup в пользу регулярок. На столько всё просто и эффективно можно вытянуть через внятный парсер с селекторами. Нет, же, будем грызть кактус. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.10.2015, 11:01 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
BlazkowiczJDS, Я не знаю кем надо быть чтобы игнорировать Jsoup в пользу регулярок. +1 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.10.2015, 09:15 |
|
||
|
Регулярка для поиска html-тега TR
|
|||
|---|---|---|---|
|
#18+
Blazkowicz , спасибо за наводку, интересно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.10.2015, 14:50 |
|
||
|
|

start [/forum/topic.php?fid=59&fpage=116&tid=2124833]: |
0ms |
get settings: |
9ms |
get forum list: |
19ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
78ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
61ms |
get tp. blocked users: |
2ms |
| others: | 248ms |
| total: | 438ms |

| 0 / 0 |
