|
xpath-запрос к html (интересная выборка)
|
|||
---|---|---|---|
#18+
Доброго времени суток, вопрос собсно в чём.. Есть страница с которой нужно вытащить кусок текста, выглядит пример ПЕРВОГО кода вот так: .... <tbody> <tr> <td class="t12ver" width="100%" valign="top" align="left"><img src=" http://www.ua-today.com/images/library/Oleynikov2.jpg" style="width: 287px; height: 229px;"/> <br/> <br/> ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ (первый абзац) <br/> <br/> ТЕКСТ ТЕКСТ ТЕКСТТЕКСТ ТЕКСТ ТЕКСТТЕКСТ ТЕКСТ ТЕКСТ (второй абзац) <br/> <br/> <br/> <iframe width="640" height="360" frameborder="0" allowfullscreen="" src=" http://тут еще видео какое-то(это не важно)"/> </td> </tr> </tbody>...... путь к ноду не сложен: //div[@id="myarticles_dom"]//td[@class="t12ver"] но! нужно ссылаться на абзаци, а не на весть текст ( с учетом того, что одинаковых страниц может быть много, а количество абзацев изменяется.. может быть один а может быть и десять тоесть значение не фиксированное) Вот пример ВТОРОГО кода .... <div class="article_box"> <span id="0097f" style="font-size:1.0em;"> <p> ТЕКСТ ТЕКСТ ТЕКСТТЕКСТ ТЕКСТ ТЕКСТТЕКСТ ТЕКСТ ТЕКСТ </p> (ПЕРВЫЙ АБЗАЦ) <p> ТЕКСТ ТЕКСТ ТЕКСТТЕКСТ ТЕКСТ ТЕКСТТЕКСТ ТЕКСТ ТЕКСТ </p> (ВТОРОЙ АБЗАЦ) </span> </div> ....Верный запрос в таком случае будет: //div[@id="article_box"]/span/p (так мы ссылаемся на сами абзаци, собственно того же нужно добится для первого кода) Буду благодарен если кто подскажет решение.. уже тонну интернета перелопатил( ... |
|||
:
Нравится:
Не нравится:
|
|||
10.10.2011, 13:38 |
|
xpath-запрос к html (интересная выборка)
|
|||
---|---|---|---|
#18+
AmHoHoSanta, придумайте как вы хотите делить на абзацы, наличие <br/> перед, после, оба? нужен критерий, по которому будет разобран текст. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.10.2011, 14:48 |
|
xpath-запрос к html (интересная выборка)
|
|||
---|---|---|---|
#18+
mage.lan, Простите, тоесть? мне нужно как я во втором примере приводил, запрос, который будет ссылаться на абзацы, но в коде первого примера текст (каждый абзац) не находится закрытым в теги, вот в чём проблемка.. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.10.2011, 15:06 |
|
xpath-запрос к html (интересная выборка)
|
|||
---|---|---|---|
#18+
AmHoHoSanta, поэтому я и прошу указать вас критерии, что считать абзацем текста такой текст: Код: plaintext 1. 2. 3.
Код: plaintext 1. 2. 3.
Код: plaintext 1. 2. 3. 4. 5.
ифрейм будет абзацем? XSL не умеет думать за вас, для него текст это текст, теги это теги. Вы должны рассказать по каким формальным признакам он будет отличать абзацы от неабзацей, потому как я могу вам выдать кусок кода, который разберет конкретно пример, но на боевых данных все получится не так, как вы ожидали. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.10.2011, 15:44 |
|
xpath-запрос к html (интересная выборка)
|
|||
---|---|---|---|
#18+
mage.lan, а, понимаю.. абзац это: <br/> <br/> ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ (первый абзац) <br/> <br/> ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ ТЕКСТ (второй абзац) ... |
|||
:
Нравится:
Не нравится:
|
|||
11.10.2011, 13:03 |
|
|
start [/forum/topic.php?fid=14&fpage=26&tid=1332849]: |
0ms |
get settings: |
8ms |
get forum list: |
12ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
90ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
42ms |
get tp. blocked users: |
2ms |
others: | 315ms |
total: | 487ms |
0 / 0 |