Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Разложить *.html
|
|||
|---|---|---|---|
|
#18+
Доброго времени суток. Начну с упрощенной задачи: есть сайт, на котором раз-два в день появляется новая страница с обновленным блоком какой-то информации. Страницы стандартные, а вот блоки с инфой разные. Нужно раз в одну-две недели обработать эту пачку *.html на эти блоки - выковырять и сложить в базу. Блоки с инфой находятся между определенными тегами. Если бы это были файлы XML, то пользуемся классом XMLTextReader и все получается "как дети в школу". А как быть с *.html? Можна, конечно, загнать в какой-нить Stream как обыкновенный текстовик и перелопатить весь текст документа, но вот стоит ли? Может есть специализированное средство? Я вот пока не нашел, но в Делфи точно есть - реализуется через IMoniker. Но мне нужен С#. Заранее спасибо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.03.2005, 00:40 |
|
||
|
Разложить *.html
|
|||
|---|---|---|---|
|
#18+
DenDerА как быть с *.html? Можна, конечно, загнать в какой-нить Stream как обыкновенный текстовик и перелопатить весь текст документа, но вот стоит ли? Может есть специализированное средство? "родных" средств для парсинга html в .net пока нет, а разбирать руками не "well-formed" документ - занятие очень неблагодарное (обычно его забрасывают после обнаружения очередного тэга, который явно не закрывается). как один из вариантов - подключи к references проекта COM-библиотеку "Microsoft HTML Object Library", и используй ее для разбора html страниц (+ HttpWebRequest/HttpWebResponse для получения текста html). если есть GUI, то можно для этих же целей использовать и WebBrowser (после загрузки страницы получить из него тот же разобранный документ). есть средства и сторонних разработчиков для разбора html. <imho> скоро станем спецами по Delphi - в последнее время очень много разработчиков переходит на C# (и это плюс), но что ни вопрос, то: "а вот в Delphi можно так ..." (и это минус) </imho> ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.03.2005, 01:43 |
|
||
|
Разложить *.html
|
|||
|---|---|---|---|
|
#18+
2 кузя Может я не прав, что в одном форуме вспоминаю про другое, но это не потому что я "хоть что-то знаю". Просто эта штука мне действительно нужна. А вдруг здесь есть это же, только называется по другому, типа там MSMoniker или что-то подобное, и кого-то это наведет на мысль........... Спасибо за совет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.03.2005, 13:38 |
|
||
|
Разложить *.html
|
|||
|---|---|---|---|
|
#18+
может регулярное выражение составить? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.03.2005, 23:57 |
|
||
|
Разложить *.html
|
|||
|---|---|---|---|
|
#18+
<imho> на сколько страниц текста это "выражение" потянет ? одних непечатных слов - не меньше сотни :) </imho> ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.03.2005, 00:07 |
|
||
|
Разложить *.html
|
|||
|---|---|---|---|
|
#18+
вот посмотри на реулярное выражение, только для проверки правильности задания e-mail по RFC 822 спецификация RFC 822 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.03.2005, 00:18 |
|
||
|
Разложить *.html
|
|||
|---|---|---|---|
|
#18+
кузявот посмотри на реулярное выражение, только для проверки правильности задания e-mail по RFC 822 спецификация RFC 822 нихрена сибе, а что это за RFC 822? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.03.2005, 11:09 |
|
||
|
Разложить *.html
|
|||
|---|---|---|---|
|
#18+
RFC 822 - это рекомендации (читай, стандарт) на формат полей текстового сообщения (e-mail). www.w3.org/Protocols/rfc822 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.03.2005, 12:23 |
|
||
|
Разложить *.html
|
|||
|---|---|---|---|
|
#18+
да нет, тут же проще, тут вариантов не так много:) что-то типа <title>([\w\s]*)</title> выудит заголовок, потом нужно теги отрезать ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.03.2005, 14:01 |
|
||
|
Разложить *.html
|
|||
|---|---|---|---|
|
#18+
и все прекрасно работает для well-formed а если нет нужных тегов ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.03.2005, 14:03 |
|
||
|
Разложить *.html
|
|||
|---|---|---|---|
|
#18+
а если файл бинарный как тогда быть? :)) всего лишь не найдет ничего, вот и все ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.03.2005, 14:22 |
|
||
|
Разложить *.html
|
|||
|---|---|---|---|
|
#18+
во :) поэтому чтобы не париться с этим каждый раз, и берут готовое. не нравится Com-interop, можно найти чисто managed библиотеки. например, из бесплатных - слышал неплохие отзывы о Sgml Reader ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.03.2005, 14:41 |
|
||
|
|

start [/forum/topic.php?fid=20&fpage=974&tid=1437115]: |
0ms |
get settings: |
13ms |
get forum list: |
20ms |
check forum access: |
6ms |
check topic access: |
6ms |
track hit: |
46ms |
get topic data: |
11ms |
get forum data: |
4ms |
get page messages: |
48ms |
get tp. blocked users: |
1ms |
| others: | 231ms |
| total: | 386ms |

| 0 / 0 |
