Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / ASP.NET [игнор отключен] [закрыт для гостей] / Разбор HTML и XML файлов. / 15 сообщений из 15, страница 1 из 1
16.04.2004, 06:32
    #32483627
maxapet
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
Подскажите пожалуйста, каки в ASP.Net можно парсить файлы HTML и XML ? Какие средства есть для этого?
...
Рейтинг: 0 / 0
16.04.2004, 11:59
    #32484029
tygra
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
парсить файлы HTML ????

-- Tygra's --
...
Рейтинг: 0 / 0
16.04.2004, 15:01
    #32484458
maxapet
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
Ну да, HTML ...
Вообще-то, мне нужно из Word 'овского файла получить XML . В одной книжице я прочитал, что это можно сделать через HTML : преобразовать его (файл) в HTML , подправить, чтобы получился well-formed HTML , а затем преобразовать в XML .
Но сейчас посмотрел, вроде как Word-2003 напрямую позволяет получать XML файлы... Надо ему только XSL подсунуть, чтобы он знал что и как трактовать.
...
Рейтинг: 0 / 0
19.04.2004, 17:07
    #32486771
tygra
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
Тут ничего не могу посоветовать, не мое это пока - парсенье XML :(

-- Tygra's --
...
Рейтинг: 0 / 0
19.04.2004, 22:05
    #32487015
greenapple
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
...
Рейтинг: 0 / 0
10.01.2005, 22:27
    #32858141
TJ
TJ
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
Зря вы бросили этот вопрос - вот передо мной появилась задача нахождения в HTML элемента - думал что смогу парсить HTML при помощи XML анализаторов - а не тут то было - они слишком серьозно всё валидизируют, так что либо помогите отключить валидизацию, либо предлагайте мысли как этот Html просматривать - может быть есть средства в System.Web???
...
Рейтинг: 0 / 0
10.01.2005, 23:29
    #32858166
Стр
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
используй mshtml из:
Microsoft HTML Object Library
...
Рейтинг: 0 / 0
10.01.2005, 23:39
    #32858167
TJ
TJ
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
А средствами Framework никак???
...
Рейтинг: 0 / 0
10.01.2005, 23:41
    #32858168
Стр
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
Если только все сделать руками
Увы
...
Рейтинг: 0 / 0
11.01.2005, 01:21
    #32858204
TJ
TJ
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
Тут такой фанарь IHTMLElement почему то не имеет nextSibling, тоесть движение по одном уровню иерархии, он есть в IHTMLNode - но не могу я превратить IHTMLElement -> IHTMLNode хотя он по идеи должен от него наследоваться!!!

lblResult.InnerText += hdoc.getElementById("1").nextSibling.nodeName;
...
Рейтинг: 0 / 0
11.01.2005, 13:53
    #32859058
marina milanina
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
2TJ
авторЗря вы бросили этот вопрос - вот передо мной появилась задача нахождения в HTML элемента - думал что смогу парсить HTML при помощи XML анализаторов - а не тут то было - они слишком серьозно всё валидизируют, так что либо помогите отключить валидизацию, либо предлагайте мысли как этот Html просматривать - может быть есть средства в System.Web???

Если позволяют условия задачи - проведи парсинг в браузере на JavaScript. Это будет сильно проще, поскольку средствами DOM очень легко работать с хтмл

2maxapet
авторВообще-то, мне нужно из Word'овского файла получить XML.
Берется 2003 ворд. Жмется кнопка Save AS. Выбирается xml. Сохраняется.
В чем проблема то? Или надо не просто xml, а xml определенного формата сделать?
Если так, то берется полученный xml, делается xslt-шаблон для перевода в требуемый формат и любым парсером (не обязательно нет-овским) все перегоняется в нужный формат.

На ASP это можно сделать так:
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
xmldata - текст, содержащий исходный xml
template - файл, содержащий xslt-шаблон
result - текст, содержащий результирующий xml

   set source = Server.CreateObject("MSXML2.DOMDocument")
   source.validateOnParse = false
   source.async = false	
   source.preserveWhiteSpace=true
   source.loadXML(xmldata)
	
   set style = Server.CreateObject("MSXML2.DOMDocument")
   style.validateOnParse = false
   style.preserveWhiteSpace=true
    
   style.async = false
   style.load(template)	
   result=source.transformNode(style)
...
Рейтинг: 0 / 0
12.01.2005, 16:21
    #32861597
TJ
TJ
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
Если JavaScript то ещё на сервер посылать потом, неудобно!!!
Теперь вот незнаю что сделать c getElementsByName
Оно возвращает HTMLElementCollection в котормо есть Item(object name, object index) что туда вставлять не представляю!!!

Неужели нет нормального средства в NET для парсинга страницы????
...
Рейтинг: 0 / 0
13.01.2005, 17:37
    #32863815
Роман Дынник
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
Зря вы бросили этот вопрос - вот передо мной появилась задача нахождения в HTML элемента - думал что смогу парсить HTML при помощи XML анализаторов - а не тут то было - они слишком серьозно всё валидизируют

Так в чем проблема то? Пиши свой HTML в формате XHTML и парси как XML наздоровье любыми парсерами и анализаторами.
Posted via ActualForum NNTP Server 1.1
...
Рейтинг: 0 / 0
14.01.2005, 11:48
    #32864694
TJ
TJ
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
Я может и не против писать в XHTML - только парсить мне надо чужую страницу созданную до нашего 3 тысячелетия, руками изращенца!!!
...
Рейтинг: 0 / 0
14.01.2005, 12:06
    #32864751
Артем1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Разбор HTML и XML файлов.
TJЯ может и не против писать в XHTML - только парсить мне надо чужую страницу созданную до нашего 3 тысячелетия, руками изращенца!!!

Порносайты что-ли?
...
Рейтинг: 0 / 0
Форумы / ASP.NET [игнор отключен] [закрыт для гостей] / Разбор HTML и XML файлов. / 15 сообщений из 15, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]