Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Программирование [игнор отключен] [закрыт для гостей] / HTML->XHTML / 16 сообщений из 16, страница 1 из 1
27.07.2005, 13:51
    #33186905
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
HTML->XHTML(XML)

Кто нибудь интересовался проблемой? Хочу
обсудить перспективы. Интересует также
инструментарий (тулзы, конвертеры,среды
разработки).

Спасибо всем кто откликнулся.
...
Рейтинг: 0 / 0
27.07.2005, 14:32
    #33187059
Di_LIne
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
...
Рейтинг: 0 / 0
27.07.2005, 14:42
    #33187096
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
Благодарю, но я там был и даже участвовал.

Еще...?
...
Рейтинг: 0 / 0
27.07.2005, 16:03
    #33187363
Di_LIne
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
.... желающих не находится...
...
Рейтинг: 0 / 0
27.07.2005, 16:36
    #33187474
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
Нужели придется с самим собой разговаривать?!
(в психиатрии этому есть определение)

Ну да ладно. Даю тынц для затравки.



P.S. Может к вечеру-то разойдется .. (с) Какой-то классик
...
Рейтинг: 0 / 0
27.07.2005, 16:54
    #33187528
Di_LIne
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
mayton Нужели придется с самим собой разговаривать?!
(в психиатрии этому есть определение)
Шизофрения - проф. заболевание программеров.
Ток не у нас.
...
Рейтинг: 0 / 0
27.07.2005, 17:26
    #33187609
Naug
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
А в чём собственно проблема? Ну обязали пргеров закрывать тэги своевременно ну и что?
...
Рейтинг: 0 / 0
27.07.2005, 17:41
    #33187649
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
Проблема лишь в том, что мне нужно извлекать
много информации из html-документов. Но
хочется это реализовать с использованием
XML -парсеров и XSLT .

HTML - парсеры меня принципиально
не интересуют как морально устаревшие.

Я их могу рассматривать лишь с точки
зрения временного решения при конвертации
HTML->XHTML . Почему собственно и возник сабж.
...
Рейтинг: 0 / 0
27.07.2005, 17:45
    #33187660
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
По ходу возникает много нерешенных вопросов
а именно:

1. Что делать с внедренными документами.
2. Что делать с фреймами.
3. Как поступать с java-скриптами.
4. Как интегрировать картинки и проч. связные объекты в документ.
5. Как распозновать кодовую страницу, если charset не указан.

И это возможно не полный список.
Вот.
...
Рейтинг: 0 / 0
27.07.2005, 17:54
    #33187698
Di_LIne
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
mayton2. Что делать с фреймами.
"Встраивать"...

mayton3. Как поступать с java-скриптами.
Это сложнее...
Они же и подгружаемыми могут быть.
И содержать большой кусок информации...
Но выход один: - Колоть java-скрипт.
И по анализу содержимого принимать решение, что с ним дальше делать.

5. Как распозновать кодовую страницу, если charset не указан.
[/quot]
Так, имхо, этот вопрос давно решен...
К Дельфям даж модули есть и не один.
Пробовал - работают отлично и на несколько кодировок сразу...

Хотя все же не понял на кой ТАКАЯ головная боль?..
...
Рейтинг: 0 / 0
27.07.2005, 18:03
    #33187715
XM
XM
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
mayton wrote:
> По ходу возникает много нерешенных вопросов
> а именно:
>
> *1. *Что делать с внедренными документами.
> *2. *Что делать с фреймами.
> *3. *Как поступать с java-скриптами.
> *4. *Как интегрировать картинки и проч. связные объекты в документ.
Игнорировать всё! :)
> *5. *Как распозновать кодовую страницу, если charset не указан.
http://www.mozilla.org/projects/intl/chardet.html

А чем http://tidy.sourceforge.net/ не подходит для перегонки HTML->XHTML?
Posted via ActualForum NNTP Server 1.2
...
Рейтинг: 0 / 0
27.07.2005, 18:16
    #33187751
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
Di Line
Это сложнее...
Они же и подгружаемыми могут быть.
И содержать большой кусок информации...
Но выход один: - Колоть java-скрипт.
И по анализу содержимого принимать решение, что с ним дальше делать.


По моим наблюдениям 99% Java-скриптов - это реализация
баннерной рекламы. Скорее всего буду их безжалостно удалять.

Di Line
К Дельфям даж модули есть и не один.
Пробовал - работают отлично и на несколько кодировок сразу...
Хотя все же не понял на кой ТАКАЯ головная боль?..


Реализация будет либо на С#.Net либо на Java.

Ладно .. поясню вкратце суть задания. Имеется
хранилище документов (самого разного происхождения,
однако доминирует формат html). Необходимо
Их проиндексировать по ключевым словам,
автору, названию, переконвертировать в XML
формат (схема пока не утверждена) и загнать
все это в базу под Oracle. Cам документ будет лежать
в одной из таблиц в поле типа XMLType (это
необходимо для работы поисковых алгоритмов
пакета Oracle DBMS_XML).

С doc-овскими и rtf-никами будет проще. Я просто переконвертирую
в xml средствами MS-Office.

Прочие бинарники будут завраплены в XML с добавлением
служебной метаинформации.

XSLT логика будет стоять на самом верхнем уровне
и преобразовывать все типы документов к некому
единому представлению, удобному для поисковой
системы.
...
Рейтинг: 0 / 0
27.07.2005, 18:30
    #33187784
XM
XM
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
mayton wrote:
> Реализация будет либо на С#.Net либо на Java.
>

для Java я использовал TagSoup для разбора html в DOM и через XPath вытягивал
требуемые данные.
Posted via ActualForum NNTP Server 1.2
...
Рейтинг: 0 / 0
27.07.2005, 18:31
    #33187787
Naug
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
Не понимаю. Яваскрипт это содержание тега <script/> если это линк, то это всёравно вполне нормальный хмл - тег и чем он с точки зрения парсанья отличается от линка на какой-нить css?

авторНеобходимо
Их проиндексировать по ключевым словам,
автору, названию
емнип html служит для оформления данных, то есть парсеры прямого отношения к нахождению автора документа не имеют.

Вообще, объясните сущеглупому в чём проблема привести все теги к одному регистру, проследить чтоб они были вложенны один в другой и закрывались? Я всегда считал что по сути xhtml нужно именно для того чтобы парсеры не задумывались над такими вещами (регистр,вложенность,закрытие,кавычки) и были более быстрыми/лёгкими/умными
...
Рейтинг: 0 / 0
27.07.2005, 18:35
    #33187794
Di_LIne
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
mayton
По моим наблюдениям 99% Java-скриптов - это реализация
баннерной рекламы. Скорее всего буду их безжалостно удалять.

имхо % завышен...
Куча сайтов, где Java-скриптами сделана НАВИГАЦИЯ.
+ динамическое изменение содержимого страниц.
Не всегда это очевидно при просмотре броузером...
...
Рейтинг: 0 / 0
27.07.2005, 18:38
    #33187796
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
HTML->XHTML
XM
..


Спасибо за ссылку. Пойду читать.
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / HTML->XHTML / 16 сообщений из 16, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]