powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / HTML->XHTML
16 сообщений из 16, страница 1 из 1
HTML->XHTML
    #33186905
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
HTML->XHTML(XML)

Кто нибудь интересовался проблемой? Хочу
обсудить перспективы. Интересует также
инструментарий (тулзы, конвертеры,среды
разработки).

Спасибо всем кто откликнулся.
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187059
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187096
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Благодарю, но я там был и даже участвовал.

Еще...?
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187363
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
.... желающих не находится...
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187474
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Нужели придется с самим собой разговаривать?!
(в психиатрии этому есть определение)

Ну да ладно. Даю тынц для затравки.



P.S. Может к вечеру-то разойдется .. (с) Какой-то классик
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187528
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton Нужели придется с самим собой разговаривать?!
(в психиатрии этому есть определение)
Шизофрения - проф. заболевание программеров.
Ток не у нас.
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187609
Naug
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А в чём собственно проблема? Ну обязали пргеров закрывать тэги своевременно ну и что?
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187649
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Проблема лишь в том, что мне нужно извлекать
много информации из html-документов. Но
хочется это реализовать с использованием
XML -парсеров и XSLT .

HTML - парсеры меня принципиально
не интересуют как морально устаревшие.

Я их могу рассматривать лишь с точки
зрения временного решения при конвертации
HTML->XHTML . Почему собственно и возник сабж.
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187660
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
По ходу возникает много нерешенных вопросов
а именно:

1. Что делать с внедренными документами.
2. Что делать с фреймами.
3. Как поступать с java-скриптами.
4. Как интегрировать картинки и проч. связные объекты в документ.
5. Как распозновать кодовую страницу, если charset не указан.

И это возможно не полный список.
Вот.
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187698
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton2. Что делать с фреймами.
"Встраивать"...

mayton3. Как поступать с java-скриптами.
Это сложнее...
Они же и подгружаемыми могут быть.
И содержать большой кусок информации...
Но выход один: - Колоть java-скрипт.
И по анализу содержимого принимать решение, что с ним дальше делать.

5. Как распозновать кодовую страницу, если charset не указан.
[/quot]
Так, имхо, этот вопрос давно решен...
К Дельфям даж модули есть и не один.
Пробовал - работают отлично и на несколько кодировок сразу...

Хотя все же не понял на кой ТАКАЯ головная боль?..
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187715
Фотография XM
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton wrote:
> По ходу возникает много нерешенных вопросов
> а именно:
>
> *1. *Что делать с внедренными документами.
> *2. *Что делать с фреймами.
> *3. *Как поступать с java-скриптами.
> *4. *Как интегрировать картинки и проч. связные объекты в документ.
Игнорировать всё! :)
> *5. *Как распозновать кодовую страницу, если charset не указан.
http://www.mozilla.org/projects/intl/chardet.html

А чем http://tidy.sourceforge.net/ не подходит для перегонки HTML->XHTML?
Posted via ActualForum NNTP Server 1.2
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187751
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di Line
Это сложнее...
Они же и подгружаемыми могут быть.
И содержать большой кусок информации...
Но выход один: - Колоть java-скрипт.
И по анализу содержимого принимать решение, что с ним дальше делать.


По моим наблюдениям 99% Java-скриптов - это реализация
баннерной рекламы. Скорее всего буду их безжалостно удалять.

Di Line
К Дельфям даж модули есть и не один.
Пробовал - работают отлично и на несколько кодировок сразу...
Хотя все же не понял на кой ТАКАЯ головная боль?..


Реализация будет либо на С#.Net либо на Java.

Ладно .. поясню вкратце суть задания. Имеется
хранилище документов (самого разного происхождения,
однако доминирует формат html). Необходимо
Их проиндексировать по ключевым словам,
автору, названию, переконвертировать в XML
формат (схема пока не утверждена) и загнать
все это в базу под Oracle. Cам документ будет лежать
в одной из таблиц в поле типа XMLType (это
необходимо для работы поисковых алгоритмов
пакета Oracle DBMS_XML).

С doc-овскими и rtf-никами будет проще. Я просто переконвертирую
в xml средствами MS-Office.

Прочие бинарники будут завраплены в XML с добавлением
служебной метаинформации.

XSLT логика будет стоять на самом верхнем уровне
и преобразовывать все типы документов к некому
единому представлению, удобному для поисковой
системы.
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187784
Фотография XM
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton wrote:
> Реализация будет либо на С#.Net либо на Java.
>

для Java я использовал TagSoup для разбора html в DOM и через XPath вытягивал
требуемые данные.
Posted via ActualForum NNTP Server 1.2
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187787
Naug
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не понимаю. Яваскрипт это содержание тега <script/> если это линк, то это всёравно вполне нормальный хмл - тег и чем он с точки зрения парсанья отличается от линка на какой-нить css?

авторНеобходимо
Их проиндексировать по ключевым словам,
автору, названию
емнип html служит для оформления данных, то есть парсеры прямого отношения к нахождению автора документа не имеют.

Вообще, объясните сущеглупому в чём проблема привести все теги к одному регистру, проследить чтоб они были вложенны один в другой и закрывались? Я всегда считал что по сути xhtml нужно именно для того чтобы парсеры не задумывались над такими вещами (регистр,вложенность,закрытие,кавычки) и были более быстрыми/лёгкими/умными
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187794
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
По моим наблюдениям 99% Java-скриптов - это реализация
баннерной рекламы. Скорее всего буду их безжалостно удалять.

имхо % завышен...
Куча сайтов, где Java-скриптами сделана НАВИГАЦИЯ.
+ динамическое изменение содержимого страниц.
Не всегда это очевидно при просмотре броузером...
...
Рейтинг: 0 / 0
HTML->XHTML
    #33187796
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
XM
..


Спасибо за ссылку. Пойду читать.
...
Рейтинг: 0 / 0
16 сообщений из 16, страница 1 из 1
Форумы / Программирование [игнор отключен] [закрыт для гостей] / HTML->XHTML
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]