Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности

Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
|
27.07.2005, 13:51
|
|||
|---|---|---|---|
HTML->XHTML |
|||
|
#18+
HTML->XHTML(XML) Кто нибудь интересовался проблемой? Хочу обсудить перспективы. Интересует также инструментарий (тулзы, конвертеры,среды разработки). Спасибо всем кто откликнулся. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.07.2005, 14:42
|
|||
|---|---|---|---|
HTML->XHTML |
|||
|
#18+
Благодарю, но я там был и даже участвовал. Еще...? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.07.2005, 16:03
|
|||
|---|---|---|---|
HTML->XHTML |
|||
|
#18+
.... желающих не находится... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.07.2005, 16:36
|
|||
|---|---|---|---|
HTML->XHTML |
|||
|
#18+
Нужели придется с самим собой разговаривать?! (в психиатрии этому есть определение) Ну да ладно. Даю тынц для затравки. P.S. Может к вечеру-то разойдется .. (с) Какой-то классик ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.07.2005, 16:54
|
|||
|---|---|---|---|
HTML->XHTML |
|||
|
#18+
mayton Нужели придется с самим собой разговаривать?! (в психиатрии этому есть определение) Шизофрения - проф. заболевание программеров. Ток не у нас. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.07.2005, 17:26
|
|||
|---|---|---|---|
HTML->XHTML |
|||
|
#18+
А в чём собственно проблема? Ну обязали пргеров закрывать тэги своевременно ну и что? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.07.2005, 17:41
|
|||
|---|---|---|---|
HTML->XHTML |
|||
|
#18+
Проблема лишь в том, что мне нужно извлекать много информации из html-документов. Но хочется это реализовать с использованием XML -парсеров и XSLT . HTML - парсеры меня принципиально не интересуют как морально устаревшие. Я их могу рассматривать лишь с точки зрения временного решения при конвертации HTML->XHTML . Почему собственно и возник сабж. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.07.2005, 17:45
|
|||
|---|---|---|---|
HTML->XHTML |
|||
|
#18+
По ходу возникает много нерешенных вопросов а именно: 1. Что делать с внедренными документами. 2. Что делать с фреймами. 3. Как поступать с java-скриптами. 4. Как интегрировать картинки и проч. связные объекты в документ. 5. Как распозновать кодовую страницу, если charset не указан. И это возможно не полный список. Вот. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.07.2005, 17:54
|
|||
|---|---|---|---|
HTML->XHTML |
|||
|
#18+
mayton2. Что делать с фреймами. "Встраивать"... mayton3. Как поступать с java-скриптами. Это сложнее... Они же и подгружаемыми могут быть. И содержать большой кусок информации... Но выход один: - Колоть java-скрипт. И по анализу содержимого принимать решение, что с ним дальше делать. 5. Как распозновать кодовую страницу, если charset не указан. [/quot] Так, имхо, этот вопрос давно решен... К Дельфям даж модули есть и не один. Пробовал - работают отлично и на несколько кодировок сразу... Хотя все же не понял на кой ТАКАЯ головная боль?.. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.07.2005, 18:03
|
|||
|---|---|---|---|
HTML->XHTML |
|||
|
#18+
mayton wrote: > По ходу возникает много нерешенных вопросов > а именно: > > *1. *Что делать с внедренными документами. > *2. *Что делать с фреймами. > *3. *Как поступать с java-скриптами. > *4. *Как интегрировать картинки и проч. связные объекты в документ. Игнорировать всё! :) > *5. *Как распозновать кодовую страницу, если charset не указан. http://www.mozilla.org/projects/intl/chardet.html А чем http://tidy.sourceforge.net/ не подходит для перегонки HTML->XHTML? Posted via ActualForum NNTP Server 1.2 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.07.2005, 18:16
|
|||
|---|---|---|---|
HTML->XHTML |
|||
|
#18+
Di Line Это сложнее... Они же и подгружаемыми могут быть. И содержать большой кусок информации... Но выход один: - Колоть java-скрипт. И по анализу содержимого принимать решение, что с ним дальше делать. По моим наблюдениям 99% Java-скриптов - это реализация баннерной рекламы. Скорее всего буду их безжалостно удалять. Di Line К Дельфям даж модули есть и не один. Пробовал - работают отлично и на несколько кодировок сразу... Хотя все же не понял на кой ТАКАЯ головная боль?.. Реализация будет либо на С#.Net либо на Java. Ладно .. поясню вкратце суть задания. Имеется хранилище документов (самого разного происхождения, однако доминирует формат html). Необходимо Их проиндексировать по ключевым словам, автору, названию, переконвертировать в XML формат (схема пока не утверждена) и загнать все это в базу под Oracle. Cам документ будет лежать в одной из таблиц в поле типа XMLType (это необходимо для работы поисковых алгоритмов пакета Oracle DBMS_XML). С doc-овскими и rtf-никами будет проще. Я просто переконвертирую в xml средствами MS-Office. Прочие бинарники будут завраплены в XML с добавлением служебной метаинформации. XSLT логика будет стоять на самом верхнем уровне и преобразовывать все типы документов к некому единому представлению, удобному для поисковой системы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.07.2005, 18:30
|
|||
|---|---|---|---|
HTML->XHTML |
|||
|
#18+
mayton wrote: > Реализация будет либо на С#.Net либо на Java. > для Java я использовал TagSoup для разбора html в DOM и через XPath вытягивал требуемые данные. Posted via ActualForum NNTP Server 1.2 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.07.2005, 18:31
|
|||
|---|---|---|---|
HTML->XHTML |
|||
|
#18+
Не понимаю. Яваскрипт это содержание тега <script/> если это линк, то это всёравно вполне нормальный хмл - тег и чем он с точки зрения парсанья отличается от линка на какой-нить css? авторНеобходимо Их проиндексировать по ключевым словам, автору, названию емнип html служит для оформления данных, то есть парсеры прямого отношения к нахождению автора документа не имеют. Вообще, объясните сущеглупому в чём проблема привести все теги к одному регистру, проследить чтоб они были вложенны один в другой и закрывались? Я всегда считал что по сути xhtml нужно именно для того чтобы парсеры не задумывались над такими вещами (регистр,вложенность,закрытие,кавычки) и были более быстрыми/лёгкими/умными ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.07.2005, 18:35
|
|||
|---|---|---|---|
HTML->XHTML |
|||
|
#18+
mayton По моим наблюдениям 99% Java-скриптов - это реализация баннерной рекламы. Скорее всего буду их безжалостно удалять. имхо % завышен... Куча сайтов, где Java-скриптами сделана НАВИГАЦИЯ. + динамическое изменение содержимого страниц. Не всегда это очевидно при просмотре броузером... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|

start [/forum/topic.php?fid=16&tablet=1&tid=1347536]: |
0ms |
get settings: |
9ms |
get forum list: |
14ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
28ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
46ms |
get tp. blocked users: |
1ms |
| others: | 307ms |
| total: | 419ms |

| 0 / 0 |
