powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Delphi [игнор отключен] [закрыт для гостей] / Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
9 сообщений из 9, страница 1 из 1
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
    #39471843
Фотография BlackGnomeГуест
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
вот этот код не работает , ВНЕ ЗАВИСИМОСТИ от префиксов классов объектов XML или HTML
в обоих случаях doc просто не инициализируется

Код: pascal
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
dom_html,dom,sax_xml

procedure TForm1.Button2Click(Sender: TObject);
var doc: TXMLDocument;
    users: TDOMElement;
begin

  readxmlfile(doc,TStringStream.create(некая исходная готовая строка полноценного навороченного HTML));

  users:=doc.GetElementById('userlist');
...
Рейтинг: 0 / 0
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
    #39471865
___void___
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
keyword:
internettools
...
Рейтинг: 0 / 0
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
    #39471889
Фотография wadman
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BlackGnomeГуест
Код: pascal
1.
dom_html,dom,sax_xml


Пробовал связку XMLRead, XMLWrite, DOM? Я с ними работаю на убунту и винде одинаково.
...
Рейтинг: 0 / 0
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
    #39472320
Фотография _Vasilisk_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не всякий HTML является валидным XML
BlackGnomeГуестdoc просто не инициализируетсяСмотрите, как добыть текст ошибки
BlackGnomeГуест
Код: pascal
1.
readxmlfile(doc,TStringStream.create(некая исходная готовая строка полноценного навороченного HTML));

Ладно, забьем на утечки. Чему равен Position у созданного таким образом стрима? В какой он создается кодировке? Не противоречит ли это прологу документа?
...
Рейтинг: 0 / 0
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
    #39472678
Фотография BlackGnomeГуест
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_Vasilisk_Не всякий HTML является валидным XML
BlackGnomeГуестdoc просто не инициализируетсяСмотрите, как добыть текст ошибки
BlackGnomeГуест
Код: pascal
1.
readxmlfile(doc,TStringStream.create(некая исходная готовая строка полноценного навороченного HTML));

Ладно, забьем на утечки. Чему равен Position у созданного таким образом стрима? В какой он создается кодировке? Не противоречит ли это прологу документа?


пока отложил сабж. гипертекст беру от webkit. Этот гад нарочито выкидывает закрывающую палку у <LINK> - это к примеру...
...
Рейтинг: 0 / 0
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
    #39473215
Фотография _Vasilisk_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BlackGnomeГуестЭтот гад нарочито выкидывает закрывающую палкуТогда забудьте про XML парсеры
...
Рейтинг: 0 / 0
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
    #39473232
asviridenkov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_Vasilisk_BlackGnomeГуестЭтот гад нарочито выкидывает закрывающую палкуТогда забудьте про XML парсеры

При парсинге HTML из реального мира лучше сразу забыть про XML, только специально заточенный HTML парсер который будет переваривать любой хардкор, незакрытые теги, перепутанные теги, отсутствие кавычек и прочее.
...
Рейтинг: 0 / 0
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
    #39473243
Фотография Dimonka
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
asviridenkov_Vasilisk_пропущено...
Тогда забудьте про XML парсеры

При парсинге HTML из реального мира лучше сразу забыть про XML, только специально заточенный HTML парсер который будет переваривать любой хардкор, незакрытые теги, перепутанные теги, отсутствие кавычек и прочее.

Ну не знаю, вполне можно парсить в XML с некоторыми допущениями.

Я себе на основе http://htmlp.sourceforge.net/ вполне быстрый конвертер HTML в XML сварганил с XPATH-ом и поэтессами.
И с исправлением незакрытых тегов, незакрытых символов <> итд. Ессесно придётся немного руками повозится, ну а куда без этого?
...
Рейтинг: 0 / 0
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
    #39473246
asviridenkov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimonkaasviridenkovпропущено...


При парсинге HTML из реального мира лучше сразу забыть про XML, только специально заточенный HTML парсер который будет переваривать любой хардкор, незакрытые теги, перепутанные теги, отсутствие кавычек и прочее.

Ну не знаю, вполне можно парсить в XML с некоторыми допущениями.

Я себе на основе http://htmlp.sourceforge.net/ вполне быстрый конвертер HTML в XML сварганил с XPATH-ом и поэтессами.
И с исправлением незакрытых тегов, незакрытых символов <> итд. Ессесно придётся немного руками повозится, ну а куда без этого?

Там допущений слишком много. Особенно когда касается HTML e-mail-ов. Я в свое время отлаживал парсер на базе из нескольких тысяч HTML писем, и такого адища насмотрелся, сейчас уже даже всего не вспомнить.
...
Рейтинг: 0 / 0
9 сообщений из 9, страница 1 из 1
Форумы / Delphi [игнор отключен] [закрыт для гостей] / Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]