Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Delphi [игнор отключен] [закрыт для гостей] / Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows? / 9 сообщений из 9, страница 1 из 1
15.06.2017, 02:11:44
    #39471843
BlackGnomeГуест
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
вот этот код не работает , ВНЕ ЗАВИСИМОСТИ от префиксов классов объектов XML или HTML
в обоих случаях doc просто не инициализируется

Код: pascal
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
dom_html,dom,sax_xml

procedure TForm1.Button2Click(Sender: TObject);
var doc: TXMLDocument;
    users: TDOMElement;
begin

  readxmlfile(doc,TStringStream.create(некая исходная готовая строка полноценного навороченного HTML));

  users:=doc.GetElementById('userlist');
...
Рейтинг: 0 / 0
15.06.2017, 07:24:42
    #39471865
___void___
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
keyword:
internettools
...
Рейтинг: 0 / 0
15.06.2017, 08:39:41
    #39471889
wadman
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
BlackGnomeГуест
Код: pascal
1.
dom_html,dom,sax_xml


Пробовал связку XMLRead, XMLWrite, DOM? Я с ними работаю на убунту и винде одинаково.
...
Рейтинг: 0 / 0
15.06.2017, 14:35:57
    #39472320
_Vasilisk_
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
Не всякий HTML является валидным XML
BlackGnomeГуестdoc просто не инициализируетсяСмотрите, как добыть текст ошибки
BlackGnomeГуест
Код: pascal
1.
readxmlfile(doc,TStringStream.create(некая исходная готовая строка полноценного навороченного HTML));

Ладно, забьем на утечки. Чему равен Position у созданного таким образом стрима? В какой он создается кодировке? Не противоречит ли это прологу документа?
...
Рейтинг: 0 / 0
15.06.2017, 20:29:01
    #39472678
BlackGnomeГуест
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
_Vasilisk_Не всякий HTML является валидным XML
BlackGnomeГуестdoc просто не инициализируетсяСмотрите, как добыть текст ошибки
BlackGnomeГуест
Код: pascal
1.
readxmlfile(doc,TStringStream.create(некая исходная готовая строка полноценного навороченного HTML));

Ладно, забьем на утечки. Чему равен Position у созданного таким образом стрима? В какой он создается кодировке? Не противоречит ли это прологу документа?


пока отложил сабж. гипертекст беру от webkit. Этот гад нарочито выкидывает закрывающую палку у <LINK> - это к примеру...
...
Рейтинг: 0 / 0
16.06.2017, 15:16:56
    #39473215
_Vasilisk_
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
BlackGnomeГуестЭтот гад нарочито выкидывает закрывающую палкуТогда забудьте про XML парсеры
...
Рейтинг: 0 / 0
16.06.2017, 15:47:35
    #39473232
asviridenkov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
_Vasilisk_BlackGnomeГуестЭтот гад нарочито выкидывает закрывающую палкуТогда забудьте про XML парсеры

При парсинге HTML из реального мира лучше сразу забыть про XML, только специально заточенный HTML парсер который будет переваривать любой хардкор, незакрытые теги, перепутанные теги, отсутствие кавычек и прочее.
...
Рейтинг: 0 / 0
16.06.2017, 16:06:09
    #39473243
Dimonka
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
asviridenkov_Vasilisk_пропущено...
Тогда забудьте про XML парсеры

При парсинге HTML из реального мира лучше сразу забыть про XML, только специально заточенный HTML парсер который будет переваривать любой хардкор, незакрытые теги, перепутанные теги, отсутствие кавычек и прочее.

Ну не знаю, вполне можно парсить в XML с некоторыми допущениями.

Я себе на основе http://htmlp.sourceforge.net/ вполне быстрый конвертер HTML в XML сварганил с XPATH-ом и поэтессами.
И с исправлением незакрытых тегов, незакрытых символов <> итд. Ессесно придётся немного руками повозится, ну а куда без этого?
...
Рейтинг: 0 / 0
16.06.2017, 16:09:17
    #39473246
asviridenkov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows?
Dimonkaasviridenkovпропущено...


При парсинге HTML из реального мира лучше сразу забыть про XML, только специально заточенный HTML парсер который будет переваривать любой хардкор, незакрытые теги, перепутанные теги, отсутствие кавычек и прочее.

Ну не знаю, вполне можно парсить в XML с некоторыми допущениями.

Я себе на основе http://htmlp.sourceforge.net/ вполне быстрый конвертер HTML в XML сварганил с XPATH-ом и поэтессами.
И с исправлением незакрытых тегов, незакрытых символов <> итд. Ессесно придётся немного руками повозится, ну а куда без этого?

Там допущений слишком много. Особенно когда касается HTML e-mail-ов. Я в свое время отлаживал парсер на базе из нескольких тысяч HTML писем, и такого адища насмотрелся, сейчас уже даже всего не вспомнить.
...
Рейтинг: 0 / 0
Форумы / Delphi [игнор отключен] [закрыт для гостей] / Lazarus, Чем парсить HTML (полноценный со всеми делами) ,когда не факт, что Windows? / 9 сообщений из 9, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]