Парсер / WinForms, .Net Framework

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / WinForms, .Net Framework [игнор отключен] [закрыт для гостей] / Парсер

25 сообщений из 163, страница 1 из 7

все

Парсер

#38357074

VIT2708

Участник

Откуда: Киев

Сообщения: 1 420

Рейтинг: 0 / 0

Знаю что уже много обсуждали данный вопрос но только он у меня несколько необычный но очень простой. Библиотеки парсеры не использую так как функционал простой тем не менее появилась проблема которую пока даже не знаю как решить.

И так есть html таблица шапка и одна строка (более строк не бывает)

Код: html

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.

<table>
<tr>
<td>
ФИО
</td>
<td>
ТЕЛЕФОН
</td>
<td>
Идентификационный код
</td>
<td>
Прочая инфа
</td>
</tr>

<tr>
<td>
Пупкин
</td>
<td>
06711111111
</td>
<td></td>
<td>
Примечание
</td>
</tr>
</table>

ИНН я не указывал так как есть не обязательные поля

так вот в программе я это разбираю так

Код: c#

1.
2.
3.
4.
5.
6.

//....чтение инфы и т д.
string[] values = strResult.Split(new string[] { "<tbody>", "</tbody>" }, StringSplitOptions.RemoveEmptyEntries);
string[] tr = values[1].Split(new string[] { "<tr>", "</tr>" }, StringSplitOptions.RemoveEmptyEntries);

string[] head = tr[0].Split(new string[] { "<td>", "</td>" }, StringSplitOptions.RemoveEmptyEntries);
string[] data = tr[1].Split(new string[] { "<td>", "</td>" }, StringSplitOptions.RemoveEmptyEntries);

//построив два массива далее я успешно их обрабатывал но появилась еще одна "контора" которая тоже присылает html файл он 1:1 как и другие кроме одного все идет сплошным текстом

Код: html

<table><tr><td>ФИО</td><td>ТЕЛЕФОН</td><td>Идентификационный код</td><td>Прочая инфа</td></tr><tr><td>Пупкин</td><td>06711111111</td><td></td><td>Примечание</td></tr></table>

И вот если между тегами нет текста (<td></td>) то в переменную data не добавляется ничего и длинна массива head становится больше чем data

Как должно быть

Код: c#

1.
2.
3.
4.
5.
6.
7.
8.
9.

head[0] = "ФИО";
head[1] = "ТЕЛЕФОН";
head[2] = "Идентификационный код";
head[3] = "Прочая инфа";

data[0] =  "Пупкин";
data[1] =  "06711111111";
data[2] =  "";
data[3] =  "Примечание";

как есть сейчас

Код: c#

1.
2.
3.
4.
5.
6.
7.
8.

head[0] = "ФИО";
head[1] = "ТЕЛЕФОН";
head[2] = "Идентификационный код";
head[3] = "Прочая инфа";

data[0] =  "Пупкин";
data[1] =  "06711111111";
data[2] =  "Примечание";

data[2] = ""; - хоть оно и пустое но оно должно быть

Подскажите как это можна решить, что бы индексы строк массива data из-за этого не "съезжали" ?

Спасибо.

...

Рейтинг:

0 / 0

06.08.2013, 17:00

| Ответить | Цитировать | Написать

Парсер

#38357269

Antonariy

Участник

Откуда: ☭

Сообщения: 80 221

Рейтинг: 0 / 0

VIT2708Подскажите как это можна решить, что бы индексы строк массива data из-за этого не "съезжали" ?Вообще не писать подобный говнокод будет лучшим решением.

Это же фактически xml. Если в ячейках нет невалидных html-тегов типа , то работать с этим текстом надо как с xml.

...

Рейтинг:

0 / 0

06.08.2013, 18:14

| Ответить | Цитировать | Написать

Парсер

#38357313

VIT2708

Участник

Откуда: Киев

Сообщения: 1 420

Рейтинг: 0 / 0

Antonariy,

вообще то теги есть я их здесь не приводил так как это не критично

...

Рейтинг:

0 / 0

06.08.2013, 18:41

| Ответить | Цитировать | Написать

Парсер

#38357343

Нахлобуч

Участник

Откуда: https://hglabhq.com

Сообщения: 4 091

Рейтинг: 0 / 0

Возьми HtmlAgilityPack

...

Рейтинг:

0 / 0

06.08.2013, 19:35

| Ответить | Цитировать | Написать

Парсер

#38357416

bazile

Участник

Сообщения: 3 121

Рейтинг: 0 / 0

VIT2708, с помощью регулярок можно:

Код: c#

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

string text = "<table>...</table>";
Regex re = new Regex(@"<td>\s*(?<FIO>[^>]*?)\s*</td>\s*<td>\s*(?<Phone>[^>]*?)\s*</td>\s*<td>\s*(?<INN>[^>]*?)\s*</td>\s*<td>\s*(?<Remark>[^>]*?)\s*</td>\s*</tr>\s*</table>", RegexOptions.Multiline);
Match m  = re.Match(text.Replace("<br>", ""));
if (m.Success)
{
	string fio = m.Groups["FIO"].Value;
	string phone = m.Groups["Phone"].Value);
	string inn = m.Groups["ШТТ"].Value;
	string remark = m.Groups["Remark"].Value;
}

Если кроме данных требуются имена колонок, то делаем так:

Код: c#

1.
2.
3.
4.
5.
6.
7.

Regex re = new Regex(@"<table>\s*<tr>(?:\s*<td>(?<HEAD>[^>]*?)</td>\s*)+</tr>\s*<tr>(?:\s*<td>(?<DATA>[^>]*?)</td>\s*)+</tr>\s*</table>", RegexOptions.Multiline);
Match m  = re.Match(text.Replace("<br>", ""));
if (m.Success)
{
	string[] head = match.Groups["HEAD"].Captures.Cast<Capture>().Select(c => c.Value.Trim()).ToArray();
	string[] data = match.Groups["DATA"].Captures.Cast<Capture>().Select(c => c.Value.Trim()).ToArray();
}

...

Рейтинг:

0 / 0

06.08.2013, 20:41

| Ответить | Цитировать | Написать

Парсер

#38357436

Нахлобуч

Участник

Откуда: https://hglabhq.com

Сообщения: 4 091

Рейтинг: 0 / 0

bazile,

...

Рейтинг:

0 / 0

06.08.2013, 20:58

| Ответить | Цитировать | Написать

Парсер

#38357448

Где-то в степи

Участник

Откуда: Под Таганрогом

Сообщения: 4 453

Рейтинг: 0 / 0

bazile,Нахлобуч
ахтунг ( Последовательность действий)

...

Рейтинг:

0 / 0

06.08.2013, 21:11

| Ответить | Цитировать | Написать

Парсер

#38357565

bazile

Участник

Сообщения: 3 121

Рейтинг: 0 / 0

Нахлобуч, побереги глаза :)

Оба регулярных выражения состоят из повторяющихся частей так что их несложно понять. При желании можно "дать подсказку" с помощью форматирования:

Код: c#

1.
2.
3.
4.
5.
6.

Regex re = new Regex(@"<td>\s*(?<FIO>[^>]*?)\s*</td>\s*"+
                     @"<td>\s*(?<Phone>[^>]*?)\s*</td>\s*"+
                     @"<td>\s*(?<INN>[^>]*?)\s*</td>\s*"+
                     @"<td>\s*(?<Remark>[^>]*?)\s*</td>\s*"+
                     @"</tr>\s*</table>"
                     , RegexOptions.Multiline);

...

Рейтинг:

0 / 0

06.08.2013, 23:50

| Ответить | Цитировать | Написать

Парсер

#38357664

Сон Веры Павловны

Участник

Сообщения: 6 318

Рейтинг: 0 / 0

За парсинг html/xml с помощью регвыров - убивать.
P.S.
http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454
http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html

...

Рейтинг:

0 / 0

07.08.2013, 03:54

| Ответить | Цитировать | Написать

Парсер

#38357744

EDUARD SAPOTSKI

Участник

Сообщения: 1 230

Рейтинг: 0 / 0

Фигней не майтесь, возьми HtmlAgilityPack там уже давно все украдено придумано до нас!

...

Рейтинг:

0 / 0

07.08.2013, 09:20

| Ответить | Цитировать | Написать

Парсер

#38357771

Ermak

Участник

Откуда: Tomsk

Сообщения: 853

Рейтинг: 0 / 0

авторЗа парсинг html/xml с помощью регвыров - убивать

ух как грозно и категорично.

Так уж сложилось, что для парсинга html использую RegExp'ы и особых проблем не испытываю.
HtmlAgilityPack смотрел, пробовал, но предпочтение отдаю RegExp, просто мне так удобнее.

...

Рейтинг:

0 / 0

07.08.2013, 09:44

| Ответить | Цитировать | Написать

Парсер

#38357778

МСУ

Участник

Откуда: http://codearticles.ru

Сообщения: 33 530

Рейтинг: 0 / 0

Ermakдля парсинга html использую RegExp'ы и особых проблем пока не испытываю
Поправил :)

...

Рейтинг:

0 / 0

07.08.2013, 09:51

| Ответить | Цитировать | Написать

Парсер

#38357826

bazile

Участник

Сообщения: 3 121

Рейтинг: 0 / 0

Сон Веры ПавловныЗа парсинг html/xml с помощью регвыров - убивать.
Категоричность сестра догматизма. Регулярные выражения это инструмент со своими плюсами и минусами. В общем случае я бы не стал применять регулярки для разбора html, но в данном конкретном случае считаю их применение оправданным из-за простой структуры документа. Если он усложнится - например, добавятся атрибуты у тегов - , то тогда следует переключиться на HtmlAgilityPack.

В заметке Jeff Atwood об этом тоже сказано:
http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html So, while I may attempt to parse HTML using regular expressions in certain situations , I go in knowing that:

- It's generally a bad idea.
- Unless you have discipline and put very strict conditions on what you're doing , matching HTML with regular expressions rapidly devolves into madness, just how Cthulhu likes it.
- I had what I thought to be good, rational, (semi) defensible reasons for choosing regular expressions in this specific scenario .

It's considered good form to demand that regular expressions be considered verboten, totally off limits for processing HTML, but I think that's just as wrongheaded as demanding every trivial HTML processing task be handled by a full-blown parsing engine. It's more important to understand the tools, and their strengths and weaknesses, than it is to knuckle under to knee-jerk dogmatism .

...

Рейтинг:

0 / 0

07.08.2013, 10:13

| Ответить | Цитировать | Написать

Парсер

#38357852

МСУ

Участник

Откуда: http://codearticles.ru

Сообщения: 33 530

Рейтинг: 0 / 0

bazile, дело не только в структуре документа, а еще и в его содержимом.

...

Рейтинг:

0 / 0

07.08.2013, 10:27

| Ответить | Цитировать | Написать

Парсер

#38357925

Ermak

Участник

Откуда: Tomsk

Сообщения: 853

Рейтинг: 0 / 0

МСУпроблем пока не испытываю
Поправил :)

Может быть и так.
Разработку парсеров заказывают часто, так что ждемс...

PS. Просто набил руку на работе с RegEx.

...

Рейтинг:

0 / 0

07.08.2013, 11:00

| Ответить | Цитировать | Написать

Парсер

#38357946

МСУ

Участник

Откуда: http://codearticles.ru

Сообщения: 33 530

Рейтинг: 0 / 0

Всегда парсил HTML через родной IHTMLDocument2 (mshtml.tlb, ieframe.dll). Работало как часы. HtmlAgilityPack щупал, но в реальных проектах решил не использовать.

...

Рейтинг:

0 / 0

07.08.2013, 11:13

| Ответить | Цитировать | Написать

Парсер

#38358007

Сон Веры Павловны

Участник

Сообщения: 6 318

Рейтинг: 0 / 0

bazileРегулярные выражения это инструмент со своими плюсами и минусами.
Не затруднит озвучить плюсы регулярок по сравнению с парсером в данном конкретном случае? Вариант неумения пользоваться парсером в отличие от регулярок не предлагать.

МСУВсегда парсил HTML через родной IHTMLDocument2 (mshtml.tlb, ieframe.dll). Работало как часы. HtmlAgilityPack щупал, но в реальных проектах решил не использовать.
Насколько я помню, он не умеет XPath.

...

Рейтинг:

0 / 0

07.08.2013, 11:43

| Ответить | Цитировать | Написать

Парсер

#38358018

Алексей К

Участник

Откуда: Новосибирск

Сообщения: 14 461

Рейтинг: 0 / 0

Сон Веры ПавловныbazileРегулярные выражения это инструмент со своими плюсами и минусами.
Не затруднит озвучить плюсы регулярок по сравнению с парсером в данном конкретном случае? Вариант неумения пользоваться парсером в отличие от регулярок не предлагать.Не надо тащить "левую" библиотеку в проект. Regex для простых случаев самое то.

...

Рейтинг:

0 / 0

07.08.2013, 11:47

| Ответить | Цитировать | Написать

Парсер

#38358027

Сон Веры Павловны

Участник

Сообщения: 6 318

Рейтинг: 0 / 0

Алексей КНе надо тащить "левую" библиотеку в проект. Regex для простых случаев самое то.
Это трудоемко? Затратно? Еще что-то? Установка того же HTML Agility Pack через NuGet - дело 10 секунд.

...

Рейтинг:

0 / 0

07.08.2013, 11:50

| Ответить | Цитировать | Написать

Парсер

#38358036

Antonariy

Участник

Откуда: ☭

Сообщения: 80 221

Рейтинг: 0 / 0

Сон Веры ПавловныНасколько я помню, он не умеет XPath.И не должен уметь. Об абсолютно html-валидную конструкцию xpath сломает зубы.

В html5 появился document.querySelector/querySelectorAll, не уступающий по мощности xpath. Селекторы jQuery это копипаста querySelector.

...

Рейтинг:

0 / 0

07.08.2013, 11:53

| Ответить | Цитировать | Написать

Парсер

#38358040

Алексей К

Участник

Откуда: Новосибирск

Сообщения: 14 461

Рейтинг: 0 / 0

Сон Веры ПавловныАлексей КНе надо тащить "левую" библиотеку в проект. Regex для простых случаев самое то.
Это трудоемко? Затратно? Еще что-то? Установка того же HTML Agility Pack через NuGet - дело 10 секунд.Если задача решается десятком строчек без "левой" библиотеки, зачем тащить в проект "левую" библиотеку?

Код: c#

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.

        string GetTagContent(string tagName, string content)
        {
            var beginTagPattern = string.Format(@"< \s* {0} .*? >", tagName);
            var endTagPattern = string.Format(@"</ \s* {0} \s* >", tagName);

            var pattern = string.Format(
                @"(?<={0}) .* (?={1})",
                beginTagPattern,
                endTagPattern
            );

            return Regex
                .Match(content, pattern, TagParseOptions)
                .Value;
        }

...

Рейтинг:

0 / 0

07.08.2013, 11:54

| Ответить | Цитировать | Написать

Парсер

#38358049

МСУ

Участник

Откуда: http://codearticles.ru

Сообщения: 33 530

Рейтинг: 0 / 0

Сон Веры ПавловныНасколько я помню, он не умеет XPath.
А должен уметь? Для этого курим ObjectXPathNavigator.

...

Рейтинг:

0 / 0

07.08.2013, 11:57

| Ответить | Цитировать | Написать

Парсер

#38358053

МСУ

Участник

Откуда: http://codearticles.ru

Сообщения: 33 530

Рейтинг: 0 / 0

Алексей КНе надо тащить "левую" библиотеку в проект. Regex для простых случаев самое то.
Я тоже не люблю левые сборки. Так на то есть виндовой IHTMLDocument2 / IHTMLDocument3.

...

Рейтинг:

0 / 0

07.08.2013, 11:59

| Ответить | Цитировать | Написать

Парсер

#38358156

bazile

Участник

Сообщения: 3 121

Рейтинг: 0 / 0

Сон Веры ПавловныНе затруднит озвучить плюсы регулярок по сравнению с парсером в данном конкретном случае?
- простое решение для простой задачи используя только средства базовой библиотеки
- избегаем использовование внешней библиотеки
- нет необходимости тратить время на изучение новой библиотеки (для тех кто ранее не работал с HtmlAgilityPack)

При этом конечно помним про недостаток - риск превращения регулярки и кода в ктулху-стиль как это называет Атвуд. Как только появились признаки такого стиля следует переключиться на другие решения.

...

Рейтинг:

0 / 0

07.08.2013, 12:54

| Ответить | Цитировать | Написать

Парсер

#38358257

Алексей К

Участник

Откуда: Новосибирск

Сообщения: 14 461

Рейтинг: 0 / 0

МСУТак на то есть виндовой IHTMLDocument2 / IHTMLDocument3.Не знал, но подозревал что должно быть. :-)

...

Рейтинг:

0 / 0

07.08.2013, 13:53

| Ответить | Цитировать | Написать

25 сообщений из 163, страница 1 из 7

все

Форумы / WinForms, .Net Framework [игнор отключен] [закрыт для гостей] / Парсер

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=20&msg=38358257&tid=1404236]:	0ms
get settings:	8ms
get forum list:	13ms
check forum access:	4ms
check topic access:	4ms
track hit:	46ms
get topic data:	12ms
get forum data:	3ms
get page messages:	59ms
get tp. blocked users:	2ms
others:	11ms

total:	162ms