Найти текстовые блоки разного типа в С. / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Найти текстовые блоки разного типа в С.

40 сообщений из 40, показаны все 2 страниц

все

Найти текстовые блоки разного типа в С.

#39382032

jenya7

Гость

Мне нужно выделить из текста блоки разного типа. У каждого типа есть начальный маркер и конечный маркер. Сейчас есть два типа текстовых блоков - инструкция и тест. Соответственно маркеры выглядят так:
авторSOI – start of instruction
EOI – end of instruction
SOT – start of test
EOT – end of test

И текст выглядит так:
авторSOI
Line1
Line2
Line3
EOI
SOT
Line4
Line5
Line6
EOT

Мой топорный вариант выглядит так.

Код: plaintext

uint32_t Parse(char *text, char *buf, uint32_t *text_type, uint32_t *idx)
{
    uint32_t loc_idx = *idx;
    uint32_t txt_len = strlen(text);
    uint32_t start_pos = 0;
    uint32_t end_pos = 0;
    uint32_t start_found = 0;
    char *pchr;
    
    if (loc_idx >= txt_len) return PARSE_FAIL;
    
    //find SOI - start of instraction
    pchr = strstr(&text[loc_idx], START_OF_INSTRACTION);
    //if(pchr == NULL) return PARSE_FAIL;
    if (pchr != NULL)
    {
        start_pos = pchr - text + strlen(START_OF_INSTRACTION);
        start_found = 1;
    }
        
    //find EOI - end of instraction
    pchr = strstr(text, END_OF_INSTRACTION);
    //if(pchr == NULL) return PARSE_FAIL;  
    if (start_found && pchr != NULL)
    {
        end_pos = pchr - text;
        //copy the found block
        memcpy(buf, &text[start_pos], (end_pos - start_pos));
        buf[(end_pos - start_pos)] = '\0';
        *text_type = TXT_TYPE_INSTRACTION;
        *idx = end_pos + strlen(END_OF_INSTRACTION);
        return PARSE_SUCCESS;
    }
    
    //find SOT - start of test
    pchr = strstr(&text[loc_idx], START_OF_TEST);
    if (pchr != NULL)
    {
        start_pos = pchr - text + strlen(START_OF_TEST);
        start_found = 1;
    }
    
    //find EOT - end of test
    pchr = strstr(text, END_OF_TEST);
    if (start_found && pchr != NULL)
    {
        end_pos = pchr - text;
        //copy the found block
        memcpy(buf, &text[start_pos], (end_pos - start_pos)); 
        buf[(end_pos - start_pos)] = '\0';
        *text_type = TXT_TYPE_TEST;
        *idx = end_pos + strlen(END_OF_TEST);
        return PARSE_SUCCESS;
    }
       
    return PARSE_FAIL;

И он работает если в тексте есть два блока.
Но если текст выглядит скажем так
авторSOI
line1
line2
line3
EOI
SOT
line4
line5
line6
EOT
SOT
line7
line8
line9
EOT
SOI
line10
line11
line12
EOI

То весь мой парсер ломается. Как можно улучшить алгоритм?

...

Рейтинг:

0 / 0

11.01.2017, 09:35:13

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382054

Akina

Участник

Откуда: Зеленоград, Москва, Россия

Сообщения: 20 644

Рейтинг: 0 / 0

Сформулируйте все условия, а не основные.

1) Что значит "выделить"? что хотите получить в итоге и в каком виде?
2) Есть ли гарантия, что любой текст, не являющийся маркером, находится в блоке? или бывает текст вне блоков (в т.ч. "пустые" строки)?
3) Есть ли гарантия согласованности разметки? или возможны пересечения блоков, незакрытые блоки и пр?

...

Рейтинг:

0 / 0

11.01.2017, 10:12:40

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382066

Изопропил

Участник

Сообщения: 33 046

Рейтинг: 0 / 0

jenya7То весь мой парсер ломается. Как можно улучшить алгоритм?
1)расписать синтаксис в форме Бэкуса — Наура (BNF)
2)запрограммировать автомат (если неограниченной вложенности нет - то конечный)

нужно последовательно обрабатывать каждый символ(максимум заглядывая на один вперёд, но в этой задаче не придётся) и изменять состояние , а не пытаться сканировать строку вперёд

...

Рейтинг:

0 / 0

11.01.2017, 10:34:16

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382088

jenya7

Гость

AkinaСформулируйте все условия, а не основные.

1) Что значит "выделить"? что хотите получить в итоге и в каком виде?
2) Есть ли гарантия, что любой текст, не являющийся маркером, находится в блоке? или бывает текст вне блоков (в т.ч. "пустые" строки)?
3) Есть ли гарантия согласованности разметки? или возможны пересечения блоков, незакрытые блоки и пр?

Нужно скопировать текст в буфер между маркерами SOI-EOI , SOT-EOT.
скажем в HTML документе тоже есть блоки – header, paragraph, div.

...

Рейтинг:

0 / 0

11.01.2017, 10:50:17

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382090

OoCc

Участник

Откуда: с Кавказа

Сообщения: 2 210

Рейтинг: 0 / 0

или использовать готовый регэкс автомат типа такого

...

Рейтинг:

0 / 0

11.01.2017, 10:53:46

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382103

jenya7

Гость

OoCcили использовать готовый регэкс автомат типа такого
у меня голый С.

...

Рейтинг:

0 / 0

11.01.2017, 11:14:00

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382108

Akina

Участник

Откуда: Зеленоград, Москва, Россия

Сообщения: 20 644

Рейтинг: 0 / 0

jenya7 , пожалуйста, отвечайте на те вопросы, которые Вам задают, а не на вопросы, которые Вы себе сами придумали.

jenya7Нужно скопировать текст в буфер между маркерами SOI-EOI , SOT-EOT.
И что же должно быть помещено в буфер для показанного Вами текста?

jenya7скажем в HTML документе тоже есть блоки – header, paragraph, div
Да ладно... а мужики-то не знают...

...

Рейтинг:

0 / 0

11.01.2017, 11:17:13

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382110

Изопропил

Участник

Сообщения: 33 046

Рейтинг: 0 / 0

jenya7OoCcили использовать готовый регэкс автомат типа такого
у меня голый С.
не в С или С++ проблема, а влезет ли в твой контроллер библиотека регулярок

...

Рейтинг:

0 / 0

11.01.2017, 11:17:48

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382116

kealon(Ruslan)

Участник

Откуда: Нижневартовск

Сообщения: 4 020

Рейтинг: 0 / 0

jenya7OoCcили использовать готовый регэкс автомат типа такого
у меня голый С.
в этом нет проблем, большинство парсер-генераторов поддерживают С да и нагенерированный автомат выполняется элементарно

...

Рейтинг:

0 / 0

11.01.2017, 11:26:01

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382137

Изопропил

Участник

Сообщения: 33 046

Рейтинг: 0 / 0

kealon(Ruslan),

для этой задачи с конечным автоматом из трёх состояний и генерить ничего не надо

...

Рейтинг:

0 / 0

11.01.2017, 11:41:22

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382150

kealon(Ruslan)

Участник

Откуда: Нижневартовск

Сообщения: 4 020

Рейтинг: 0 / 0

Изопропил,

не скажи, как раз таки эту задачу можно решить за один побайтный проход если иметь свой лексер-генератор и знать как он работает

...

Рейтинг:

0 / 0

11.01.2017, 11:56:01

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382155

jenya7

Гость

ничего не понимаю. что происходит.
есть строка "SOI Happy EOI SOT New EOT SOT Year EOT SOI Folks EOI ".
блоки приходят в любом порядке. могут быть только SOI-EOI, SOI-EOI…. Или SOT-EOT, SOT-EOT….. или вперемежку SOI-EOI, SOT-EOT, SOI-EOI, SOT-EOT .
в результате нужно получить buf1 = Happy, buf2 = New, buf3 = Year, buf4 = Folks.
можно даже не одновременно а по очереди.
какие регексы, какие библиотеки. задача на несколько строк кода.

...

Рейтинг:

0 / 0

11.01.2017, 11:58:27

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382165

Изопропил

Участник

Сообщения: 33 046

Рейтинг: 0 / 0

kealon(Ruslan)Изопропил,

не скажи, как раз таки эту задачу можно решить за один побайтный проход если иметь свой лексер-генератор и знать как он работает
можно решить естественно за один проход и без генератора )

...

Рейтинг:

0 / 0

11.01.2017, 12:04:21

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382166

Изопропил

Участник

Сообщения: 33 046

Рейтинг: 0 / 0

jenya7задача на несколько строк кода.
правильно. нехрен искать какие то символы впереди

один цикл по исходной строке

...

Рейтинг:

0 / 0

11.01.2017, 12:05:46

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382170

kealon(Ruslan)

Участник

Откуда: Нижневартовск

Сообщения: 4 020

Рейтинг: 0 / 0

jenya7ничего не понимаю. что происходит.
есть строка "SOI Happy EOI SOT New EOT SOT Year EOT SOI Folks EOI ".
блоки приходят в любом порядке. могут быть только SOI-EOI, SOI-EOI…. Или SOT-EOT, SOT-EOT….. или вперемежку SOI-EOI, SOT-EOT, SOI-EOI, SOT-EOT .
в результате нужно получить buf1 = Happy, buf2 = New, buf3 = Year, buf4 = Folks.
можно даже не одновременно а по очереди.
какие регексы, какие библиотеки. задача на несколько строк кода.
ну если тебе нужно один раз найти, то никаких проблем

Код: plaintext

1.
2.
3.
4.

    //find SOI - start of instraction
    pchr1 = strstr(&text[loc_idx], START_OF_INSTRACTION);
   //find SOT - start of test
    pchr2 = strstr(&text[loc_idx], START_OF_TEST);

смотришь какой раньше и ищешь его завершение, очень топорно, но работать будет

а вот если требуется какое-то решение, которое обслуживает протокол приближенный к реальному времени, то извольте учить конечные автоматы

...

Рейтинг:

0 / 0

11.01.2017, 12:11:12

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382175

kealon(Ruslan)

Участник

Откуда: Нижневартовск

Сообщения: 4 020

Рейтинг: 0 / 0

Изопропилможно решить естественно за один проход и без генератора )
можно, но что-то не хочется

...

Рейтинг:

0 / 0

11.01.2017, 12:14:18

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382176

jenya7

Гость

Изопропил,

ну в этом то и загвоздка. мы нашли начало, нашли конец, но стартовый маркер может встретиться где то еще в тексте. впрочем можно выставить флаг что стартовый маркер уже найден.

...

Рейтинг:

0 / 0

11.01.2017, 12:15:32

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382181

jenya7

Гость

kealon(Ruslan)jenya7ничего не понимаю. что происходит.
есть строка "SOI Happy EOI SOT New EOT SOT Year EOT SOI Folks EOI ".
блоки приходят в любом порядке. могут быть только SOI-EOI, SOI-EOI…. Или SOT-EOT, SOT-EOT….. или вперемежку SOI-EOI, SOT-EOT, SOI-EOI, SOT-EOT .
в результате нужно получить buf1 = Happy, buf2 = New, buf3 = Year, buf4 = Folks.
можно даже не одновременно а по очереди.
какие регексы, какие библиотеки. задача на несколько строк кода.
ну если тебе нужно один раз найти, то никаких проблем

Код: plaintext

1.
2.
3.
4.

    //find SOI - start of instraction
    pchr1 = strstr(&text[loc_idx], START_OF_INSTRACTION);
   //find SOT - start of test
    pchr2 = strstr(&text[loc_idx], START_OF_TEST);

...

Рейтинг:

0 / 0

11.01.2017, 12:17:59

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382185

kealon(Ruslan)

Участник

Откуда: Нижневартовск

Сообщения: 4 020

Рейтинг: 0 / 0

jenya7я думал об этом. как то не очень элегантно.лесенка из побайтных switch как видимо прелагает Изопропил

ну а если и это не гоже
kealon(Ruslan).., то извольте учить конечные автоматы

...

Рейтинг:

0 / 0

11.01.2017, 12:22:05

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382246

Изопропил

Участник

Сообщения: 33 046

Рейтинг: 0 / 0

jenya7ну в этом то и загвоздка. мы нашли начало, нашли конец
не надо ничего искать - вот в чём дело- достаточно принимать решение на основании текущего символа

...

Рейтинг:

0 / 0

11.01.2017, 13:15:37

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382249

Изопропил

Участник

Сообщения: 33 046

Рейтинг: 0 / 0

недостаточное знакомство разработчиков с конечными автоматами приводит к появлению микроконтроллерных устройств с диким поведением

...

Рейтинг:

0 / 0

11.01.2017, 13:18:58

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382259

jenya7

Гость

так работает.

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
69.
70.
71.
72.
73.
74.
75.
76.
77.
78.
79.
80.
81.
82.
83.
84.
85.
86.
87.
88.
89.
90.
91.
92.
93.
94.
95.
96.
97.

uint32_t Parse(char *text, char *buf, uint32_t *text_type, uint32_t *idx)
{
    uint32_t loc_idx = *idx;
    uint32_t txt_len = strlen(text);
    uint32_t start_pos = 0;
    uint32_t end_pos = 0;
    uint32_t start_found = 0;
    char *pchr_i, *pchr_t;
    
    if (loc_idx >= txt_len) return PARSE_FAIL;
    
    
    //find SOI - start of instraction
    pchr_i = strstr(&text[loc_idx], START_OF_INSTRACTION);
    //find SOT - start of test
    pchr_t = strstr(&text[loc_idx], START_OF_TEST);
    
    if ((pchr_i != NULL) && (pchr_t != NULL))
    {
        start_found = 1;
        
        //marker SOI found first
        if (pchr_i < pchr_t)
        {
            start_pos = pchr_i - text + strlen(START_OF_INSTRACTION);
            //find EOI - end of instraction
            pchr_i = strstr(&text[loc_idx], END_OF_INSTRACTION);
            if (start_found && pchr_i != NULL)
            {
                end_pos = pchr_i - text;
                //copy the found block
                memcpy(buf, &text[start_pos], (end_pos - start_pos));
                buf[(end_pos - start_pos)] = '\0';
                *text_type = TXT_TYPE_INSTRACTION;
                *idx = end_pos + strlen(END_OF_INSTRACTION);
                return PARSE_SUCCESS;
            }
        }
        else  //marker SOT found first
        {
            start_pos = pchr_t - text + strlen(START_OF_TEST);
            //find EOT - end of test
            pchr_t = strstr(&text[loc_idx], END_OF_TEST);
            if (start_found && pchr_t != NULL)
            {
                end_pos = pchr_t - text;
                //copy the found block
                memcpy(buf, &text[start_pos], (end_pos - start_pos)); 
                buf[(end_pos - start_pos)] = '\0';
                *text_type = TXT_TYPE_TEST;
                *idx = end_pos + strlen(END_OF_TEST);
                return PARSE_SUCCESS;
            }
        }
    }
    else
    {
        if (pchr_i != NULL)
        {
            start_found = 1;
          
            start_pos = pchr_i - text + strlen(START_OF_INSTRACTION);
            pchr_i = strstr(&text[loc_idx], END_OF_INSTRACTION);
            if (start_found && pchr_i != NULL)
            {
                end_pos = pchr_i - text;
                //copy the found block
                memcpy(buf, &text[start_pos], (end_pos - start_pos));
                buf[(end_pos - start_pos)] = '\0';
                *text_type = TXT_TYPE_INSTRACTION;
                *idx = end_pos + strlen(END_OF_INSTRACTION);
                return PARSE_SUCCESS;
            }
            
        }
        if (pchr_t != NULL)
        {
            start_found = 1;
            
            start_pos = pchr_t - text + strlen(START_OF_TEST);
            pchr_t = strstr(&text[loc_idx], END_OF_TEST);
            if (start_found && pchr_t != NULL)
            {
                end_pos = pchr_t - text;
                //copy the found block
                memcpy(buf, &text[start_pos], (end_pos - start_pos)); 
                buf[(end_pos - start_pos)] = '\0';
                *text_type = TXT_TYPE_TEST;
                *idx = end_pos + strlen(END_OF_TEST);
                return PARSE_SUCCESS;
            }
        }
        
    }
    
    return PARSE_FAIL; 
}

можно заинлайнить повторяющийся код. сейчас попробую сделать на state machine.

...

Рейтинг:

0 / 0

11.01.2017, 13:33:33

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382279

jenya7

Гость

так на state machine.

Код: plaintext

uint32_t TASKER_Parse(char *text, char *buf, uint32_t *text_type, uint32_t *idx)
{
    uint32_t loc_idx = *idx;
    uint32_t txt_len = strlen(text);
    uint32_t start_pos = 0;
    uint32_t end_pos = 0;
    uint32_t start_found = 0;
    //char buf[128];
    char *pchr_i, *pchr_t;
    
    uint32_t state = IDLE;
    
    if (loc_idx >= txt_len) return PARSE_FAIL;
    
    while (state != ST_END)
    {
        switch (state)
        {
            case IDLE:
                //find SOI - start of instraction
                pchr_i = strstr(&text[loc_idx], START_OF_INSTRACTION);
                //find SOT - start of test
                pchr_t = strstr(&text[loc_idx], START_OF_TEST);
            
                if ((pchr_i != NULL) && (pchr_t != NULL))
                {
                    start_found = 1;
                    state = ST_BOUTH_FOUND;
                }
                else
                {
                    if (pchr_i != NULL)
                    {
                        start_found = 1;
                        state = ST_SOI_FOUND;
                    }
                    else if (pchr_t != NULL)
                    {
                        start_found = 1;
                        state = ST_SOT_FOUND;
                    }
                    else
                      state = ST_END;
                }
            break;
            case ST_BOUTH_FOUND:
                //marker SOI found first
                if (pchr_i < pchr_t)
                    state = ST_SOI_FOUND;
                else  //marker SOT found first
                    state = ST_SOT_FOUND;
            break;   
            case ST_SOI_FOUND:
                start_pos = pchr_i - text + strlen(START_OF_INSTRACTION);
                //find EOI - end of instraction
                pchr_i = strstr(&text[loc_idx], END_OF_INSTRACTION);
                if (start_found && pchr_i != NULL)
                {
                    end_pos = pchr_i - text;
                    //copy the found block
                    memcpy(buf, &text[start_pos], (end_pos - start_pos));
                    buf[(end_pos - start_pos)] = '\0';
                    *text_type = TXT_TYPE_INSTRACTION;
                    *idx = end_pos + strlen(END_OF_INSTRACTION);
                    return PARSE_SUCCESS;
                }
            break;
            case ST_SOT_FOUND:
                start_pos = pchr_t - text + strlen(START_OF_TEST);
                //find EOT - end of test
                pchr_t = strstr(&text[loc_idx], END_OF_TEST);
                if (start_found && pchr_t != NULL)
                {
                    end_pos = pchr_t - text;
                    //copy the found block
                    memcpy(buf, &text[start_pos], (end_pos - start_pos)); 
                    buf[(end_pos - start_pos)] = '\0';
                    *text_type = TXT_TYPE_TEST;
                    *idx = end_pos + strlen(END_OF_TEST);
                    return PARSE_SUCCESS;
                }
            break;      
        }
    }
    return PARSE_FAIL; 
}

наверно так все таки есть выигрыш и по speed и по size.

...

Рейтинг:

0 / 0

11.01.2017, 13:54:06

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382290

kealon(Ruslan)

Участник

Откуда: Нижневартовск

Сообщения: 4 020

Рейтинг: 0 / 0

jenya7так на state machine.
наверно так все таки есть выигрыш и по speed и по size.
не особо

ты только логику верхнего уровня загнал в автомат (и то вопрос)

самое плохое место на нижнем уровне

Код: plaintext

1.
2.
3.
4.

  //find SOI - start of instraction
                pchr_i = strstr(&text[loc_idx], START_OF_INSTRACTION);
                //find SOT - start of test
                pchr_t = strstr(&text[loc_idx], START_OF_TEST);

...

Рейтинг:

0 / 0

11.01.2017, 14:08:37

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382296

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Не понятно что должно происходить при нарушении порядка начал и концов, например

Код: sql

"SOI Happy SOT New EOT SOT Year EOI SOI Folks EOI ";

Сделал игнорирование таких некорректно оформленных блоков.
Еще у тебя никак не задается размер буфера, что чревато выходом за его пределы.

Исходник

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.

// Возвращает указатель на конец найденного блока
const char* parse(const char* text, char* buf, size_t buf_size) {
	char type = 0;
	char* b = buf;
	size_t s = buf_size;
	const char* p = text;
	for(;*p != 0; p++) {
		if(p[0] == 'S' && p[1] == 'O' && (p[2] == 'I' || p[2] == 'T')) { // Проверка начала блока
			if (type != 0) { // Начало следующего блока без окончания текущего, начинаем сначала
				b = buf;
				s = buf_size;
			}
			type = p[2];
			p += 2;
		} else if(type) { // Пишем в буфер
			if (p[0] == 'E' && p[1] == 'O' && (p[2] == 'I' || p[2] == 'T')) { // Проверка конца блока
				if(type != p[2]) { // конец блока не того типа
					b = buf;
					s = buf_size;
					type = 0;
				} else {
					*b = 0;
					return p + 3;
				}
			} else if(s > 1) { // есть место в буфере
				*b = *p;
				s--;
				b++;
			}
		}
	}
	*b = 0;
	return NULL;
}

int main (void) {
	//const char* p = "SOI Happy EOISOT New EOT SOT Year EOT SOI Folks EOI ";
	const char* p = "SOI Happy SOT New EOT SOT Year EOI SOI Folks EOI ";
	char buf[4];
	while(p = parse(p, buf, 4)) {
		printf("*%s*\n", buf);
	}
	return 0;
}

...

Рейтинг:

0 / 0

11.01.2017, 14:14:38

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382303

jenya7

Гость

kealon(Ruslan),

да. это самое плохое место. не знаю пока как победить. есть коечно одно решение которое придумали до меня - обрамлять тэги кавычками <SOI>, <EOI>, <SOT>, <EOT> или <I>, <I/>, <T>, <T/>.
но это решение не такое генерик как хотелось бы.

...

Рейтинг:

0 / 0

11.01.2017, 14:20:22

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382340

jenya7

Гость

Dima T,

спасибо. попробую доработать. почему то парсит один блок и выходит.

...

Рейтинг:

0 / 0

11.01.2017, 15:04:29

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382348

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

jenya7Dima T,

спасибо. попробую доработать. почему то парсит один блок и выходит.
Ты мой код запускал? Там должно быть так

Код: plaintext

* Ne*
* Fo*

т.к. буфер 4 байта и строка с ошибками (красным выделил)

Код: plaintext

"SOI Happy SOT New EOT SOT Year EOI SOI Folks EOI"

Если на какой-то другой строке неправильно работает - давай строку, поправлю.

...

Рейтинг:

0 / 0

11.01.2017, 15:16:07

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382354

jenya7

Гость

Dima T,
моя ошибка. все класно работает. Dima T как всегда крут. :)

...

Рейтинг:

0 / 0

11.01.2017, 15:18:22

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382400

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Пользуйся.

Еще думаю неправильно возвращать часть строки если она целиком в буфер не поместилась, наверно лучше пустую возвращать

Код: plaintext

1.
2.
3.
4.
5.

			} else if(s > 1) { // есть место в буфере
...
			} else { // буфер маловат
				*buf = 0;
			}

Сам подумай как правильнее ошибки обрабатывать, что где проверяется я подписал.

...

Рейтинг:

0 / 0

11.01.2017, 15:51:16

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382418

kealon(Ruslan)

Участник

Откуда: Нижневартовск

Сообщения: 4 020

Рейтинг: 0 / 0

Dima TЕще думаю неправильно возвращать часть строки если она целиком в буфер не поместилась, наверно лучше пустую возвращать

лучше не копировать, а возвращать начало текста и длину, проще будет

...

Рейтинг:

0 / 0

11.01.2017, 16:05:39

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39382836

Пётр Седов

Участник

Откуда: Санкт-Петербург

Сообщения: 665

Рейтинг: 0 / 0

jenya7у меня голый С.Ну вот, а здесь приличный форум.

jenya7ничего не понимаю. что происходит.Это нормально, вы же задали вопрос на sql.ru.

jenya7задача на несколько строк кода.Только если писать на ультракоротком языке. На C побольше выйдет.

Кстати, форум «C++» -- он и для вопросов по C тоже.

Dima T

Код: plaintext

	char buf[4];

Так вы, Dim, любите буферы фиксированой длины?

kealon(Ruslan)лучше не копировать, а возвращать начало текста и длину, проще будетА я бы вообще ничего не возвращал, а просто вызывал бы функции обработки блоков:

Код: plaintext

#include <stdbool.h>
#include <string.h>
#include <stdio.h>

/* только для строковых литералов */
#define SL_LEN(string_lit) (sizeof(string_lit) - 1)

#define INSTRUCTION_START "SOI"
#define INSTRUCTION_END "EOI"
#define TEST_START "SOT"
#define TEST_END "EOT"

bool handle_instruction_block(const char block[], size_t block_len);
bool handle_test_block(const char block[], size_t block_len);

bool parse_blocks(const char text[]) {
  size_t pos, block_start, block_end;
  const char* end_marker;

  pos = 0;
  for (;;) {
    while (text[pos] == ' ') pos++; /* пропускаем пробелы */

    if (text[pos] == '\0')
      break;

    if (strncmp(text + pos, INSTRUCTION_START, SL_LEN(INSTRUCTION_START)) == 0) {
      pos += SL_LEN(INSTRUCTION_START);
      while (text[pos] == ' ') pos++;
      block_start = pos;
      end_marker = strstr(text + pos, INSTRUCTION_END);
      if (end_marker == NULL) return false;
      pos = end_marker - text;
      if (block_start < pos) {
        block_end = pos;
        while (text[block_end - 1] == ' ') block_end--;
        if (!handle_instruction_block(text + block_start, block_end - block_start)) return false;
      } else {
        if (!handle_instruction_block(NULL, 0)) return false;
      }
      pos += SL_LEN(INSTRUCTION_END);
    } else if (strncmp(text + pos, TEST_START, SL_LEN(TEST_START)) == 0) {
      pos += SL_LEN(TEST_START);
      while (text[pos] == ' ') pos++;
      block_start = pos;
      end_marker = strstr(text + pos, TEST_END);
      if (end_marker == NULL) return false;
      pos = end_marker - text;
      if (block_start < pos) {
        block_end = pos;
        while (text[block_end - 1] == ' ') block_end--;
        if (!handle_test_block(text + block_start, block_end - block_start)) return false;
      } else {
        if (!handle_test_block(NULL, 0)) return false;
      }
      pos += SL_LEN(TEST_END);
    } else {
      return false;
    }
  }

  return true;
}

bool handle_instruction_block(const char block[], size_t block_len) {
  if (block != NULL) {
    /* строка block не завершается нулевым char-ом ('\0'), поэтому явно указываем длину */
    printf("instruction '%.*s'\n", (int)block_len, block);
  } else {
    printf("empty instruction\n");
  }
  return true;
}

bool handle_test_block(const char block[], size_t block_len) {
  if (block != NULL) {
    printf("test '%.*s'\n", (int)block_len, block);
  } else {
    printf("empty test\n");
  }
  return true;
}

int main() {
  parse_blocks(" SOI Happy EOI  SOT New EOT  SOT Year EOT  SOT EOT  SOI Folks EOI ");
  return 0;
}

Вывод на консоль:

Код: sql

1.
2.
3.
4.
5.

instruction 'Happy'
test 'New'
test 'Year'
empty test
instruction 'Folks'

...

Рейтинг:

0 / 0

12.01.2017, 05:02:48

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39383090

Изопропил

Участник

Сообщения: 33 046

Рейтинг: 0 / 0

Пётр СедовТак вы, Dim, любите буферы фиксированой длины?
в контроллерах всегда овердохера динамической памяти?

...

Рейтинг:

0 / 0

12.01.2017, 13:12:37

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39383408

jenya7

Гость

Пётр Седов,
у Dima T код раза в 3 меньше.

...

Рейтинг:

0 / 0

12.01.2017, 17:31:13

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39383558

MasterZiv

Участник

Откуда: Питер

Сообщения: 32 427

Рейтинг: 0 / 0

jenya7OoCcили использовать готовый регэкс автомат типа такого
у меня голый С.

lib pcre

...

Рейтинг:

0 / 0

12.01.2017, 19:46:54

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39383687

Пётр Седов

Участник

Откуда: Санкт-Петербург

Сообщения: 665

Рейтинг: 0 / 0

ИзопропилПётр СедовТак вы, Dim, любите буферы фиксированой длины?
в контроллерах всегда овердохера динамической памяти?В этой задаче не нужно динамическое распределение памяти, в моём коде его и нет. Кстати, автор вопроса не писал, что задача для controller-а.

jenya7Пётр Седов,
у Dima T код раза в 3 меньше.Это Perl-овская краткость, когда кода мало, но надо мозг сломать, чтобы понять, что тут происходит. Кстати, Perl уже почти никому не нужен , и это неслучайно. По коду Dima T:

* Плохо-читабельный write-only код. Сбивающие с толку приёмы, например указатель p смещается как в заголовке цикла, так и в его теле:
Dima T

Код: plaintext

1.
2.
3.
4.
5.
6.

	const char* p = ...;
	for(;*p != 0; p++) {
		...
			p += 2;
		...
	}

* Использование буфера фиксированной длины. Приемлемо разве что в учебных заданиях, во «взрослом» коде -- почти никогда. Кроме случаев, когда есть гарантированное ограничение на длину строки (например, WinAPI-шная константа MAX_PATH, которая используется в структуре WIN32_FIND_DATA). Но вы такое гарантированное ограничение не упоминаете.

* Код, который обрабатывает блоки, не знает тип блока:
Dima T

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.

int main (void) {
	//const char* p = "SOI Happy EOISOT New EOT SOT Year EOT SOI Folks EOI ";
	const char* p = "SOI Happy SOT New EOT SOT Year EOI SOI Folks EOI ";
	char buf[4];
	while(p = parse(p, buf, 4)) {
		printf("*%s*\n", buf);
	}
	return 0;
}

Надо ещё выводить на консоль тип блока -- instruction или test.

* Не удаляются пробелы до и после блоков (" New ", " Folks " -- с пробелами). Хотя, если вам это и не надо, то мой код можно упростить:

Код: plaintext

#include <stdbool.h>
#include <string.h>
#include <stdio.h>

/* только для строковых литералов */
#define SL_LEN(string_lit) (sizeof(string_lit) - 1)

#define INSTRUCTION_START "SOI"
#define INSTRUCTION_END "EOI"
#define TEST_START "SOT"
#define TEST_END "EOT"

bool handle_instruction_block(const char block[], size_t block_len);
bool handle_test_block(const char block[], size_t block_len);

bool parse_blocks(const char text[]) {
  size_t pos, block_start;
  const char* end_marker;

  pos = 0;
  for (;;) {
    while (text[pos] == ' ') pos++; /* пропускаем пробелы */

    if (text[pos] == '\0')
      break;

    if (strncmp(text + pos, INSTRUCTION_START, SL_LEN(INSTRUCTION_START)) == 0) {
      pos += SL_LEN(INSTRUCTION_START);
      block_start = pos;
      end_marker = strstr(text + pos, INSTRUCTION_END);
      if (end_marker == NULL) return false;
      pos = end_marker - text;
      if (!handle_instruction_block(text + block_start, pos - block_start)) return false;
      pos += SL_LEN(INSTRUCTION_END);
    } else if (strncmp(text + pos, TEST_START, SL_LEN(TEST_START)) == 0) {
      pos += SL_LEN(TEST_START);
      block_start = pos;
      end_marker = strstr(text + pos, TEST_END);
      if (end_marker == NULL) return false;
      pos = end_marker - text;
      if (!handle_test_block(text + block_start, pos - block_start)) return false;
      pos += SL_LEN(TEST_END);
    } else {
      return false;
    }
  }

  return true;
}

bool handle_instruction_block(const char block[], size_t block_len) {
  /* строка block не завершается нулевым char-ом ('\0'), поэтому явно указываем длину */
  printf("instruction '%.*s'\n", (int)block_len, block);
  return true;
}

bool handle_test_block(const char block[], size_t block_len) {
  printf("test '%.*s'\n", (int)block_len, block);
  return true;
}

int main() {
  parse_blocks(" SOI Happy EOI  SOT New EOT  SOT Year EOT  SOT EOT  SOI Folks EOI ");
  return 0;
}

Вывод на консоль:

Код: sql

1.
2.
3.
4.
5.

instruction ' Happy '
test ' New '
test ' Year '
test ' '
instruction ' Folks '

...

Рейтинг:

0 / 0

13.01.2017, 03:11:57

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39384552

Изопропил

Участник

Сообщения: 33 046

Рейтинг: 0 / 0

Пётр СедовКстати, автор вопроса не писал, что задача для controller-а.
это не тайна, есть предыдущие вопросы и ответы

...

Рейтинг:

0 / 0

13.01.2017, 21:08:18

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39385002

jenya7

Гость

Пётр Седов* Использование буфера фиксированной длины. Приемлемо разве что в учебных заданиях, во «взрослом» коде -- почти никогда. Кроме случаев, когда есть гарантированное ограничение на длину строки (например, WinAPI-шная константа MAX_PATH, которая используется в структуре WIN32_FIND_DATA). Но вы такое гарантированное ограничение не упоминаете.

тут в чем проблема. я пишу под эмбедед. если не использоать буфер фиксированной длины то нужна динамическая алокация памяти. а в эмбедед это плохо.

...

Рейтинг:

0 / 0

15.01.2017, 15:18:02

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39385163

Пётр Седов

Участник

Откуда: Санкт-Петербург

Сообщения: 665

Рейтинг: 0 / 0

jenya7, если вам надо блоки иметь как ноль-завершаемые строки, и можно менять содержимое исходной строки, то можно поступить так, как делает функция strtok: писать завершающие нулевые char-ы ('\0') прямо в исходную строку:

Код: plaintext

#include <stdbool.h>
#include <string.h>
#include <stdio.h>

/* только для строковых литералов */
#define SL_LEN(string_lit) (sizeof(string_lit) - 1)

#define INSTRUCTION_START "SOI"
#define INSTRUCTION_END "EOI"
#define TEST_START "SOT"
#define TEST_END "EOT"

bool handle_instruction_block(char block[]);
bool handle_test_block(char block[]);

/* меняет содержимое строки text */
bool parse_blocks(char text[]) {
  size_t pos, block_start;
  char* end_marker;

  pos = 0;
  for (;;) {
    /* пропускаем пробелы */
    while ((text[pos] == ' ') || (text[pos] == '\t') || (text[pos] == '\r') || (text[pos] == '\n'))
      pos++;

    if (text[pos] == '\0')
      break;

    if (strncmp(text + pos, INSTRUCTION_START, SL_LEN(INSTRUCTION_START)) == 0) {
      pos += SL_LEN(INSTRUCTION_START);
      block_start = pos;
      end_marker = strstr(text + pos, INSTRUCTION_END);
      if (end_marker == NULL) return false;
      pos = end_marker - text;
      text[pos] = '\0'; /* обрубаем строку в том месте, где находится INSTRUCTION_END */
      if (!handle_instruction_block(text + block_start)) return false;
      pos += SL_LEN(INSTRUCTION_END);
    } else if (strncmp(text + pos, TEST_START, SL_LEN(TEST_START)) == 0) {
      pos += SL_LEN(TEST_START);
      block_start = pos;
      end_marker = strstr(text + pos, TEST_END);
      if (end_marker == NULL) return false;
      pos = end_marker - text;
      text[pos] = '\0'; /* обрубаем строку в том месте, где находится TEST_END */
      if (!handle_test_block(text + block_start)) return false;
      pos += SL_LEN(TEST_END);
    } else {
      return false;
    }
  }

  return true;
}

/* может менять содержимое строки block */
bool handle_instruction_block(char block[]) {
  printf("instruction '%s'\n", block);
  return true;
}

/* может менять содержимое строки block */
bool handle_test_block(char block[]) {
  printf("test '%s'\n", block);
  return true;
}

int main() {
  char text[] = " SOI Happy EOI  SOT New EOT  SOT Year EOT  SOT EOT  SOI Folks EOI ";
  parse_blocks(text);
  return 0;
}

Вывод на консоль:

Код: sql

1.
2.
3.
4.
5.

instruction ' Happy '
test ' New '
test ' Year '
test ' '
instruction ' Folks '

...

Рейтинг:

0 / 0

16.01.2017, 05:20:52

| Ответить | Цитировать | Написать

Найти текстовые блоки разного типа в С.

#39385192

jenya7

Гость

Пётр Седов,
понял. спасибо.

...

Рейтинг:

0 / 0

16.01.2017, 09:37:46

| Ответить | Цитировать | Написать

40 сообщений из 40, показаны все 2 страниц

все

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Найти текстовые блоки разного типа в С.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?all=1&fid=16&tid=1340515]:	0ms
get settings:	9ms
get forum list:	12ms
check forum access:	3ms
check topic access:	3ms
track hit:	35ms
get topic data:	6ms
get forum data:	2ms
get page messages:	44ms
get tp. blocked users:	1ms
others:	206ms

total:	321ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы