powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Найти текстовые блоки разного типа в С.
40 сообщений из 40, показаны все 2 страниц
Найти текстовые блоки разного типа в С.
    #39382032
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Мне нужно выделить из текста блоки разного типа. У каждого типа есть начальный маркер и конечный маркер. Сейчас есть два типа текстовых блоков - инструкция и тест. Соответственно маркеры выглядят так:
авторSOI – start of instruction
EOI – end of instruction
SOT – start of test
EOT – end of test

И текст выглядит так:
авторSOI
Line1
Line2
Line3
EOI
SOT
Line4
Line5
Line6
EOT

Мой топорный вариант выглядит так.
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
uint32_t Parse(char *text, char *buf, uint32_t *text_type, uint32_t *idx)
{
    uint32_t loc_idx = *idx;
    uint32_t txt_len = strlen(text);
    uint32_t start_pos = 0;
    uint32_t end_pos = 0;
    uint32_t start_found = 0;
    char *pchr;
    
    if (loc_idx >= txt_len) return PARSE_FAIL;
    
    //find SOI - start of instraction
    pchr = strstr(&text[loc_idx], START_OF_INSTRACTION);
    //if(pchr == NULL) return PARSE_FAIL;
    if (pchr != NULL)
    {
        start_pos = pchr - text + strlen(START_OF_INSTRACTION);
        start_found = 1;
    }
        
    //find EOI - end of instraction
    pchr = strstr(text, END_OF_INSTRACTION);
    //if(pchr == NULL) return PARSE_FAIL;  
    if (start_found && pchr != NULL)
    {
        end_pos = pchr - text;
        //copy the found block
        memcpy(buf, &text[start_pos], (end_pos - start_pos));
        buf[(end_pos - start_pos)] = '\0';
        *text_type = TXT_TYPE_INSTRACTION;
        *idx = end_pos + strlen(END_OF_INSTRACTION);
        return PARSE_SUCCESS;
    }
    
    //find SOT - start of test
    pchr = strstr(&text[loc_idx], START_OF_TEST);
    if (pchr != NULL)
    {
        start_pos = pchr - text + strlen(START_OF_TEST);
        start_found = 1;
    }
    
    //find EOT - end of test
    pchr = strstr(text, END_OF_TEST);
    if (start_found && pchr != NULL)
    {
        end_pos = pchr - text;
        //copy the found block
        memcpy(buf, &text[start_pos], (end_pos - start_pos)); 
        buf[(end_pos - start_pos)] = '\0';
        *text_type = TXT_TYPE_TEST;
        *idx = end_pos + strlen(END_OF_TEST);
        return PARSE_SUCCESS;
    }
       
    return PARSE_FAIL; 


И он работает если в тексте есть два блока.
Но если текст выглядит скажем так
авторSOI
line1
line2
line3
EOI
SOT
line4
line5
line6
EOT
SOT
line7
line8
line9
EOT
SOI
line10
line11
line12
EOI


То весь мой парсер ломается. Как можно улучшить алгоритм?
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382054
Фотография Akina
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сформулируйте все условия, а не основные.

1) Что значит "выделить"? что хотите получить в итоге и в каком виде?
2) Есть ли гарантия, что любой текст, не являющийся маркером, находится в блоке? или бывает текст вне блоков (в т.ч. "пустые" строки)?
3) Есть ли гарантия согласованности разметки? или возможны пересечения блоков, незакрытые блоки и пр?
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382066
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jenya7То весь мой парсер ломается. Как можно улучшить алгоритм?
1)расписать синтаксис в форме Бэкуса — Наура (BNF)
2)запрограммировать автомат (если неограниченной вложенности нет - то конечный)

нужно последовательно обрабатывать каждый символ(максимум заглядывая на один вперёд, но в этой задаче не придётся) и изменять состояние , а не пытаться сканировать строку вперёд
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382088
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
AkinaСформулируйте все условия, а не основные.

1) Что значит "выделить"? что хотите получить в итоге и в каком виде?
2) Есть ли гарантия, что любой текст, не являющийся маркером, находится в блоке? или бывает текст вне блоков (в т.ч. "пустые" строки)?
3) Есть ли гарантия согласованности разметки? или возможны пересечения блоков, незакрытые блоки и пр?

Нужно скопировать текст в буфер между маркерами SOI-EOI , SOT-EOT.
скажем в HTML документе тоже есть блоки – header, paragraph, div.
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382090
Фотография OoCc
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
или использовать готовый регэкс автомат типа такого
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382103
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
OoCcили использовать готовый регэкс автомат типа такого
у меня голый С.
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382108
Фотография Akina
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jenya7 , пожалуйста, отвечайте на те вопросы, которые Вам задают, а не на вопросы, которые Вы себе сами придумали.

jenya7Нужно скопировать текст в буфер между маркерами SOI-EOI , SOT-EOT.
И что же должно быть помещено в буфер для показанного Вами текста?

jenya7скажем в HTML документе тоже есть блоки – header, paragraph, div
Да ладно... а мужики-то не знают...
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382110
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jenya7OoCcили использовать готовый регэкс автомат типа такого
у меня голый С.
не в С или С++ проблема, а влезет ли в твой контроллер библиотека регулярок
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382116
kealon(Ruslan)
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jenya7OoCcили использовать готовый регэкс автомат типа такого
у меня голый С.
в этом нет проблем, большинство парсер-генераторов поддерживают С да и нагенерированный автомат выполняется элементарно
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382137
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
kealon(Ruslan),

для этой задачи с конечным автоматом из трёх состояний и генерить ничего не надо
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382150
kealon(Ruslan)
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Изопропил,

не скажи, как раз таки эту задачу можно решить за один побайтный проход если иметь свой лексер-генератор и знать как он работает
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382155
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ничего не понимаю. что происходит.
есть строка "SOI Happy EOI SOT New EOT SOT Year EOT SOI Folks EOI ".
блоки приходят в любом порядке. могут быть только SOI-EOI, SOI-EOI…. Или SOT-EOT, SOT-EOT….. или вперемежку SOI-EOI, SOT-EOT, SOI-EOI, SOT-EOT .
в результате нужно получить buf1 = Happy, buf2 = New, buf3 = Year, buf4 = Folks.
можно даже не одновременно а по очереди.
какие регексы, какие библиотеки. задача на несколько строк кода.
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382165
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
kealon(Ruslan)Изопропил,

не скажи, как раз таки эту задачу можно решить за один побайтный проход если иметь свой лексер-генератор и знать как он работает
можно решить естественно за один проход и без генератора )
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382166
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jenya7задача на несколько строк кода.
правильно. нехрен искать какие то символы впереди

один цикл по исходной строке
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382170
kealon(Ruslan)
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jenya7ничего не понимаю. что происходит.
есть строка "SOI Happy EOI SOT New EOT SOT Year EOT SOI Folks EOI ".
блоки приходят в любом порядке. могут быть только SOI-EOI, SOI-EOI…. Или SOT-EOT, SOT-EOT….. или вперемежку SOI-EOI, SOT-EOT, SOI-EOI, SOT-EOT .
в результате нужно получить buf1 = Happy, buf2 = New, buf3 = Year, buf4 = Folks.
можно даже не одновременно а по очереди.
какие регексы, какие библиотеки. задача на несколько строк кода.
ну если тебе нужно один раз найти, то никаких проблем
Код: plaintext
1.
2.
3.
4.
    //find SOI - start of instraction
    pchr1 = strstr(&text[loc_idx], START_OF_INSTRACTION);
   //find SOT - start of test
    pchr2 = strstr(&text[loc_idx], START_OF_TEST);


смотришь какой раньше и ищешь его завершение, очень топорно, но работать будет

а вот если требуется какое-то решение, которое обслуживает протокол приближенный к реальному времени, то извольте учить конечные автоматы
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382175
kealon(Ruslan)
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Изопропилможно решить естественно за один проход и без генератора )
можно, но что-то не хочется
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382176
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Изопропил,

ну в этом то и загвоздка. мы нашли начало, нашли конец, но стартовый маркер может встретиться где то еще в тексте. впрочем можно выставить флаг что стартовый маркер уже найден.
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382181
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
kealon(Ruslan)jenya7ничего не понимаю. что происходит.
есть строка "SOI Happy EOI SOT New EOT SOT Year EOT SOI Folks EOI ".
блоки приходят в любом порядке. могут быть только SOI-EOI, SOI-EOI…. Или SOT-EOT, SOT-EOT….. или вперемежку SOI-EOI, SOT-EOT, SOI-EOI, SOT-EOT .
в результате нужно получить buf1 = Happy, buf2 = New, buf3 = Year, buf4 = Folks.
можно даже не одновременно а по очереди.
какие регексы, какие библиотеки. задача на несколько строк кода.
ну если тебе нужно один раз найти, то никаких проблем
Код: plaintext
1.
2.
3.
4.
    //find SOI - start of instraction
    pchr1 = strstr(&text[loc_idx], START_OF_INSTRACTION);
   //find SOT - start of test
    pchr2 = strstr(&text[loc_idx], START_OF_TEST);


смотришь какой раньше и ищешь его завершение, очень топорно, но работать будет

а вот если требуется какое-то решение, которое обслуживает протокол приближенный к реальному времени, то извольте учить конечные автоматы

я думал об этом. как то не очень элегантно.
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382185
kealon(Ruslan)
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jenya7я думал об этом. как то не очень элегантно.лесенка из побайтных switch как видимо прелагает Изопропил

ну а если и это не гоже
kealon(Ruslan).., то извольте учить конечные автоматы
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382246
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jenya7ну в этом то и загвоздка. мы нашли начало, нашли конец
не надо ничего искать - вот в чём дело- достаточно принимать решение на основании текущего символа
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382249
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
недостаточное знакомство разработчиков с конечными автоматами приводит к появлению микроконтроллерных устройств с диким поведением
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382259
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
так работает.
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
69.
70.
71.
72.
73.
74.
75.
76.
77.
78.
79.
80.
81.
82.
83.
84.
85.
86.
87.
88.
89.
90.
91.
92.
93.
94.
95.
96.
97.
uint32_t Parse(char *text, char *buf, uint32_t *text_type, uint32_t *idx)
{
    uint32_t loc_idx = *idx;
    uint32_t txt_len = strlen(text);
    uint32_t start_pos = 0;
    uint32_t end_pos = 0;
    uint32_t start_found = 0;
    char *pchr_i, *pchr_t;
    
    if (loc_idx >= txt_len) return PARSE_FAIL;
    
    
    //find SOI - start of instraction
    pchr_i = strstr(&text[loc_idx], START_OF_INSTRACTION);
    //find SOT - start of test
    pchr_t = strstr(&text[loc_idx], START_OF_TEST);
    
    if ((pchr_i != NULL) && (pchr_t != NULL))
    {
        start_found = 1;
        
        //marker SOI found first
        if (pchr_i < pchr_t)
        {
            start_pos = pchr_i - text + strlen(START_OF_INSTRACTION);
            //find EOI - end of instraction
            pchr_i = strstr(&text[loc_idx], END_OF_INSTRACTION);
            if (start_found && pchr_i != NULL)
            {
                end_pos = pchr_i - text;
                //copy the found block
                memcpy(buf, &text[start_pos], (end_pos - start_pos));
                buf[(end_pos - start_pos)] = '\0';
                *text_type = TXT_TYPE_INSTRACTION;
                *idx = end_pos + strlen(END_OF_INSTRACTION);
                return PARSE_SUCCESS;
            }
        }
        else  //marker SOT found first
        {
            start_pos = pchr_t - text + strlen(START_OF_TEST);
            //find EOT - end of test
            pchr_t = strstr(&text[loc_idx], END_OF_TEST);
            if (start_found && pchr_t != NULL)
            {
                end_pos = pchr_t - text;
                //copy the found block
                memcpy(buf, &text[start_pos], (end_pos - start_pos)); 
                buf[(end_pos - start_pos)] = '\0';
                *text_type = TXT_TYPE_TEST;
                *idx = end_pos + strlen(END_OF_TEST);
                return PARSE_SUCCESS;
            }
        }
    }
    else
    {
        if (pchr_i != NULL)
        {
            start_found = 1;
          
            start_pos = pchr_i - text + strlen(START_OF_INSTRACTION);
            pchr_i = strstr(&text[loc_idx], END_OF_INSTRACTION);
            if (start_found && pchr_i != NULL)
            {
                end_pos = pchr_i - text;
                //copy the found block
                memcpy(buf, &text[start_pos], (end_pos - start_pos));
                buf[(end_pos - start_pos)] = '\0';
                *text_type = TXT_TYPE_INSTRACTION;
                *idx = end_pos + strlen(END_OF_INSTRACTION);
                return PARSE_SUCCESS;
            }
            
        }
        if (pchr_t != NULL)
        {
            start_found = 1;
            
            start_pos = pchr_t - text + strlen(START_OF_TEST);
            pchr_t = strstr(&text[loc_idx], END_OF_TEST);
            if (start_found && pchr_t != NULL)
            {
                end_pos = pchr_t - text;
                //copy the found block
                memcpy(buf, &text[start_pos], (end_pos - start_pos)); 
                buf[(end_pos - start_pos)] = '\0';
                *text_type = TXT_TYPE_TEST;
                *idx = end_pos + strlen(END_OF_TEST);
                return PARSE_SUCCESS;
            }
        }
        
    }
    
    return PARSE_FAIL; 
}


можно заинлайнить повторяющийся код. сейчас попробую сделать на state machine.
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382279
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
так на state machine.
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
69.
70.
71.
72.
73.
74.
75.
76.
77.
78.
79.
80.
81.
82.
83.
84.
85.
86.
uint32_t TASKER_Parse(char *text, char *buf, uint32_t *text_type, uint32_t *idx)
{
    uint32_t loc_idx = *idx;
    uint32_t txt_len = strlen(text);
    uint32_t start_pos = 0;
    uint32_t end_pos = 0;
    uint32_t start_found = 0;
    //char buf[128];
    char *pchr_i, *pchr_t;
    
    uint32_t state = IDLE;
    
    if (loc_idx >= txt_len) return PARSE_FAIL;
    
    while (state != ST_END)
    {
        switch (state)
        {
            case IDLE:
                //find SOI - start of instraction
                pchr_i = strstr(&text[loc_idx], START_OF_INSTRACTION);
                //find SOT - start of test
                pchr_t = strstr(&text[loc_idx], START_OF_TEST);
            
                if ((pchr_i != NULL) && (pchr_t != NULL))
                {
                    start_found = 1;
                    state = ST_BOUTH_FOUND;
                }
                else
                {
                    if (pchr_i != NULL)
                    {
                        start_found = 1;
                        state = ST_SOI_FOUND;
                    }
                    else if (pchr_t != NULL)
                    {
                        start_found = 1;
                        state = ST_SOT_FOUND;
                    }
                    else
                      state = ST_END;
                }
            break;
            case ST_BOUTH_FOUND:
                //marker SOI found first
                if (pchr_i < pchr_t)
                    state = ST_SOI_FOUND;
                else  //marker SOT found first
                    state = ST_SOT_FOUND;
            break;   
            case ST_SOI_FOUND:
                start_pos = pchr_i - text + strlen(START_OF_INSTRACTION);
                //find EOI - end of instraction
                pchr_i = strstr(&text[loc_idx], END_OF_INSTRACTION);
                if (start_found && pchr_i != NULL)
                {
                    end_pos = pchr_i - text;
                    //copy the found block
                    memcpy(buf, &text[start_pos], (end_pos - start_pos));
                    buf[(end_pos - start_pos)] = '\0';
                    *text_type = TXT_TYPE_INSTRACTION;
                    *idx = end_pos + strlen(END_OF_INSTRACTION);
                    return PARSE_SUCCESS;
                }
            break;
            case ST_SOT_FOUND:
                start_pos = pchr_t - text + strlen(START_OF_TEST);
                //find EOT - end of test
                pchr_t = strstr(&text[loc_idx], END_OF_TEST);
                if (start_found && pchr_t != NULL)
                {
                    end_pos = pchr_t - text;
                    //copy the found block
                    memcpy(buf, &text[start_pos], (end_pos - start_pos)); 
                    buf[(end_pos - start_pos)] = '\0';
                    *text_type = TXT_TYPE_TEST;
                    *idx = end_pos + strlen(END_OF_TEST);
                    return PARSE_SUCCESS;
                }
            break;      
        }
    }
    return PARSE_FAIL; 
}


наверно так все таки есть выигрыш и по speed и по size.
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382290
kealon(Ruslan)
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jenya7так на state machine.
наверно так все таки есть выигрыш и по speed и по size.
не особо

ты только логику верхнего уровня загнал в автомат (и то вопрос)

самое плохое место на нижнем уровне
Код: plaintext
1.
2.
3.
4.
  //find SOI - start of instraction
                pchr_i = strstr(&text[loc_idx], START_OF_INSTRACTION);
                //find SOT - start of test
                pchr_t = strstr(&text[loc_idx], START_OF_TEST);
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382296
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не понятно что должно происходить при нарушении порядка начал и концов, например
Код: sql
1.
"SOI Happy SOT New EOT SOT Year EOI SOI Folks EOI ";


Сделал игнорирование таких некорректно оформленных блоков.
Еще у тебя никак не задается размер буфера, что чревато выходом за его пределы.
Исходник
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
// Возвращает указатель на конец найденного блока
const char* parse(const char* text, char* buf, size_t buf_size) {
	char type = 0;
	char* b = buf;
	size_t s = buf_size;
	const char* p = text;
	for(;*p != 0; p++) {
		if(p[0] == 'S' && p[1] == 'O' && (p[2] == 'I' || p[2] == 'T')) { // Проверка начала блока
			if (type != 0) { // Начало следующего блока без окончания текущего, начинаем сначала
				b = buf;
				s = buf_size;
			}
			type = p[2];
			p += 2;
		} else if(type) { // Пишем в буфер
			if (p[0] == 'E' && p[1] == 'O' && (p[2] == 'I' || p[2] == 'T')) { // Проверка конца блока
				if(type != p[2]) { // конец блока не того типа
					b = buf;
					s = buf_size;
					type = 0;
				} else {
					*b = 0;
					return p + 3;
				}
			} else if(s > 1) { // есть место в буфере
				*b = *p;
				s--;
				b++;
			}
		}
	}
	*b = 0;
	return NULL;
}

int main (void) {
	//const char* p = "SOI Happy EOISOT New EOT SOT Year EOT SOI Folks EOI ";
	const char* p = "SOI Happy SOT New EOT SOT Year EOI SOI Folks EOI ";
	char buf[4];
	while(p = parse(p, buf, 4)) {
		printf("*%s*\n", buf);
	}
	return 0;
}

...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382303
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
kealon(Ruslan),

да. это самое плохое место. не знаю пока как победить. есть коечно одно решение которое придумали до меня - обрамлять тэги кавычками <SOI>, <EOI>, <SOT>, <EOT> или <I>, <I/>, <T>, <T/>.
но это решение не такое генерик как хотелось бы.
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382340
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Dima T,

спасибо. попробую доработать. почему то парсит один блок и выходит.
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382348
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jenya7Dima T,

спасибо. попробую доработать. почему то парсит один блок и выходит.
Ты мой код запускал? Там должно быть так
Код: plaintext
1.
* Ne*
* Fo*
т.к. буфер 4 байта и строка с ошибками (красным выделил)
Код: plaintext
"SOI Happy SOT New EOT SOT Year EOI SOI Folks EOI"

Если на какой-то другой строке неправильно работает - давай строку, поправлю.
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382354
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Dima T,
моя ошибка. все класно работает. Dima T как всегда крут. :)
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382400
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Пользуйся.

Еще думаю неправильно возвращать часть строки если она целиком в буфер не поместилась, наверно лучше пустую возвращать
Код: plaintext
1.
2.
3.
4.
5.
			} else if(s > 1) { // есть место в буфере
...
			} else { // буфер маловат
				*buf = 0;
			}


Сам подумай как правильнее ошибки обрабатывать, что где проверяется я подписал.
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382418
kealon(Ruslan)
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dima TЕще думаю неправильно возвращать часть строки если она целиком в буфер не поместилась, наверно лучше пустую возвращать

лучше не копировать, а возвращать начало текста и длину, проще будет
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39382836
Пётр Седов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jenya7у меня голый С.Ну вот, а здесь приличный форум.

jenya7ничего не понимаю. что происходит.Это нормально, вы же задали вопрос на sql.ru.

jenya7задача на несколько строк кода.Только если писать на ультракоротком языке. На C побольше выйдет.

Кстати, форум «C++» -- он и для вопросов по C тоже.

Dima T
Код: plaintext
1.
	char buf[4];

Так вы, Dim, любите буферы фиксированой длины?

kealon(Ruslan)лучше не копировать, а возвращать начало текста и длину, проще будетА я бы вообще ничего не возвращал, а просто вызывал бы функции обработки блоков:
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
69.
70.
71.
72.
73.
74.
75.
76.
77.
78.
79.
80.
81.
82.
83.
84.
85.
86.
87.
#include <stdbool.h>
#include <string.h>
#include <stdio.h>

/* только для строковых литералов */
#define SL_LEN(string_lit) (sizeof(string_lit) - 1)

#define INSTRUCTION_START "SOI"
#define INSTRUCTION_END "EOI"
#define TEST_START "SOT"
#define TEST_END "EOT"

bool handle_instruction_block(const char block[], size_t block_len);
bool handle_test_block(const char block[], size_t block_len);

bool parse_blocks(const char text[]) {
  size_t pos, block_start, block_end;
  const char* end_marker;

  pos = 0;
  for (;;) {
    while (text[pos] == ' ') pos++; /* пропускаем пробелы */

    if (text[pos] == '\0')
      break;

    if (strncmp(text + pos, INSTRUCTION_START, SL_LEN(INSTRUCTION_START)) == 0) {
      pos += SL_LEN(INSTRUCTION_START);
      while (text[pos] == ' ') pos++;
      block_start = pos;
      end_marker = strstr(text + pos, INSTRUCTION_END);
      if (end_marker == NULL) return false;
      pos = end_marker - text;
      if (block_start < pos) {
        block_end = pos;
        while (text[block_end - 1] == ' ') block_end--;
        if (!handle_instruction_block(text + block_start, block_end - block_start)) return false;
      } else {
        if (!handle_instruction_block(NULL, 0)) return false;
      }
      pos += SL_LEN(INSTRUCTION_END);
    } else if (strncmp(text + pos, TEST_START, SL_LEN(TEST_START)) == 0) {
      pos += SL_LEN(TEST_START);
      while (text[pos] == ' ') pos++;
      block_start = pos;
      end_marker = strstr(text + pos, TEST_END);
      if (end_marker == NULL) return false;
      pos = end_marker - text;
      if (block_start < pos) {
        block_end = pos;
        while (text[block_end - 1] == ' ') block_end--;
        if (!handle_test_block(text + block_start, block_end - block_start)) return false;
      } else {
        if (!handle_test_block(NULL, 0)) return false;
      }
      pos += SL_LEN(TEST_END);
    } else {
      return false;
    }
  }

  return true;
}

bool handle_instruction_block(const char block[], size_t block_len) {
  if (block != NULL) {
    /* строка block не завершается нулевым char-ом ('\0'), поэтому явно указываем длину */
    printf("instruction '%.*s'\n", (int)block_len, block);
  } else {
    printf("empty instruction\n");
  }
  return true;
}

bool handle_test_block(const char block[], size_t block_len) {
  if (block != NULL) {
    printf("test '%.*s'\n", (int)block_len, block);
  } else {
    printf("empty test\n");
  }
  return true;
}

int main() {
  parse_blocks(" SOI Happy EOI  SOT New EOT  SOT Year EOT  SOT EOT  SOI Folks EOI ");
  return 0;
}

Вывод на консоль:
Код: sql
1.
2.
3.
4.
5.
instruction 'Happy'
test 'New'
test 'Year'
empty test
instruction 'Folks'
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39383090
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Пётр СедовТак вы, Dim, любите буферы фиксированой длины?
в контроллерах всегда овердохера динамической памяти?
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39383408
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Пётр Седов,
у Dima T код раза в 3 меньше.
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39383558
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jenya7OoCcили использовать готовый регэкс автомат типа такого
у меня голый С.

lib pcre
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39383687
Пётр Седов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ИзопропилПётр СедовТак вы, Dim, любите буферы фиксированой длины?
в контроллерах всегда овердохера динамической памяти?В этой задаче не нужно динамическое распределение памяти, в моём коде его и нет. Кстати, автор вопроса не писал, что задача для controller-а.

jenya7Пётр Седов,
у Dima T код раза в 3 меньше.Это Perl-овская краткость, когда кода мало, но надо мозг сломать, чтобы понять, что тут происходит. Кстати, Perl уже почти никому не нужен , и это неслучайно. По коду Dima T:

* Плохо-читабельный write-only код. Сбивающие с толку приёмы, например указатель p смещается как в заголовке цикла, так и в его теле:
Dima T
Код: plaintext
1.
2.
3.
4.
5.
6.
	const char* p = ...;
	for(;*p != 0; p++) {
		...
			p += 2;
		...
	}


* Использование буфера фиксированной длины. Приемлемо разве что в учебных заданиях, во «взрослом» коде -- почти никогда. Кроме случаев, когда есть гарантированное ограничение на длину строки (например, WinAPI-шная константа MAX_PATH, которая используется в структуре WIN32_FIND_DATA). Но вы такое гарантированное ограничение не упоминаете.

* Код, который обрабатывает блоки, не знает тип блока:
Dima T
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
int main (void) {
	//const char* p = "SOI Happy EOISOT New EOT SOT Year EOT SOI Folks EOI ";
	const char* p = "SOI Happy SOT New EOT SOT Year EOI SOI Folks EOI ";
	char buf[4];
	while(p = parse(p, buf, 4)) {
		printf("*%s*\n", buf);
	}
	return 0;
}

Надо ещё выводить на консоль тип блока -- instruction или test.

* Не удаляются пробелы до и после блоков (" New ", " Folks " -- с пробелами). Хотя, если вам это и не надо, то мой код можно упростить:
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
#include <stdbool.h>
#include <string.h>
#include <stdio.h>

/* только для строковых литералов */
#define SL_LEN(string_lit) (sizeof(string_lit) - 1)

#define INSTRUCTION_START "SOI"
#define INSTRUCTION_END "EOI"
#define TEST_START "SOT"
#define TEST_END "EOT"

bool handle_instruction_block(const char block[], size_t block_len);
bool handle_test_block(const char block[], size_t block_len);

bool parse_blocks(const char text[]) {
  size_t pos, block_start;
  const char* end_marker;

  pos = 0;
  for (;;) {
    while (text[pos] == ' ') pos++; /* пропускаем пробелы */

    if (text[pos] == '\0')
      break;

    if (strncmp(text + pos, INSTRUCTION_START, SL_LEN(INSTRUCTION_START)) == 0) {
      pos += SL_LEN(INSTRUCTION_START);
      block_start = pos;
      end_marker = strstr(text + pos, INSTRUCTION_END);
      if (end_marker == NULL) return false;
      pos = end_marker - text;
      if (!handle_instruction_block(text + block_start, pos - block_start)) return false;
      pos += SL_LEN(INSTRUCTION_END);
    } else if (strncmp(text + pos, TEST_START, SL_LEN(TEST_START)) == 0) {
      pos += SL_LEN(TEST_START);
      block_start = pos;
      end_marker = strstr(text + pos, TEST_END);
      if (end_marker == NULL) return false;
      pos = end_marker - text;
      if (!handle_test_block(text + block_start, pos - block_start)) return false;
      pos += SL_LEN(TEST_END);
    } else {
      return false;
    }
  }

  return true;
}

bool handle_instruction_block(const char block[], size_t block_len) {
  /* строка block не завершается нулевым char-ом ('\0'), поэтому явно указываем длину */
  printf("instruction '%.*s'\n", (int)block_len, block);
  return true;
}

bool handle_test_block(const char block[], size_t block_len) {
  printf("test '%.*s'\n", (int)block_len, block);
  return true;
}

int main() {
  parse_blocks(" SOI Happy EOI  SOT New EOT  SOT Year EOT  SOT EOT  SOI Folks EOI ");
  return 0;
}

Вывод на консоль:
Код: sql
1.
2.
3.
4.
5.
instruction ' Happy '
test ' New '
test ' Year '
test ' '
instruction ' Folks '
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39384552
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Пётр СедовКстати, автор вопроса не писал, что задача для controller-а.
это не тайна, есть предыдущие вопросы и ответы
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39385002
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Пётр Седов* Использование буфера фиксированной длины. Приемлемо разве что в учебных заданиях, во «взрослом» коде -- почти никогда. Кроме случаев, когда есть гарантированное ограничение на длину строки (например, WinAPI-шная константа MAX_PATH, которая используется в структуре WIN32_FIND_DATA). Но вы такое гарантированное ограничение не упоминаете.


тут в чем проблема. я пишу под эмбедед. если не использоать буфер фиксированной длины то нужна динамическая алокация памяти. а в эмбедед это плохо.
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39385163
Пётр Седов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jenya7, если вам надо блоки иметь как ноль-завершаемые строки, и можно менять содержимое исходной строки, то можно поступить так, как делает функция strtok: писать завершающие нулевые char-ы ('\0') прямо в исходную строку:
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
69.
70.
71.
72.
#include <stdbool.h>
#include <string.h>
#include <stdio.h>

/* только для строковых литералов */
#define SL_LEN(string_lit) (sizeof(string_lit) - 1)

#define INSTRUCTION_START "SOI"
#define INSTRUCTION_END "EOI"
#define TEST_START "SOT"
#define TEST_END "EOT"

bool handle_instruction_block(char block[]);
bool handle_test_block(char block[]);

/* меняет содержимое строки text */
bool parse_blocks(char text[]) {
  size_t pos, block_start;
  char* end_marker;

  pos = 0;
  for (;;) {
    /* пропускаем пробелы */
    while ((text[pos] == ' ') || (text[pos] == '\t') || (text[pos] == '\r') || (text[pos] == '\n'))
      pos++;

    if (text[pos] == '\0')
      break;

    if (strncmp(text + pos, INSTRUCTION_START, SL_LEN(INSTRUCTION_START)) == 0) {
      pos += SL_LEN(INSTRUCTION_START);
      block_start = pos;
      end_marker = strstr(text + pos, INSTRUCTION_END);
      if (end_marker == NULL) return false;
      pos = end_marker - text;
      text[pos] = '\0'; /* обрубаем строку в том месте, где находится INSTRUCTION_END */
      if (!handle_instruction_block(text + block_start)) return false;
      pos += SL_LEN(INSTRUCTION_END);
    } else if (strncmp(text + pos, TEST_START, SL_LEN(TEST_START)) == 0) {
      pos += SL_LEN(TEST_START);
      block_start = pos;
      end_marker = strstr(text + pos, TEST_END);
      if (end_marker == NULL) return false;
      pos = end_marker - text;
      text[pos] = '\0'; /* обрубаем строку в том месте, где находится TEST_END */
      if (!handle_test_block(text + block_start)) return false;
      pos += SL_LEN(TEST_END);
    } else {
      return false;
    }
  }

  return true;
}

/* может менять содержимое строки block */
bool handle_instruction_block(char block[]) {
  printf("instruction '%s'\n", block);
  return true;
}

/* может менять содержимое строки block */
bool handle_test_block(char block[]) {
  printf("test '%s'\n", block);
  return true;
}

int main() {
  char text[] = " SOI Happy EOI  SOT New EOT  SOT Year EOT  SOT EOT  SOI Folks EOI ";
  parse_blocks(text);
  return 0;
}

Вывод на консоль:
Код: sql
1.
2.
3.
4.
5.
instruction ' Happy '
test ' New '
test ' Year '
test ' '
instruction ' Folks '
...
Рейтинг: 0 / 0
Найти текстовые блоки разного типа в С.
    #39385192
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Пётр Седов,
понял. спасибо.
...
Рейтинг: 0 / 0
40 сообщений из 40, показаны все 2 страниц
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Найти текстовые блоки разного типа в С.
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]