powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / C++ [игнор отключен] [закрыт для гостей] / простая функция substr для UTF-8
8 сообщений из 8, страница 1 из 1
простая функция substr для UTF-8
    #39540016
polin11
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
простая функция substr для UTF-8

Функция cutString делает срез строки в формате UTF-8 от 0 до len.
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
#include <iostream>
#include <codecvt>
#include <string>
#include <locale>

std::string cutString(const std::string& in, size_t len)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> cvt;
    auto wstring = cvt.from_bytes(in);
    if(len < wstring.length())
    {
        wstring = wstring.substr(0,len);
        return cvt.to_bytes(wstring);
    }    
    return in;
}
int main(){
    std::string test = "\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c"; //&#20320;&#22909;&#19990;&#30028; length 4
    std::cout << test << '\n' << cutString(test,2) << '\n';
    return 0;
}



Понятно, что UTF-8 (переменное количество байт), обынчые функции size, substr работают некорректно.

1) Помогите разобраться, что делают строки

Код: plaintext
1.
2.
3.
4.
std::wstring_convert<std::codecvt_utf8<wchar_t>> cvt;
auto res = cvt.from_bytes(in);
wstring = wstring.substr(0,len);
return cvt.to_bytes(res);

правильно ли я понимаю преобразуют в тип с постоянным количеством байт,
затем делает срез строки, преобразует его обратно UTF-8???


2) Кажется условие
Код: plaintext
 if(len < wstring.length()) 
(количество символов в подстроке должно быть меньше символов в самой строке) избыточно,
без него исключение не возникаем, выдает все строку целиком???
...
Рейтинг: 0 / 0
простая функция substr для UTF-8
    #39540059
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
polin112) Кажется условие if(len < wstring.length())
(количество символов в подстроке должно быть меньше символов в самой строке) избыточно,

Оно позволяет избежать обратной конверсии. Типа, оптимизация. Хотя такой фейспалм её не
заслуживает.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
простая функция substr для UTF-8
    #39540110
вЪю
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
polin11правильно ли я понимаю преобразуют в тип с постоянным количеством байт,
затем делает срез строки, преобразует его обратно UTF-8???


Преобразование всего текста. Взятие подстроки. Приведение подстроки к первоначальной кодировке.


Dimitry Sibiryakovpolin112) Кажется условие if(len < wstring.length())
(количество символов в подстроке должно быть меньше символов в самой строке) избыточно,

Оно позволяет избежать обратной конверсии. Типа, оптимизация. Хотя такой фейспалм её не
заслуживает.

Иногда, но учитывая что входной текст конвертируется полностью....
Хорошо что в С++17 это безобразие сделали deprecated иначе C++ всё больше и больше походит на MS Basic.
...
Рейтинг: 0 / 0
простая функция substr для UTF-8
    #39540111
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
всё бы ничего, но wstring бывает и 16, и 32 разрядным на разных платформах.
...
Рейтинг: 0 / 0
простая функция substr для UTF-8
    #39540121
вЪю
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Изопропил,

2 байта это только у M$VC Кто то ещё им пользуется?
...
Рейтинг: 0 / 0
простая функция substr для UTF-8
    #39540130
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
вЪю2 байта это только у M$VC Кто то ещё им пользуется?
mingw
...
Рейтинг: 0 / 0
простая функция substr для UTF-8
    #39540465
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
вЪюХорошо что в С++17 это безобразие сделали deprecated


Которое именно?
...
Рейтинг: 0 / 0
простая функция substr для UTF-8
    #39540508
вЪю
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
MasterZivвЪюХорошо что в С++17 это безобразие сделали deprecated


Которое именно?

wstring_convert
...
Рейтинг: 0 / 0
8 сообщений из 8, страница 1 из 1
Форумы / C++ [игнор отключен] [закрыт для гостей] / простая функция substr для UTF-8
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]