Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / C++ [игнор отключен] [закрыт для гостей] / простая функция substr для UTF-8 / 8 сообщений из 8, страница 1 из 1
22.10.2017, 07:36
    #39540016
polin11
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
простая функция substr для UTF-8
простая функция substr для UTF-8

Функция cutString делает срез строки в формате UTF-8 от 0 до len.
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
#include <iostream>
#include <codecvt>
#include <string>
#include <locale>

std::string cutString(const std::string& in, size_t len)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> cvt;
    auto wstring = cvt.from_bytes(in);
    if(len < wstring.length())
    {
        wstring = wstring.substr(0,len);
        return cvt.to_bytes(wstring);
    }    
    return in;
}
int main(){
    std::string test = "\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c"; //&#20320;&#22909;&#19990;&#30028; length 4
    std::cout << test << '\n' << cutString(test,2) << '\n';
    return 0;
}



Понятно, что UTF-8 (переменное количество байт), обынчые функции size, substr работают некорректно.

1) Помогите разобраться, что делают строки

Код: plaintext
1.
2.
3.
4.
std::wstring_convert<std::codecvt_utf8<wchar_t>> cvt;
auto res = cvt.from_bytes(in);
wstring = wstring.substr(0,len);
return cvt.to_bytes(res);

правильно ли я понимаю преобразуют в тип с постоянным количеством байт,
затем делает срез строки, преобразует его обратно UTF-8???


2) Кажется условие
Код: plaintext
 if(len < wstring.length()) 
(количество символов в подстроке должно быть меньше символов в самой строке) избыточно,
без него исключение не возникаем, выдает все строку целиком???
...
Рейтинг: 0 / 0
22.10.2017, 12:11
    #39540059
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
простая функция substr для UTF-8
polin112) Кажется условие if(len < wstring.length())
(количество символов в подстроке должно быть меньше символов в самой строке) избыточно,

Оно позволяет избежать обратной конверсии. Типа, оптимизация. Хотя такой фейспалм её не
заслуживает.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
22.10.2017, 14:59
    #39540110
вЪю
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
простая функция substr для UTF-8
polin11правильно ли я понимаю преобразуют в тип с постоянным количеством байт,
затем делает срез строки, преобразует его обратно UTF-8???


Преобразование всего текста. Взятие подстроки. Приведение подстроки к первоначальной кодировке.


Dimitry Sibiryakovpolin112) Кажется условие if(len < wstring.length())
(количество символов в подстроке должно быть меньше символов в самой строке) избыточно,

Оно позволяет избежать обратной конверсии. Типа, оптимизация. Хотя такой фейспалм её не
заслуживает.

Иногда, но учитывая что входной текст конвертируется полностью....
Хорошо что в С++17 это безобразие сделали deprecated иначе C++ всё больше и больше походит на MS Basic.
...
Рейтинг: 0 / 0
22.10.2017, 15:11
    #39540111
Изопропил
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
простая функция substr для UTF-8
всё бы ничего, но wstring бывает и 16, и 32 разрядным на разных платформах.
...
Рейтинг: 0 / 0
22.10.2017, 15:49
    #39540121
вЪю
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
простая функция substr для UTF-8
Изопропил,

2 байта это только у M$VC Кто то ещё им пользуется?
...
Рейтинг: 0 / 0
22.10.2017, 16:16
    #39540130
Изопропил
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
простая функция substr для UTF-8
вЪю2 байта это только у M$VC Кто то ещё им пользуется?
mingw
...
Рейтинг: 0 / 0
23.10.2017, 13:51
    #39540465
MasterZiv
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
простая функция substr для UTF-8
вЪюХорошо что в С++17 это безобразие сделали deprecated


Которое именно?
...
Рейтинг: 0 / 0
23.10.2017, 14:37
    #39540508
вЪю
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
простая функция substr для UTF-8
MasterZivвЪюХорошо что в С++17 это безобразие сделали deprecated


Которое именно?

wstring_convert
...
Рейтинг: 0 / 0
Форумы / C++ [игнор отключен] [закрыт для гостей] / простая функция substr для UTF-8 / 8 сообщений из 8, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]