powered by simpleCommunicator - 2.0.58     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / C++ [игнор отключен] [закрыт для гостей] / MSVC и GCC: совместимость кодировок исходников
25 сообщений из 409, страница 10 из 17
MSVC и GCC: совместимость кодировок исходников
    #39896602
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
petrav
Т.е. поддержка utf-8 изначально была в языке Си
Вот только с ног на голову не надо ничего ставить.
Это UTF-8 был сделан так, чтобы обеспечить полную совместимость с US-ASCII. А работоспособность стандартной библиотеки гарантирована только на этом подмножестве.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896603
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Basil A. Sidorov
mayton
Если-бы толстая корпорация типа yandex взяла управление в свои руки и сказала - ша бротва! Мы делаем свой С++
... то конкуренты, при помощи антимонопольного комитета, сожрали бы её.
А если даже не и сожрали, то глухое игнорирование - ничем не лучше.

Хм... При чем здесь антимонопольность?

Игнорирование - плевать. Если вещь ценная и интересная (как Linux в 90х) то ей будет дана жизнь.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896604
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Возможно. Если хранить вместе со строкой признак кодировки.
Я положил в строку US-ASCII и поставил признак "UTF8". Сможете уличить меня в ошибке?
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896605
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Игнорирование - плевать.
Гуглу, например, скажите об этом.Если вещь ценная и интересная (как Linux в 90х) то ей будет дана жизнь.И даже не одна. Сколько, говорите, у нас сейчас линуксов?
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896608
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Basil A. Sidorov
mayton
Возможно. Если хранить вместе со строкой признак кодировки.
Я положил в строку US-ASCII и поставил признак "UTF8". Сможете уличить меня в ошибке?

Вы по use case не сможете этого сделать.

Мы же говорим о java String? Или вы о чем то другом?
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896612
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Или вы о чем то другом?
О вашем исходном заблуждении.
Более того, единственная причина, по которой Java 9+ не использует UTF8 - индексация String по кодовым точкам. Сейчас это константная операция, а будет - линейная. Шипилёв, в одном из своих выступлений, отмечал, что такое изменение контракта Java SE API было сочтено недопустимым.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896614
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
(пожимая плечами)
Я легко признаю ошибку если я оговорился.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896615
petrav
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton

Да в этих комитетах - царит какое-то разложение. Есть у них хоть один proposal который ужесточает стандарт?
И делает его более... недёжным что-ли. Предсказуемым на разрядности int к примеру.

Вот честное слово я уже не верю в комитеты. Если-бы толстая корпорация типа yandex взяла управление
в свои руки и сказала - ша бротва! Мы делаем свой С++. И там будет мать ево Unicode-строка как
фундаментальный образующий тип языка. А все синонимы мы просто выкосим нахер. И опубликуем как форк С++
стандарта по версии yandex. Я-бы встал и поаплодировал.

И жизненных примеров много. Когда источником нового языка была именно корпорация а не всякие бл...ские комитеты.

В общем, я согласен с Вами. В очередной раз с Вами соглашусь.

Но я думал о том же в контексте, что у этих комитетов просто денег нет на серьёзное проектирование. Что не могут они конкурировать в проектировании языка программирования, по сравнению с языками в которые корпорации вкладывают огромные деньги (Java, C#).

И, конечно, я не думал о Яндексе. :) Вот Гугл был бы лучшим выбором.

PS: И да, конечно, нормальная Юникод-строка в стиле Си и встиле С++ должна быть в языке С++.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896616
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гугл уже порешал для себя проблемы.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896617
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вот ей-богу - странные вы люди ...
Казалось - в чём проблема?..
Взяли стандарт языка (черновик стандарта), выкинули из него всякий хлам и добавили разумного, доброго, вечного. Даже компилятор не надо делать с нуля - берём LLVM и чуток допиливаем "до идеала" один из фронтэндов.
Только что вы собрались делать в другой камере, если у вас перестанет собираться 90-99 процентов используемого кода?
Тоже чуток допилите?

P.S.
Windows 7 SDK
Код: plaintext
1.
2.
3.
#if !defined(_68K_) && !defined(_MPPC_) && !defined(_X86_) && !defined(_IA64_) && !defined(_AMD64_) && defined(_M_IX86)
#define _X86_
#endif

...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896621
Фотография полудух
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Basil A. Sidorov
char в Java - примитивный тип.
Character - класс-обёртка, которая ничем не лучше и не хуже других классов-обёрток.

а я и не говорю про лучше/хуже, я говорю про, что в яве класс довели до абсурда.
crutchmaster
Чуть больше половины байт - нули.

ну так выравнивание жи. Либо шашечки, либо ехать. Либо быстро работаем со строкой, либо чекаем каждый символ и спасаем 1 байт, но выводим с задержкой в 3-5 раз.
И ради чего? ВСЯ деятельность Шекспира занимает в итоге 5 мегабайт! Где же взять столько памяти...
Это особенности unicode, причём тут C++, это в юникоде чары по 2-4 байта.
Как вы себе представляете строку с перемешанными 1-2 байтами?
petrav
А глюки из-за неправильного понимания работы Юникода не жгут?

Какие глюки у вас с wstring, покажете пример уже, второй раз спрашиваю?
petrav
Да в самом С++ больше десятка представлений строк.

да хоть 100500, они там для совместимости остались
вы юзаете string/wstring и всё. Точка.
Или, если хотите, можно жёстко указать размер : u8/u16/u32
petrav
Да те кто занимаются проектированием С++ просто занимаются не тем чем нужно.

это вы занимаетесь не тем, чем нужно - ищете чёрную кошку в тёмной комнате, где её нет.
А развитие C++ идёт лучше, чем во всех других языках.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896624
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
полудух

вы юзаете string/wstring и всё. Точка.
Или, если хотите, можно жёстко указать размер : u8/u16/u32

Почитайте этот-же форум С++. Здесь каждый десятый или двадцатый топик - это кодировки и строки.
Вы тоже им всем дадите этот совет?
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896625
Фотография полудух
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
полудух

вы юзаете string/wstring и всё. Точка.
Или, если хотите, можно жёстко указать размер : u8/u16/u32

Почитайте этот-же форум С++. Здесь каждый десятый или двадцатый топик - это кодировки и строки.
Вы тоже им всем дадите этот совет?

да на что жалуются то?
покажите мне уже, чего я не могу сделать, положив текст в wstring?
при том, что конверсия есть куда угодно:
Код: plaintext
1.
2.
3.
wstring_convert<codecvt_utf8_utf16<wchar_t>, wchar_t> conversion;
wstring s = conversion.from_bytes(z.c_str());
string mbs = conversion.to_bytes(L"ÆƆ");
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896629
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я когда-то FAQ собирался поднимать по вопросам кодировок и строк на C++.
Искать сейчас мне лень. Но в форуме много подобных вопросов.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896630
petrav
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
полудух

да на что жалуются то?

Жалуются что половина текста нулей, спать не могут!

полудух
покажите мне уже, чего я не могу сделать, положив текст в wstring?

Что бы Вам показать что нельзя сделать очевидным способом на wstring нужно или иероглифы знать, или найти в инете хоть одну суррогатную пару. Понятно всем лень. Или ума не хватает.

Смысл в чём: wchar_t действительно не очень с точки зрения идеального миропредставления.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896632
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Нашел нормализатор под Питон. Щас попробуем.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896635
Фотография полудух
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
petrav
Смысл в чём: wchar_t действительно не очень с точки зрения идеального миропредставления.

а что "очень"?
КЛАСС целый налепить вместо типа и тормознуть абстракцией от души, как в яве?
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896636
petrav
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
полудух
petrav
Смысл в чём: wchar_t действительно не очень с точки зрения идеального миропредставления.

а что "очень"?
КЛАСС целый налепить вместо типа и тормознуть абстракцией от души, как в яве?

1. Вам уже ответили, что char в Яве - это не класс. Как и в Шарпе.
2. wchar_t не вмещает всю таблицу Юникода.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896640
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В java для всех примитивных типов созданы иммутабельные объекты-обертки. Между ними работает implicite преобразование.
Авто-боксинг. Это нужно для поддержки примитивов в коллекциях и для генериков. Есть примитив char и есть пкласс Character.
Есть примитив int и есть обертка Integer.
JIT компиллятор во многих случаях умеет превращать обертки в примитивы есть есть возможность и если
это не меняет логику.

Примитивы не имеют общего супертипа в Java. Однако в Scala это исправлено.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896642
Фотография полудух
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
petrav
2. wchar_t не вмещает всю таблицу Юникода.

ну так char32_t есть (u32string)
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896643
Фотография полудух
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Есть примитив char и есть пкласс Character.

ок, ок
один хер они апофеоз абсурда из классов сделали
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896663
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Язык - способ выражения мысли.

Помнишь афоризм о том что программы пишутся для прочтения человеком и т.д.?
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896673
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
полудух
ну так char32_t есть (u32string)
Только нифига это не помогает хотелке "работать с со строкой символов, как с массивом кодов". Даже в рамках базовой плоскости и даже в рамках первой половины этой плоскости.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896675
petrav
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Basil A. Sidorov
полудух
ну так char32_t есть (u32string)
Только нифига это не помогает хотелке "работать с со строкой символов, как с массивом кодов". Даже в рамках базовой плоскости и даже в рамках первой половины этой плоскости.

char32 - это максимум четыре миллиарда символов. Это больше чем utf-8 по текущему стандарту (при максимуме четыре байта).

Не надо рассказывать про немецкие умляуты, иероглифы в знакомом вам китайском селе, символы ударения и прочие сугубо лингвистические нюансы.

Мы тут не занимаемся алгоритмами апперкейса той немецкой буквы похожей на Бетту, которая переходит в SS в случае редких интонаций, перед тем как тебе прилетает в нос. Это не лингвистический форум. Мы не обсуждаем тут авторский стиль Пушкина. Хотя мы его уважаем. Мы не обсуждаем алгоритмы автоматического перевода или написания стихов на нейронных сетях.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896677
petrav
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Basil A. Sidorov
полудух
ну так char32_t есть (u32string)
Только нифига это не помогает хотелке "работать с со строкой символов, как с массивом кодов". Даже в рамках базовой плоскости и даже в рамках первой половины этой плоскости.

И теперь осталось обосновать применение понятий "базовая плоскость" и "половина (первая) базовой плоскости" в рамках обсуждаемой проблемы. Со ссылками. Иначе это будет выглядеть как... ну человек привык бросаться красивыми терминами не понимая их сути.
...
Рейтинг: 0 / 0
25 сообщений из 409, страница 10 из 17
Форумы / C++ [игнор отключен] [закрыт для гостей] / MSVC и GCC: совместимость кодировок исходников
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]