powered by simpleCommunicator - 2.0.58     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / C++ [игнор отключен] [закрыт для гостей] / MSVC и GCC: совместимость кодировок исходников
25 сообщений из 409, страница 11 из 17
MSVC и GCC: совместимость кодировок исходников
    #39896707
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Посмотрел Питонскую библиотеку unicode data.

Первые несколько строк я украл со stackoverflow. Далее идет - Лев Николаич.

Код: python
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
import unicodedata

print(unicodedata.normalize('NFC', u'á'))
print(unicodedata.normalize('NFD', u'á'))
print(unicodedata.normalize('NFC', u'Ⅷ'))
print(unicodedata.normalize('NFKC', u'Ⅷ'))

print("1) Еh bien, mon prince. Gênes et Lucques ne sont plus que des apanages")
print(unicodedata.normalize('NFC',"2) Еh bien, mon prince. Gênes et Lucques ne sont plus que des apanages"))
print(unicodedata.normalize('NFD',"3) Еh bien, mon prince. Gênes et Lucques ne sont plus que des apanages"))



á


VIII
1) Еh bien, mon prince. Gênes et Lucques ne sont plus que des apanages
2) Еh bien, mon prince. Gênes et Lucques ne sont plus que des apanages
3) Еh bien, mon prince. Gênes et Lucques ne sont plus que des apanages
4) Еh bien, mon prince. Gênes et Lucques ne sont plus que des apanages



Забавно. Походе нормализатор действует в обратную сторону. Склеивает комбинации. А мне нужно - наоборот.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896737
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
petrav
И теперь осталось обосновать применение понятий "базовая плоскость"
ЧАВО с юникоде.орг почитайте.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896739
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
petravМы тут не занимаемся алгоритмами

Ну раз ты всё для себя выяснил, топик можно закрывать.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896791
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
[quot petrav#22029124][quot crutchmaster#22029090]пропущено...

В современной жизни текст (текстовые данные) сколько занимает процентов в памяти для приложений типа:
Ваш мирок гуи-поделок - это не современная жизнь.

- Типичное офисное приложение типа 1С.
Зависит от того, что гоняют в этом "типичном" приложении.

- Типичная страница лонгрид на 20 минут чтения в браузере. С картинками.
- Страница ютуб в браузере.

У "типичной" страницы может быть 5 мб жаваскрипта с html разметкой, которую надо генерировать, передавать и парсить. Всунул wstring уронил производительность в 2 раза.

- Десктопная/мобильная ОС.
ОС - не обрабатывает тонны текста.

Сколько? Во-первых процент очень мал, во-вторых абсолютные размеры - копейки.
В html/js/css процент юникола действительно очень мал. Там подавляющая часть - ascii. Зачем ради этого всё гнать в utf16/32 решительно непонятно.

Ну сэкономишь ты десяток мегабайт при работе за компом. На моём стареньком компе 8Гб памяти, а текста сейчас загружено ну мегабайт 20-ть при открытых 10-ти приложениях из которых два браузера.

Вы всё измеряете десктопом. Кроме этого в мире полно всего.

Так жгут нули в тексте? А глюки из-за неправильного понимания работы Юникода не жгут?
Да суйте wstring в свои гуи на здоровье. Я говорю как есть. Гуи - не центр мира, на си/плюсах пишут фундаментальные вещи, которые составляют основу ИТ инфрастуктуры. Ну, да, они немного положили на гуистов, которые херачат названия utf8 прямо в код. Там люди просто не понимают, зачем так надо делать.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896795
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Я-бы встал и поаплодировал.

rust/go. Вставай, аплодируй.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896796
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
crutchmasterУ "типичной" страницы может быть 5 мб жаваскрипта с html разметкой, которую надо
генерировать, передавать и парсить. Всунул wstring уронил производительность в 2 раза.

Чисто из любопытства: в какое место яваскрипту можно всунуть std::wstirng?
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896797
Фотография полудух
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
crutchmaster
Гуи - не центр мира, на си/плюсах пишут фундаментальные вещи, которые составляют основу ИТ инфрастуктуры.

в этих "фундаментальных вещах" только ascii и есть обычно
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896800
Фотография полудух
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
crutchmaster
mayton
Я-бы встал и поаплодировал.

rust/go. Вставай, аплодируй.

а чему там аплодировать, они медленнее C++
всё на свете медленнее C++
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896810
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
полудух
crutchmaster
пропущено...

rust/go. Вставай, аплодируй.

а чему там аплодировать, они медленнее C++
всё на свете медленнее C++

При разработке rust и go ставились вполне себе конкретные задачи.
Go должен был заменить python как медленный язык для google - поисковых сервисов.
Заменил. Работает.

Насчет rust - я не знаю. Но убежден что мотивация была.

По поводу медленнее-быстрее. Вы, как владелец бизнеса не ставите задачу - быть быстрее языка X на 20%.
Вы хотите чтобы ваш бизнес работал и ваше ПО было удобно в дописывании и доработке. По сути это
диверсификация рисков. Вы СОГЛАСНЫ платить за потерю перформанса в 20%. Пофиг. Ведь вы покупаете
узлы облака и производительность наращивается. Но вы не согласны ждать долго разработку. Вы хотите
чтоб микросервис был поднят уже завтра. Ведь завтра - стартует маркетинг акция и вам нужен живой
и работающий endpoint. C++ в этой плоскости проигрывает языку Go. Т.к. цена разработки подобного
микросервиса на С++ будет не на 20% дороже а дороже в несколько раз. И время разработки будет дольше.
Экспертиза С++ дорого стоит. Маркетинг акция - может не взлететь к сроку.

Я описал видение со стороны своего сегмента. Быть может у вас есть другая точка зрения.
Я с ней тоже согласен. Но я просто оперирую вот такими вот терминами. Выгодно-невыгодно.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896811
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Хм. Интересно. Выдержка из Python

Код: python
1.
2.
3.
4.
5.
6.
>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'Δ'
>>> "Δ"                          # Using a 16-bit hex value
'Δ'
>>> "\U00000394"                      # Using a 32-bit hex value
'Δ'


Греческую букву Дельта-заглавная можно набрать 3 способами.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896826
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakov,

Всё это барахло передаётся телепатически, или всё таки где-то хранится/обрабатывается?
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896827
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
полудух,

Так там ничего больше и не нужно же.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896829
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
petrav
char32 - это максимум четыре миллиарда символов.
Вы раз за разом и с упорством, достойным лучшего применения, наступаете на одни и те же грабли.
8-16-32 бита кодируют не символы, а коды. Символы состоят из одного или нескольких кодов и этот факт не зависит от кодировки.
Это больше чем utf-8 по текущему стандарту (при максимуме четыре байта)."Огорчу я тебя до невозможности".
Юникод ограничен семнадцатью плоскостями по 65536 кодов в каждой. Это даёт 21 бит на код и от кодировки не зависит - хоть в uint128 упаковывайте.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896845
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
crutchmasterВсё это барахло передаётся телепатически, или всё таки где-то хранится/обрабатывается?

Это Вы о какой части "5 мб жаваскрипта с html разметкой" сейчас говорите?
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896875
Фотография полудух
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Я описал видение со стороны своего сегмента. Быть может у вас есть другая точка зрения.
Я с ней тоже согласен. Но я просто оперирую вот такими вот терминами. Выгодно-невыгодно.

ну это только одна сторона медали
а вообще бизнес это не только про "купи-продай побыстрей"
да и жизнь это не только про бизнес... Вообще-то Информация нас двигает вперёд.
кому-то ещё геномы считать, кому-то погоду, а кому-то даже, прости-хосподи, ИИ подавай...
и хотят они именно побыстрей и покачественней считать.
Конечно в мире должен быть удобный инструмент для быстрой разработки (Go)
Но первое место всё равно за C++.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896879
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
полудух

да и жизнь это не только про бизнес... Вообще-то Информация нас двигает вперёд.
кому-то ещё геномы считать, кому-то погоду, а кому-то даже, прости-хосподи, ИИ подавай...
и хотят они именно побыстрей и покачественней считать.

Это очень хорошо что вы напомнили всем нам о качестве.
Данный топик как раз начался с вопросов качества. А именно - кодировки.
И далее мы обсуждали реализацию строкового типа в С++.

Видимо не всё так хорошо в Королевстве Датском.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896883
Фотография полудух
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
всё познаётся в сравнении.
абсолютно ВСЕ остальные "королевства" написаны на C
ну и где там "хорошо"?
что они могут предложить, кроме очередной абстракции над C?
максимум напишут очередной вариант string, а он что, будет меньше занимать? или быстрее работать?
если бы было что-то действительно стоящее, оно бы уже было в C.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896884
Фотография полудух
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
И, в конце-концов, о чём вы вообще спорите?
как у программистов у вас вообще таких претензий быть не может, потому что кто-то, а вы то обязаны знать, ЧТО происходит в самом низу, КАК работает процессор, из каких кирпичиков создаётся компьютер.
У нас есть БАЙТ. И в этот БАЙТ можно запихнуть 256. ВСЁ. Большего в него не запихнёшь НИКАК.
ЧТО тут можно ещё придумать?
БАЙТ на 65536, на 16 бит? Ну вот подъедут фотонные/квантовые компы, может что-то и изменится, а пока всё это пустой трёп.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896885
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakov,

О любой. Html с юникодом, который генерирует пхп. ЖС/Цсс с эмодзи, который ест браузер. Толстенные вебпаки с половиной npm. Json/xml, который летает туда-сюда. Html генерируется медленными язычками из шаблонов, которые тоже, надо прочитать, сделать там замены. wstring и хранение в utf16/32 просто в двое увеличило бы эту работу.

По поводу плюсов и юникода в сорцах я написал в начале треда. Ascii в сорцах и gettext - выбор человека.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896886
Фотография crutchmaster
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovЧисто из любопытства: в какое место яваскрипту можно всунуть std::wstirng?
С какой стороны?
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896895
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
полудух
вы то обязаны знать, ЧТО происходит в самом низу,

Программисты как и врачи сейчас делятся на прикладников и системщиков.
Прикладникам не только нужно знать байты. Им нужна строка символов).
полудух
ЧТО тут можно ещё придумать?

API нверно для работы со строками.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896956
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
полудух,

Забавно.
По твоей логике мы сегодня должны писать даже не на сях а на ассемблере ведь на нем были созданы все "королевства".
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896959
petrav
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Basil A. Sidorov
petrav
char32 - это максимум четыре миллиарда символов.
Вы раз за разом и с упорством, достойным лучшего применения, наступаете на одни и те же грабли.
8-16-32 бита кодируют не символы, а коды. Символы состоят из одного или нескольких кодов и этот факт не зависит от кодировки.

Это очевидно.

Ладно. Давайте предметно обсудим. Давайте представим, что мы пишем программу (небольшую, но не тривиальную)... например, автоматизирующую работу (диагностику) с неким промышленным оборудованием. Под требования заказчика. Не важно что это, возьмём газовые турбины отечественного производства. Допустим нужно локализовать этот софт для экспорта в Казахстан. Хорошо, наверное, Вам Казахстан не близок. Пусть будет фантастическая ситуация... Мы поставляем их в Германию. Бинго!

Приведите пример, когда бы нам не хватило wstring и представления, что мы работаем с символами как с массивом.

PS: Если честно, никогда не работал с софтом управляющим газовыми турбинами, но пример гипотетический, подставьте любое промышленное оборудование. От достаточно простого, до сложного.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896960
Фотография полудух
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
полудух,

Забавно.
По твоей логике мы сегодня должны писать даже не на сях а на ассемблере ведь на нем были созданы все "королевства".

нет там такой логики, не выдумывай, я вообще о другом писал.
...
Рейтинг: 0 / 0
MSVC и GCC: совместимость кодировок исходников
    #39896964
petrav
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
crutchmaster
Ваш мирок гуи-поделок - это не современная жизнь.

Удивляют меня такие заявления от человека для которого нужно написать целую страницу комментов, что бы он понял как работает std::mblen(). Ты смотрел на сигнатуру функции и сделал такое предположение, что само существование этой функции становилось абсурдом.

1. GUI это не современная жизнь?
2. Я довольно мало занимаюсь непосредственно GUI.
3. Мы обсуждаем именно офисный софт не завязанный на сложную лингвистику.

PS: А ты в какой области разработки ПО работаешь? Плиз: языки программирования и предметная область.
...
Рейтинг: 0 / 0
25 сообщений из 409, страница 11 из 17
Форумы / C++ [игнор отключен] [закрыт для гостей] / MSVC и GCC: совместимость кодировок исходников
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]