powered by simpleCommunicator - 2.0.50     © 2025 Programmizd 02
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Юникод и utf8
25 сообщений из 172, страница 6 из 7
Юникод и utf8
    #39710112
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Basil A. SidorovmaytonВерно?Да, я уже высказывался на эту тему.
И продолжу высказываться, если сочту нужным:
1. Текст не является массивом символов;
2. Из юникодных кодировок общего назначения должен остаться только UTF8. UTF16/32 - должны сдохнуть.

P.S.
Есть кодировки юникода "специального назначения" - они имеют право на существование в специфичных задачах.

P.P.S.
И да, эти спец.кодировки позволяют упаковать в один байт "много чего".
Поэтому НовоЮджину, надо в школу, чтобы не высказываться в космических масштабах и такой же глупости.
Нашел один API. У Хорстмана. Чуть позже приложу скрины.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39710539
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Надеюсь Старик не обидится. Полтора скрина запостил. Вобщем есть API. Но ... субъективно достаточно редкоиспользуемый.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39710541
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Юникод и utf8
    #39710542
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Юникод и utf8
    #39710551
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
И к чему вся эта хрень?
Неужели так трудно словами объяснить, что именно вас заинтересовало и поразило???
...
Рейтинг: 0 / 0
Юникод и utf8
    #39710667
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
(пожимает плечами)

Юзкейс редкий. Я в ентерпрайзе более 10 лет но нигде не использовал именно эти механизмы.
А работали мы минимум с 3 крупными европейскими банками.

Может быть вы ... поделитесь где вы использовали. Где был полезный эффект а не просто
рекомендация от консорциума.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39710668
Eugene New
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,
это уже какой-то юниюникод - даже символ юникода не является буквой. Причем потеряна однозначность. У ребят первый байт пустует, а они ударение в отдельные два байта пишут. Далеко ушли.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39710670
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А ты говоришь - массив
...
Рейтинг: 0 / 0
Юникод и utf8
    #39710674
Eugene New
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,
А ты говоришь - массив

Информация интересная, спасибо.
Сначала делают лишний байт чтобы туда писать ударения. Потом ударения туда не пишут. Маразм? Это ведь уже не текст в формате юникод.

Basil A. Sidorov,
Неужели так трудно словами объяснить, что именно вас заинтересовало и поразило???
А у вас трудности с чтением и пониманием.. Зато вы точно знаете что должны делать все. Темный человек..
...
Рейтинг: 0 / 0
Юникод и utf8
    #39710676
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene NewИнформация интересная, спасибо.
Сначала делают лишний байт чтобы туда писать ударения. Потом ударения туда не пишут. Маразм? Это ведь уже не текст в формате юникод.
Это может быть полезно для азиатских алфавитов где у них иероглифы - композитные. Я часто
видел в корейском кино как они тайпают на мобилах. Чтоб набрать какой-то символ они сделают
3-4 клика по context menus и новый символ - "вуаля" рождается как из конструктора.

И чисто технически и на семантическом уровне такое разложение полезно. Поисковики там...
...
Рейтинг: 0 / 0
Юникод и utf8
    #39710691
Ы2
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene NewСначала делают лишний байт чтобы туда писать ударения. Потом ударения туда не пишут. Маразм?
Отнюдь. Эта возможность здорово выручает, когда нужно, например, снять необязательные диакритические знаки или, наоборот, автоматически расставить ударения, долготы и т.п.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39710712
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton (пожимает плечами) Вы отсканировали три странички вполне классического "Core Java" - зачем?
Чтобы удивиться канонизации и нормализации?
Ну, дык, всё тот же консорциум пишет об этом в разделе " Рекомендации по реализации " (вольный перевод):
выделено мноюВозможна реализация подмножества стандарта Юникода как "расширенного US-ASCII" при минимальных изменениях сложившейся практики разработки ПО. Однако стандарт Юникода работает с языками и системами письменности, которые сложнее английского.
...
Стандарт содержит коды большинства общеупотребительных акцентированных символов. Эти символы также могут быть представлены композицией из нескольких кодов
При этом текст этих рекомендаций слабо меняется от версии к версии - можно взять какой-нибудь "древний" 3.x - там будет, практически, тоже самое.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39710717
Eugene New
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Basil A. Sidorov,
хватит уже не по делу трындеть в самом деле. Если до вас не доходит суть обсуждаемых вещей, то самое разумное - помолчать, а не пытаться занимать позу надзирателя.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39710721
Eugene New
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Просто гражданин заметил признаки крамолы - опасного интеллектуального разговора по существу и прибежал затыкать рот и пресекать.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39710731
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ладно забейте. Меня нисколько не удивляют api и стандарты. Я спрашивал кто из вас это использовал и как?
...
Рейтинг: 0 / 0
Юникод и utf8
    #39711247
Eugene New
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
С этим более удобным подходом юникод для ударений оказался не нужен, лишние байты вообще не используются.

Могли бы и свои любимые иероглифы писать обычным однобайтовым алфавитом в виде слов, разделенных пробелами. Ведь у каждого иероглифа есть название. А сортировка по алфавиту к иероглифам в принципе не применима. Утвердили бы стандартные написания иероглифов и писали бы:

sunshui vchai maodz une

Такое и без спецсредств прочитать можно, и расшифровать для рисования несложно.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39711262
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene NewС этим более удобным подходом юникод для ударений оказался не нужен, лишние байты вообще не используются.В Википедию вы, видимо, даже не заглядывали...
...
Рейтинг: 0 / 0
Юникод и utf8
    #39711340
Ы2
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene NewС этим более удобным подходом юникод для ударений оказался не нужен, лишние байты вообще не используются.
«Лишние» байты, как вы и сами знаете, не для ударений, а для расширения репертуара. Стандарт определяет, например, что 045E (белорусское краткое у) будет автоматически разложено на или собрано из 0443 (у) и 0306 (комбинируемый знак бреве). Время от времени такие вещи бывают полезны.

Eugene NewМогли бы и свои любимые иероглифы писать обычным однобайтовым алфавитом в виде слов, разделенных пробелами. Ведь у каждого иероглифа есть название. А сортировка по алфавиту к иероглифам в принципе не применима.
Китайцы вас не поймут, а плюнуть на них не выйдет: их слишком много. Факт наличия — пусть и неалфавитной — сортировки выводится из факта издания бумажных китайско-всяких словарей.

Eugene NewУтвердили бы стандартные написания иероглифов и писали бы:
sunshui vchai maodz une
Такое и без спецсредств прочитать можно, и расшифровать для рисования несложно.
По отношению к китайскому это и есть «спецсредство». И да, вы снова опоздали: пиньин иже изобрели :)
...
Рейтинг: 0 / 0
Юникод и utf8
    #39711343
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ы2«Лишние» байты, как вы и сами знаете, не для ударений, а для расширения репертуара. Стандарт определяет, например, что 045E (белорусское краткое у) будет автоматически разложено на или собрано из 0443 (у) и 0306 (комбинируемый знак бреве). Время от времени такие вещи бывают полезны.

А в каких приложениях вы это использовали?
...
Рейтинг: 0 / 0
Юникод и utf8
    #39711346
Eugene New
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ы2,
тут как раз спор и идет, нужен ли второй байт для расширения репертуара или нет. Я вижу в предложенном примере довод в пользу того, что можно обойтись, втиснув стандартную кириллицу в один байт вместе со стандартной латиницей, а для всяких экзотических букв с галочками или точечками использовать запись этой точечки как отдельного символа, что, как оказалось, и так делается - даже с юникодом, потому, что так, оказывается, удобнее! Так что непонятно, в чем профит юникода.

По отношению к китайскому это и есть «спецсредство»
Под спецсредством я имел в виду программу, которая все эти иероглифы рисовать умеет. И без нее можно текст прочитать, зная латиницу, и китаец поймет о чем там речь.

пиньин иже изобрели
Вещь очевидная.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39711354
Ы2
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonЫ2«Лишние» байты, как вы и сами знаете, не для ударений, а для расширения репертуара. Стандарт определяет, например, что 045E (белорусское краткое у) будет автоматически разложено на или собрано из 0443 (у) и 0306 (комбинируемый знак бреве). Время от времени такие вещи бывают полезны.

А в каких приложениях вы это использовали?
Обработка естественного языка
...
Рейтинг: 0 / 0
Юникод и utf8
    #39711362
Ы2
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene NewЫ2,
тут как раз спор и идет, нужен ли второй байт для расширения репертуара или нет. Я вижу в предложенном примере довод в пользу того, что можно обойтись, втиснув стандартную кириллицу в один байт вместе со стандартной латиницей, а для всяких экзотических букв с галочками или точечками использовать запись этой точечки как отдельного символа, что, как оказалось, и так делается - даже с юникодом, потому, что так, оказывается, удобнее! Так что непонятно, в чем профит юникода.
Изначально вы хотели однобайтовости, чтобы обрабатывать строку как массив символов-байтов. А с комбинируемой диакритикой так не выйдет: у вас не сойдется число байт с числом видимых человеком символов.

Вы, похоже, неверно поняли, что я написал. Если несколько длиннее, то Юникод не обязывает вас хранить ранее помянутое белорусское краткое у в виде двух символов (у и бреве), но предписывает, что реализация должна дать вам возможность как разобрать его на эти два символа, так и собрать обратно, если вам потребуется . Иногда бывает нужно разом снять все необязательные долготы, но не всегда заранее известно, как именно пользователь их расставил: использовал комбинируемый знак 0304 макрон или вручную вставил соответствующую по виду букву (0100, 0113 и т.п.) из Latin Extended-A.

Насчет профита… Скачайте стандарт, таблицы символов для различных блоков. Там так много интересного.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39711364
Eugene New
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ы2,
Зато обрабатывалось бы как массив. Фактически выходит, что ударение это отдельный символ в этом подходе, не правда ли?

Юникод не обязывает вас хранить ранее помянутое белорусское краткое у в виде двух символов (у и бреве), но предписывает, что реализация должна дать вам возможность как разобрать его на эти два символа, так и собрать обратно

Пишут стандарты КОДИРОВКИ символов с избыточностью, но с неоднозначным представлением. facepalm
...
Рейтинг: 0 / 0
Юникод и utf8
    #39711366
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene NewЫ2,
Зато обрабатывалось бы как массив. Фактически выходит, что ударение это отдельный символ в этом подходе, не правда ли?

Юникод не обязывает вас хранить ранее помянутое белорусское краткое у в виде двух символов (у и бреве), но предписывает, что реализация должна дать вам возможность как разобрать его на эти два символа, так и собрать обратно

Пишут стандарты КОДИРОВКИ символов с избыточностью, но с неоднозначным представлением. facepalm

Видишь Юджин. Ты не просто пролетел с пропозицией священного холивара. Ты - дважды пролетел

Это кстати лишний раз убеждат меня в том что со строками надо работать как с Stream<Char>
но не в этом явном виде как я написал. А под капотом. И глубоко в языке.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39711369
Eugene New
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,
Ты не просто пролетел с пропозицией священного холивара. Ты - дважды пролетел

Я пролетел только с оценкой способа хранения строк в "современных субд". Во всем остальном не вижу, в чем я не прав.

со строками надо работать как с Stream<Char>

Каждая строка - файл, значит. Как то это ограничивает и так и не понятно зачем, кроме каких то специфических случаев.
...
Рейтинг: 0 / 0
25 сообщений из 172, страница 6 из 7
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Юникод и utf8
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]