|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Basil A. SidorovmaytonВерно?Да, я уже высказывался на эту тему. И продолжу высказываться, если сочту нужным: 1. Текст не является массивом символов; 2. Из юникодных кодировок общего назначения должен остаться только UTF8. UTF16/32 - должны сдохнуть. P.S. Есть кодировки юникода "специального назначения" - они имеют право на существование в специфичных задачах. P.P.S. И да, эти спец.кодировки позволяют упаковать в один байт "много чего". Поэтому НовоЮджину, надо в школу, чтобы не высказываться в космических масштабах и такой же глупости. Нашел один API. У Хорстмана. Чуть позже приложу скрины. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.09.2018, 19:45 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Надеюсь Старик не обидится. Полтора скрина запостил. Вобщем есть API. Но ... субъективно достаточно редкоиспользуемый. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.09.2018, 15:38 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
И к чему вся эта хрень? Неужели так трудно словами объяснить, что именно вас заинтересовало и поразило??? ... |
|||
:
Нравится:
Не нравится:
|
|||
30.09.2018, 16:17 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
(пожимает плечами) Юзкейс редкий. Я в ентерпрайзе более 10 лет но нигде не использовал именно эти механизмы. А работали мы минимум с 3 крупными европейскими банками. Может быть вы ... поделитесь где вы использовали. Где был полезный эффект а не просто рекомендация от консорциума. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.09.2018, 22:09 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
mayton, это уже какой-то юниюникод - даже символ юникода не является буквой. Причем потеряна однозначность. У ребят первый байт пустует, а они ударение в отдельные два байта пишут. Далеко ушли. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.09.2018, 22:23 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
А ты говоришь - массив ... |
|||
:
Нравится:
Не нравится:
|
|||
30.09.2018, 22:25 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
mayton, А ты говоришь - массив Информация интересная, спасибо. Сначала делают лишний байт чтобы туда писать ударения. Потом ударения туда не пишут. Маразм? Это ведь уже не текст в формате юникод. Basil A. Sidorov, Неужели так трудно словами объяснить, что именно вас заинтересовало и поразило??? А у вас трудности с чтением и пониманием.. Зато вы точно знаете что должны делать все. Темный человек.. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.09.2018, 22:39 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewИнформация интересная, спасибо. Сначала делают лишний байт чтобы туда писать ударения. Потом ударения туда не пишут. Маразм? Это ведь уже не текст в формате юникод. Это может быть полезно для азиатских алфавитов где у них иероглифы - композитные. Я часто видел в корейском кино как они тайпают на мобилах. Чтоб набрать какой-то символ они сделают 3-4 клика по context menus и новый символ - "вуаля" рождается как из конструктора. И чисто технически и на семантическом уровне такое разложение полезно. Поисковики там... ... |
|||
:
Нравится:
Не нравится:
|
|||
30.09.2018, 22:53 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewСначала делают лишний байт чтобы туда писать ударения. Потом ударения туда не пишут. Маразм? Отнюдь. Эта возможность здорово выручает, когда нужно, например, снять необязательные диакритические знаки или, наоборот, автоматически расставить ударения, долготы и т.п. ... |
|||
:
Нравится:
Не нравится:
|
|||
01.10.2018, 00:25 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
mayton (пожимает плечами) Вы отсканировали три странички вполне классического "Core Java" - зачем? Чтобы удивиться канонизации и нормализации? Ну, дык, всё тот же консорциум пишет об этом в разделе " Рекомендации по реализации " (вольный перевод): выделено мноюВозможна реализация подмножества стандарта Юникода как "расширенного US-ASCII" при минимальных изменениях сложившейся практики разработки ПО. Однако стандарт Юникода работает с языками и системами письменности, которые сложнее английского. ... Стандарт содержит коды большинства общеупотребительных акцентированных символов. Эти символы также могут быть представлены композицией из нескольких кодов ... |
|||
:
Нравится:
Не нравится:
|
|||
01.10.2018, 05:50 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Basil A. Sidorov, хватит уже не по делу трындеть в самом деле. Если до вас не доходит суть обсуждаемых вещей, то самое разумное - помолчать, а не пытаться занимать позу надзирателя. ... |
|||
:
Нравится:
Не нравится:
|
|||
01.10.2018, 06:19 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Просто гражданин заметил признаки крамолы - опасного интеллектуального разговора по существу и прибежал затыкать рот и пресекать. ... |
|||
:
Нравится:
Не нравится:
|
|||
01.10.2018, 06:32 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Ладно забейте. Меня нисколько не удивляют api и стандарты. Я спрашивал кто из вас это использовал и как? ... |
|||
:
Нравится:
Не нравится:
|
|||
01.10.2018, 07:53 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
С этим более удобным подходом юникод для ударений оказался не нужен, лишние байты вообще не используются. Могли бы и свои любимые иероглифы писать обычным однобайтовым алфавитом в виде слов, разделенных пробелами. Ведь у каждого иероглифа есть название. А сортировка по алфавиту к иероглифам в принципе не применима. Утвердили бы стандартные написания иероглифов и писали бы: sunshui vchai maodz une Такое и без спецсредств прочитать можно, и расшифровать для рисования несложно. ... |
|||
:
Нравится:
Не нравится:
|
|||
01.10.2018, 20:24 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewС этим более удобным подходом юникод для ударений оказался не нужен, лишние байты вообще не используются.В Википедию вы, видимо, даже не заглядывали... ... |
|||
:
Нравится:
Не нравится:
|
|||
01.10.2018, 20:39 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewС этим более удобным подходом юникод для ударений оказался не нужен, лишние байты вообще не используются. «Лишние» байты, как вы и сами знаете, не для ударений, а для расширения репертуара. Стандарт определяет, например, что 045E (белорусское краткое у) будет автоматически разложено на или собрано из 0443 (у) и 0306 (комбинируемый знак бреве). Время от времени такие вещи бывают полезны. Eugene NewМогли бы и свои любимые иероглифы писать обычным однобайтовым алфавитом в виде слов, разделенных пробелами. Ведь у каждого иероглифа есть название. А сортировка по алфавиту к иероглифам в принципе не применима. Китайцы вас не поймут, а плюнуть на них не выйдет: их слишком много. Факт наличия — пусть и неалфавитной — сортировки выводится из факта издания бумажных китайско-всяких словарей. Eugene NewУтвердили бы стандартные написания иероглифов и писали бы: sunshui vchai maodz une Такое и без спецсредств прочитать можно, и расшифровать для рисования несложно. По отношению к китайскому это и есть «спецсредство». И да, вы снова опоздали: пиньин иже изобрели :) ... |
|||
:
Нравится:
Не нравится:
|
|||
01.10.2018, 23:52 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Ы2«Лишние» байты, как вы и сами знаете, не для ударений, а для расширения репертуара. Стандарт определяет, например, что 045E (белорусское краткое у) будет автоматически разложено на или собрано из 0443 (у) и 0306 (комбинируемый знак бреве). Время от времени такие вещи бывают полезны. А в каких приложениях вы это использовали? ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2018, 00:01 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Ы2, тут как раз спор и идет, нужен ли второй байт для расширения репертуара или нет. Я вижу в предложенном примере довод в пользу того, что можно обойтись, втиснув стандартную кириллицу в один байт вместе со стандартной латиницей, а для всяких экзотических букв с галочками или точечками использовать запись этой точечки как отдельного символа, что, как оказалось, и так делается - даже с юникодом, потому, что так, оказывается, удобнее! Так что непонятно, в чем профит юникода. По отношению к китайскому это и есть «спецсредство» Под спецсредством я имел в виду программу, которая все эти иероглифы рисовать умеет. И без нее можно текст прочитать, зная латиницу, и китаец поймет о чем там речь. пиньин иже изобрели Вещь очевидная. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2018, 00:05 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
maytonЫ2«Лишние» байты, как вы и сами знаете, не для ударений, а для расширения репертуара. Стандарт определяет, например, что 045E (белорусское краткое у) будет автоматически разложено на или собрано из 0443 (у) и 0306 (комбинируемый знак бреве). Время от времени такие вещи бывают полезны. А в каких приложениях вы это использовали? Обработка естественного языка ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2018, 00:49 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewЫ2, тут как раз спор и идет, нужен ли второй байт для расширения репертуара или нет. Я вижу в предложенном примере довод в пользу того, что можно обойтись, втиснув стандартную кириллицу в один байт вместе со стандартной латиницей, а для всяких экзотических букв с галочками или точечками использовать запись этой точечки как отдельного символа, что, как оказалось, и так делается - даже с юникодом, потому, что так, оказывается, удобнее! Так что непонятно, в чем профит юникода. Изначально вы хотели однобайтовости, чтобы обрабатывать строку как массив символов-байтов. А с комбинируемой диакритикой так не выйдет: у вас не сойдется число байт с числом видимых человеком символов. Вы, похоже, неверно поняли, что я написал. Если несколько длиннее, то Юникод не обязывает вас хранить ранее помянутое белорусское краткое у в виде двух символов (у и бреве), но предписывает, что реализация должна дать вам возможность как разобрать его на эти два символа, так и собрать обратно, если вам потребуется . Иногда бывает нужно разом снять все необязательные долготы, но не всегда заранее известно, как именно пользователь их расставил: использовал комбинируемый знак 0304 макрон или вручную вставил соответствующую по виду букву (0100, 0113 и т.п.) из Latin Extended-A. Насчет профита… Скачайте стандарт, таблицы символов для различных блоков. Там так много интересного. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2018, 01:19 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Ы2, Зато обрабатывалось бы как массив. Фактически выходит, что ударение это отдельный символ в этом подходе, не правда ли? Юникод не обязывает вас хранить ранее помянутое белорусское краткое у в виде двух символов (у и бреве), но предписывает, что реализация должна дать вам возможность как разобрать его на эти два символа, так и собрать обратно Пишут стандарты КОДИРОВКИ символов с избыточностью, но с неоднозначным представлением. facepalm ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2018, 01:32 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewЫ2, Зато обрабатывалось бы как массив. Фактически выходит, что ударение это отдельный символ в этом подходе, не правда ли? Юникод не обязывает вас хранить ранее помянутое белорусское краткое у в виде двух символов (у и бреве), но предписывает, что реализация должна дать вам возможность как разобрать его на эти два символа, так и собрать обратно Пишут стандарты КОДИРОВКИ символов с избыточностью, но с неоднозначным представлением. facepalm Видишь Юджин. Ты не просто пролетел с пропозицией священного холивара. Ты - дважды пролетел Это кстати лишний раз убеждат меня в том что со строками надо работать как с Stream<Char> но не в этом явном виде как я написал. А под капотом. И глубоко в языке. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2018, 01:40 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
mayton, Ты не просто пролетел с пропозицией священного холивара. Ты - дважды пролетел Я пролетел только с оценкой способа хранения строк в "современных субд". Во всем остальном не вижу, в чем я не прав. со строками надо работать как с Stream<Char> Каждая строка - файл, значит. Как то это ограничивает и так и не понятно зачем, кроме каких то специфических случаев. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2018, 01:58 |
|
|
start [/forum/topic.php?fid=16&startmsg=39710112&tid=1339969]: |
0ms |
get settings: |
10ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
144ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
55ms |
get tp. blocked users: |
1ms |
others: | 237ms |
total: | 481ms |
0 / 0 |