Юникод и utf8 / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Юникод и utf8

25 сообщений из 172, страница 6 из 7

все

Юникод и utf8

#39710112

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Basil A. SidorovmaytonВерно?Да, я уже высказывался на эту тему.
И продолжу высказываться, если сочту нужным:
1. Текст не является массивом символов;
2. Из юникодных кодировок общего назначения должен остаться только UTF8. UTF16/32 - должны сдохнуть.

P.S.
Есть кодировки юникода "специального назначения" - они имеют право на существование в специфичных задачах.

P.P.S.
И да, эти спец.кодировки позволяют упаковать в один байт "много чего".
Поэтому НовоЮджину, надо в школу, чтобы не высказываться в космических масштабах и такой же глупости.
Нашел один API. У Хорстмана. Чуть позже приложу скрины.

...

Рейтинг:

0 / 0

28.09.2018, 19:45:10

| Ответить | Цитировать | Написать

Юникод и utf8

#39710539

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Надеюсь Старик не обидится. Полтора скрина запостил. Вобщем есть API. Но ... субъективно достаточно редкоиспользуемый.

...

Рейтинг:

0 / 0

30.09.2018, 15:38:22

| Ответить | Цитировать | Написать

Юникод и utf8

#39710541

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

...

Рейтинг:

0 / 0

30.09.2018, 15:39:43

| Ответить | Цитировать | Написать

Юникод и utf8

#39710542

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

...

Рейтинг:

0 / 0

30.09.2018, 15:40:04

| Ответить | Цитировать | Написать

Юникод и utf8

#39710551

Basil A. Sidorov

Участник

Сообщения: 11 633

Рейтинг: 0 / 0

И к чему вся эта хрень?
Неужели так трудно словами объяснить, что именно вас заинтересовало и поразило???

...

Рейтинг:

0 / 0

30.09.2018, 16:17:00

| Ответить | Цитировать | Написать

Юникод и utf8

#39710667

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

(пожимает плечами)

Юзкейс редкий. Я в ентерпрайзе более 10 лет но нигде не использовал именно эти механизмы.
А работали мы минимум с 3 крупными европейскими банками.

Может быть вы ... поделитесь где вы использовали. Где был полезный эффект а не просто
рекомендация от консорциума.

...

Рейтинг:

0 / 0

30.09.2018, 22:09:55

| Ответить | Цитировать | Написать

Юникод и utf8

#39710668

Eugene New

Участник

Сообщения: 277

Рейтинг: 0 / 0

mayton,
это уже какой-то юниюникод - даже символ юникода не является буквой. Причем потеряна однозначность. У ребят первый байт пустует, а они ударение в отдельные два байта пишут. Далеко ушли.

...

Рейтинг:

0 / 0

30.09.2018, 22:23:25

| Ответить | Цитировать | Написать

Юникод и utf8

#39710670

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

А ты говоришь - массив

...

Рейтинг:

0 / 0

30.09.2018, 22:25:24

| Ответить | Цитировать | Написать

Юникод и utf8

#39710674

Eugene New

Участник

Сообщения: 277

Рейтинг: 0 / 0

mayton,
А ты говоришь - массив

Информация интересная, спасибо.
Сначала делают лишний байт чтобы туда писать ударения. Потом ударения туда не пишут. Маразм? Это ведь уже не текст в формате юникод.

Basil A. Sidorov,
Неужели так трудно словами объяснить, что именно вас заинтересовало и поразило???
А у вас трудности с чтением и пониманием.. Зато вы точно знаете что должны делать все. Темный человек..

...

Рейтинг:

0 / 0

30.09.2018, 22:39:13

| Ответить | Цитировать | Написать

Юникод и utf8

#39710676

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Eugene NewИнформация интересная, спасибо.
Сначала делают лишний байт чтобы туда писать ударения. Потом ударения туда не пишут. Маразм? Это ведь уже не текст в формате юникод.
Это может быть полезно для азиатских алфавитов где у них иероглифы - композитные. Я часто
видел в корейском кино как они тайпают на мобилах. Чтоб набрать какой-то символ они сделают
3-4 клика по context menus и новый символ - "вуаля" рождается как из конструктора.

И чисто технически и на семантическом уровне такое разложение полезно. Поисковики там...

...

Рейтинг:

0 / 0

30.09.2018, 22:53:23

| Ответить | Цитировать | Написать

Юникод и utf8

#39710691

Ы2

Участник

Сообщения: 233

Рейтинг: 0 / 0

Eugene NewСначала делают лишний байт чтобы туда писать ударения. Потом ударения туда не пишут. Маразм?
Отнюдь. Эта возможность здорово выручает, когда нужно, например, снять необязательные диакритические знаки или, наоборот, автоматически расставить ударения, долготы и т.п.

...

Рейтинг:

0 / 0

01.10.2018, 00:25:58

| Ответить | Цитировать | Написать

Юникод и utf8

#39710712

Basil A. Sidorov

Участник

Сообщения: 11 633

Рейтинг: 0 / 0

mayton (пожимает плечами) Вы отсканировали три странички вполне классического "Core Java" - зачем?
Чтобы удивиться канонизации и нормализации?
Ну, дык, всё тот же консорциум пишет об этом в разделе " Рекомендации по реализации " (вольный перевод):

выделено мноюВозможна реализация подмножества стандарта Юникода как "расширенного US-ASCII" при минимальных изменениях сложившейся практики разработки ПО. Однако стандарт Юникода работает с языками и системами письменности, которые сложнее английского.
...
Стандарт содержит коды большинства общеупотребительных акцентированных символов. Эти символы также могут быть представлены композицией из нескольких кодов

При этом текст этих рекомендаций слабо меняется от версии к версии - можно взять какой-нибудь "древний" 3.x - там будет, практически, тоже самое.

...

Рейтинг:

0 / 0

01.10.2018, 05:50:41

| Ответить | Цитировать | Написать

Юникод и utf8

#39710717

Eugene New

Участник

Сообщения: 277

Рейтинг: 0 / 0

Basil A. Sidorov,
хватит уже не по делу трындеть в самом деле. Если до вас не доходит суть обсуждаемых вещей, то самое разумное - помолчать, а не пытаться занимать позу надзирателя.

...

Рейтинг:

0 / 0

01.10.2018, 06:19:26

| Ответить | Цитировать | Написать

Юникод и utf8

#39710721

Eugene New

Участник

Сообщения: 277

Рейтинг: 0 / 0

Просто гражданин заметил признаки крамолы - опасного интеллектуального разговора по существу и прибежал затыкать рот и пресекать.

...

Рейтинг:

0 / 0

01.10.2018, 06:32:18

| Ответить | Цитировать | Написать

Юникод и utf8

#39710731

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Ладно забейте. Меня нисколько не удивляют api и стандарты. Я спрашивал кто из вас это использовал и как?

...

Рейтинг:

0 / 0

01.10.2018, 07:53:39

| Ответить | Цитировать | Написать

Юникод и utf8

#39711247

Eugene New

Участник

Сообщения: 277

Рейтинг: 0 / 0

С этим более удобным подходом юникод для ударений оказался не нужен, лишние байты вообще не используются.

Могли бы и свои любимые иероглифы писать обычным однобайтовым алфавитом в виде слов, разделенных пробелами. Ведь у каждого иероглифа есть название. А сортировка по алфавиту к иероглифам в принципе не применима. Утвердили бы стандартные написания иероглифов и писали бы:

sunshui vchai maodz une

Такое и без спецсредств прочитать можно, и расшифровать для рисования несложно.

...

Рейтинг:

0 / 0

01.10.2018, 20:24:07

| Ответить | Цитировать | Написать

Юникод и utf8

#39711262

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

Eugene NewС этим более удобным подходом юникод для ударений оказался не нужен, лишние байты вообще не используются.В Википедию вы, видимо, даже не заглядывали...

...

Рейтинг:

0 / 0

01.10.2018, 20:39:24

| Ответить | Цитировать | Написать

Юникод и utf8

#39711340

Ы2

Участник

Сообщения: 233

Рейтинг: 0 / 0

Eugene NewС этим более удобным подходом юникод для ударений оказался не нужен, лишние байты вообще не используются.
«Лишние» байты, как вы и сами знаете, не для ударений, а для расширения репертуара. Стандарт определяет, например, что 045E (белорусское краткое у) будет автоматически разложено на или собрано из 0443 (у) и 0306 (комбинируемый знак бреве). Время от времени такие вещи бывают полезны.

Eugene NewМогли бы и свои любимые иероглифы писать обычным однобайтовым алфавитом в виде слов, разделенных пробелами. Ведь у каждого иероглифа есть название. А сортировка по алфавиту к иероглифам в принципе не применима.
Китайцы вас не поймут, а плюнуть на них не выйдет: их слишком много. Факт наличия — пусть и неалфавитной — сортировки выводится из факта издания бумажных китайско-всяких словарей.

Eugene NewУтвердили бы стандартные написания иероглифов и писали бы:
sunshui vchai maodz une
Такое и без спецсредств прочитать можно, и расшифровать для рисования несложно.
По отношению к китайскому это и есть «спецсредство». И да, вы снова опоздали: пиньин иже изобрели :)

...

Рейтинг:

0 / 0

01.10.2018, 23:52:43

| Ответить | Цитировать | Написать

Юникод и utf8

#39711343

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Ы2«Лишние» байты, как вы и сами знаете, не для ударений, а для расширения репертуара. Стандарт определяет, например, что 045E (белорусское краткое у) будет автоматически разложено на или собрано из 0443 (у) и 0306 (комбинируемый знак бреве). Время от времени такие вещи бывают полезны.

А в каких приложениях вы это использовали?

...

Рейтинг:

0 / 0

02.10.2018, 00:01:01

| Ответить | Цитировать | Написать

Юникод и utf8

#39711346

Eugene New

Участник

Сообщения: 277

Рейтинг: 0 / 0

Ы2,
тут как раз спор и идет, нужен ли второй байт для расширения репертуара или нет. Я вижу в предложенном примере довод в пользу того, что можно обойтись, втиснув стандартную кириллицу в один байт вместе со стандартной латиницей, а для всяких экзотических букв с галочками или точечками использовать запись этой точечки как отдельного символа, что, как оказалось, и так делается - даже с юникодом, потому, что так, оказывается, удобнее! Так что непонятно, в чем профит юникода.

По отношению к китайскому это и есть «спецсредство»
Под спецсредством я имел в виду программу, которая все эти иероглифы рисовать умеет. И без нее можно текст прочитать, зная латиницу, и китаец поймет о чем там речь.

пиньин иже изобрели
Вещь очевидная.

...

Рейтинг:

0 / 0

02.10.2018, 00:05:24

| Ответить | Цитировать | Написать

Юникод и utf8

#39711354

Ы2

Участник

Сообщения: 233

Рейтинг: 0 / 0

maytonЫ2«Лишние» байты, как вы и сами знаете, не для ударений, а для расширения репертуара. Стандарт определяет, например, что 045E (белорусское краткое у) будет автоматически разложено на или собрано из 0443 (у) и 0306 (комбинируемый знак бреве). Время от времени такие вещи бывают полезны.

А в каких приложениях вы это использовали?
Обработка естественного языка

...

Рейтинг:

0 / 0

02.10.2018, 00:49:49

| Ответить | Цитировать | Написать

Юникод и utf8

#39711362

Ы2

Участник

Сообщения: 233

Рейтинг: 0 / 0

Eugene NewЫ2,
тут как раз спор и идет, нужен ли второй байт для расширения репертуара или нет. Я вижу в предложенном примере довод в пользу того, что можно обойтись, втиснув стандартную кириллицу в один байт вместе со стандартной латиницей, а для всяких экзотических букв с галочками или точечками использовать запись этой точечки как отдельного символа, что, как оказалось, и так делается - даже с юникодом, потому, что так, оказывается, удобнее! Так что непонятно, в чем профит юникода.
Изначально вы хотели однобайтовости, чтобы обрабатывать строку как массив символов-байтов. А с комбинируемой диакритикой так не выйдет: у вас не сойдется число байт с числом видимых человеком символов.

Вы, похоже, неверно поняли, что я написал. Если несколько длиннее, то Юникод не обязывает вас хранить ранее помянутое белорусское краткое у в виде двух символов (у и бреве), но предписывает, что реализация должна дать вам возможность как разобрать его на эти два символа, так и собрать обратно, если вам потребуется . Иногда бывает нужно разом снять все необязательные долготы, но не всегда заранее известно, как именно пользователь их расставил: использовал комбинируемый знак 0304 макрон или вручную вставил соответствующую по виду букву (0100, 0113 и т.п.) из Latin Extended-A.

Насчет профита… Скачайте стандарт, таблицы символов для различных блоков. Там так много интересного.

...

Рейтинг:

0 / 0

02.10.2018, 01:19:04

| Ответить | Цитировать | Написать

Юникод и utf8

#39711364

Eugene New

Участник

Сообщения: 277

Рейтинг: 0 / 0

Ы2,
Зато обрабатывалось бы как массив. Фактически выходит, что ударение это отдельный символ в этом подходе, не правда ли?

Юникод не обязывает вас хранить ранее помянутое белорусское краткое у в виде двух символов (у и бреве), но предписывает, что реализация должна дать вам возможность как разобрать его на эти два символа, так и собрать обратно

Пишут стандарты КОДИРОВКИ символов с избыточностью, но с неоднозначным представлением. facepalm

...

Рейтинг:

0 / 0

02.10.2018, 01:32:25

| Ответить | Цитировать | Написать

Юникод и utf8

#39711366

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Eugene NewЫ2,
Зато обрабатывалось бы как массив. Фактически выходит, что ударение это отдельный символ в этом подходе, не правда ли?

Юникод не обязывает вас хранить ранее помянутое белорусское краткое у в виде двух символов (у и бреве), но предписывает, что реализация должна дать вам возможность как разобрать его на эти два символа, так и собрать обратно

Пишут стандарты КОДИРОВКИ символов с избыточностью, но с неоднозначным представлением. facepalm

Видишь Юджин. Ты не просто пролетел с пропозицией священного холивара. Ты - дважды пролетел

Это кстати лишний раз убеждат меня в том что со строками надо работать как с Stream<Char>
но не в этом явном виде как я написал. А под капотом. И глубоко в языке.

...

Рейтинг:

0 / 0

02.10.2018, 01:40:30

| Ответить | Цитировать | Написать

Юникод и utf8

#39711369

Eugene New

Участник

Сообщения: 277

Рейтинг: 0 / 0

mayton,
Ты не просто пролетел с пропозицией священного холивара. Ты - дважды пролетел

Я пролетел только с оценкой способа хранения строк в "современных субд". Во всем остальном не вижу, в чем я не прав.

со строками надо работать как с Stream<Char>

Каждая строка - файл, значит. Как то это ограничивает и так и не понятно зачем, кроме каких то специфических случаев.

...

Рейтинг:

0 / 0

02.10.2018, 01:58:13

| Ответить | Цитировать | Написать

25 сообщений из 172, страница 6 из 7

все

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Юникод и utf8

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&startmsg=39710112&tid=1339969]:	0ms
get settings:	8ms
get forum list:	19ms
check forum access:	3ms
check topic access:	3ms
track hit:	41ms
get topic data:	8ms
get forum data:	2ms
get page messages:	59ms
get tp. blocked users:	1ms
others:	187ms

total:	331ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы