Кодировки (UTF-8 vs UTF-16 vs UTF-32) / Java

ReSQL.ru

2.0.61

Полная версия Контакт Правила FAQ Помощь

Гость

Войти | Профиль | Очистить

Нов. | Гор. | Избр.

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Действия ...

Доб. в избранное
Игнор. тему
Прикреп. тему
Пометить прочит. / непрочит.
Фильтр:
Сообщения автора темы
Сообщение содержит вложения
Сообщение содержит картинки
Сообщение содержит видеоклипы
Сообщение содержит аудиоклипы
Сообщение содержит картинки или видео 18+

Форумы / Java [игнор отключен] [закрыт для гостей] / Кодировки (UTF-8 vs UTF-16 vs UTF-32) / 11 сообщений из 11, страница 1 из 1

13.12.2017, 13:01:34

#39568939

questioner

Гость

Кодировки (UTF-8 vs UTF-16 vs UTF-32)

Решил разобраться с сабжем. Почитал статейки и остались вопросы.

UTF-8 и UTF-16 это кодировки с переменной длинной

UTF-8: если номер в unicode укладывается в диапазон 2^8-1 будет использоваться 1 байт, если укладывается в 2^16-1 - то 2, иначе 4
UTF-16: если номер в unicode укладывается в диапазон 2^16-1 будет использоваться 2 байта
UTF-32: каждый символ кодируется 4-мя байтами

Правильно ли я понимаю, что если в случае UTF-8 кодировки будет хотя бы один символ должен быть закодирован как 2 байта, то все символы будут закодированы как 2 байта?

Как программа читающая файл может понять сколькими символами кодируется каждое слово в UTF-8 ?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

13.12.2017, 13:07:49

#39568949

Blazkowicz

Участник

Сообщения: 25 080
Рейтинг: 0 / 0

Кодировки (UTF-8 vs UTF-16 vs UTF-32)

questionerПравильно ли я понимаю, что если в случае UTF-8 кодировки будет хотя бы один символ должен быть закодирован как 2 байта, то все символы будут закодированы как 2 байта?
Нет.

questionerКак программа читающая файл может понять сколькими символами кодируется каждое слово в UTF-8 ?
Ну, вот же наглядная таблица в разделе Description
https://en.wikipedia.org/wiki/UTF-8
В зависимости от бит первого байта читатель данных может узнать сколько байтов ему нужно прочесть чтобы сформировать символ.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

13.12.2017, 13:11:18

#39568953

Basil A. Sidorov

Участник

Сообщения: 11 633
Рейтинг: 0 / 0

Кодировки (UTF-8 vs UTF-16 vs UTF-32)

questionerUTF-8 и UTF-16 это кодировки с переменной длиннойЛюбая кодировка юникода - "переменной длины" ибо составные символы.UTF-8: если номер в unicode укладывается в диапазон 2^8-1 будет использоваться 1 байт1-127. 128-255 не используются юникодом ибо куча однобайтовых кодировок.если укладывается в 2^16-1 - то 2два байта - первые 2048 кодовиначе 4или три или четыре.Правильно ли я понимаю, что если в случае UTF-8 кодировки будет хотя бы один символ должен быть закодирован как 2 байта, то все символы будут закодированы как 2 байта?Разумеется, неправильно.
В utf8 каждый код использует ровно столько байт, сколько требуется.

P.S. Вроде, схема кодирования UTF8 во всяких вики - совершенно прозрачная ...
Что там непонятного-то?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

13.12.2017, 23:17:37

#39569297

questioner

Гость

Кодировки (UTF-8 vs UTF-16 vs UTF-32)

BlazkowiczquestionerПравильно ли я понимаю, что если в случае UTF-8 кодировки будет хотя бы один символ должен быть закодирован как 2 байта, то все символы будут закодированы как 2 байта?
Нет.

questionerКак программа читающая файл может понять сколькими символами кодируется каждое слово в UTF-8 ?
Ну, вот же наглядная таблица в разделе Description
https://en.wikipedia.org/wiki/UTF-8
В зависимости от бит первого байта читатель данных может узнать сколько байтов ему нужно прочесть чтобы сформировать символ.

получается, что
если 1 бит, то байт начинается с 0
если 2 - с 110
если 3 - с 1110
если 4 - с 11110

А зачем остальные байты начинаются с 10 ?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

14.12.2017, 06:06:05

#39569348

Blazkowicz

Участник

Сообщения: 25 080
Рейтинг: 0 / 0

Кодировки (UTF-8 vs UTF-16 vs UTF-32)

questioner,

https://en.m.wikipedia.org/wiki/Self-synchronizing_code

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

30.12.2017, 12:58:24

#39578203

questioner

Гость

Кодировки (UTF-8 vs UTF-16 vs UTF-32)

Blazkowicz,

а это точно относится к моему вопросу?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

30.12.2017, 13:02:14

#39578204

Usman

Участник

Откуда: من ألماتي
Сообщения: 5 723
Рейтинг: 0 / 0

Кодировки (UTF-8 vs UTF-16 vs UTF-32)

https://ru.wikipedia.org/wiki/UTF-32#Неиспользование_UTF-32_в_HTML5 Стандарт HTML5 гласит, что «авторы не должны использовать UTF-32, поскольку алгоритмы определения кодировки, описанные в данной спецификации, не отличают его от UTF-16».

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

30.12.2017, 13:04:23

#39578205

Usman

Участник

Откуда: من ألماتي
Сообщения: 5 723
Рейтинг: 0 / 0

Кодировки (UTF-8 vs UTF-16 vs UTF-32)

http://unicode.org/faq/utf_bom.html

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

30.12.2017, 13:29:28

#39578214

Blazkowicz

Участник

Сообщения: 25 080
Рейтинг: 0 / 0

Кодировки (UTF-8 vs UTF-16 vs UTF-32)

questionerа это точно относится к моему вопросу?
А вы точно до конца дочитали?

Self-synchronizing_codein UTF-8, bit patterns 0xxxxxxx and 11xxxxxx are synchronizing words used to mark the beginning of the next valid character

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

10.01.2018, 01:42:43

#39581397

questioner

Гость

Кодировки (UTF-8 vs UTF-16 vs UTF-32)

Blazkowiczquestionerа это точно относится к моему вопросу?
А вы точно до конца дочитали?

Self-synchronizing_codein UTF-8, bit patterns 0xxxxxxx and 11xxxxxx are synchronizing words used to mark the beginning of the next valid character

Так а концептуально это зачем? Чтобы валидировать? На первый взгляд небережно по отношению к байтам, можно же и компактнее было сделать

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

10.01.2018, 04:14:27

#39581404

Basil A. Sidorov

Участник

Сообщения: 11 633
Рейтинг: 0 / 0

Кодировки (UTF-8 vs UTF-16 vs UTF-32)

Концептуально это позволяет делать быстрый разбор и гарантирует бинарную сортировку кодовых точек при использовании байтовых алгоритмов сортировки.

P.S. Ну ей-богу, всё разжёвано в тыртырнетах - зачем вымучивать из себя вопросы?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

Форумы / Java [игнор отключен] [закрыт для гостей] / Кодировки (UTF-8 vs UTF-16 vs UTF-32) / 11 сообщений из 11, страница 1 из 1

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=59&tablet=1&tid=2122352]:	0ms
get settings:	5ms
get forum list:	10ms
check forum access:	2ms
check topic access:	2ms
track hit:	184ms
get topic data:	9ms
get forum data:	2ms
get page messages:	36ms
get tp. blocked users:	1ms
others:	225ms

total:	476ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы