|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Юнико́д активно всем навязывали и наконец практически всем навязали. Эта штука реально бесит. С какой стати мы должны платить увеличением объема строк в два раза из-за китайцев, у которых ущербная письменность. Тогда как русский алфавит прекрасно умещается в один байт. А utf8 нарушает представление строки в виде массива символов, на что рассчитаны все алгоритмы с начала эры программирования. Причем англосаксы то себе неудобств этим utf8 создали намного меньше, чем другим, т. к. их символы в нем записываются в один байт. Вероятно, многие из них даже не учитывают возможную многобайтовость символов и работают с ними как с одиночными байтами. Зато все другие языки низвели до иероглифов. Как вы относительсь к юникоду и utf8? По мне что то, что другое - зло. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.09.2018, 16:42 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewС какой стати мы должны платить увеличением объема строк в два раза ... А кто собственно заставляет? CP1251 кто запретил? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.09.2018, 18:01 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Я заметил что Евгений очень часто поднимает проблемы, которые впоследствии оказывается не проблемами. P.S. ПТ закрылся а штормит ещё... ... |
|||
:
Нравится:
Не нравится:
|
|||
24.09.2018, 20:13 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewКак вы относительсь к юникоду и utf8? По мне что то, что другое - зло Хорошо относимся Кроме кириллицы есть latin1 Если бесит - попейте успокоительного ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 00:44 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene New, Используйте UTF16, пусть англосаксы тоже платят :) ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 00:46 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene New и наконец практически всем навязали. Да, мы работали над этим, спасибо, что оценили наши усилия. Активно агитирую Вас отказаться раз и навсегда от использования однобайтовых кодировок. Как говорится - "Однобайтовых кодировок больше нет, Вы держитесь здесь, Вам всего доброго, хорошего настроения и здоровья!" ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 00:57 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Andy_OLAP, Активно агитирую Вас отказаться раз и навсегда от использования однобайтовых кодирово Зачем мне это делать? Есть рациональные причины? Если бесит - попейте успокоительного В таких советах не нуждаюсь. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 01:40 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene New А utf8 нарушает представление строки в виде массива символов, на что рассчитаны все алгоритмы с начала эры программирования.. Расширю утверждение. Префиксное кодирование нарушает преставление сжатого потока в виде массива байтов. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 07:49 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Ваши страдания не соответствуют реалиям жизни: Код: plaintext 1. 2. 3. 4. 5.
... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 08:30 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Basil A. SidorovВаши страдания не соответствуют реалиям жизни: Код: plaintext 1. 2. 3. 4. 5.
С жатым понятно почему разница небольшая, но поднят вопрос не только передачи, но и произвольного доступа, т.е. разговор о не сжатом. +82% потому что кроме букв есть еще пробелы, переводы строк, знаки препинания и т.д., которые однобайтовые в UTF-8. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 09:14 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewС какой стати мы должны платить увеличением объема строк в два раза из-за китайцев, у которых ущербная письменность. Тогда как русский алфавит прекрасно умещается в один байт. Китайцам кстати это не особо помогло, т.к. в двух байтах 65536 значений, а в юникоде уже более миллиона символов, т.е. в двухбайтовый UTF-16 все не влезут и некоторые символы занимают по два двубайта. Думаю исторически начиналось с объединения европейских языков: немецкий, испанский, итальянский и т.д. Тут два байта на символ с избытком хватает. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 09:31 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
В стандартах юникода - не только языки. Там технические символы для различных направлений в науке. В медиа. В исскусстве. Кроме того стандарт определяет символов больше чем 65536. То что мы здесь обсуждаем это подмножество т.к. нулевой плоскости 0-Plane. Кроме того в стандарте существуют белые пятна. И ЕМНИП некоторые диапазоны все еще находятся в состоянии беты. Тоесть диапазон есть и используется но комитет чего-то там правит. Впрочем пруфы по последнему я пока не могу найти. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 09:40 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Dima Tподнят вопрос не только передачи, но и произвольного доступаВы не можете использовать произвольный доступ при любой кодировке юникода. Просто потому, что составные символы - реально существуют. Даже в (современном) русском алфавите - два составных символа. Это если не брать в расчёт братьев славян. P.S. Насколько я знаю, люди вполне успешно векторизуют (SSE2 и все дела) алгоритмы, работающие с UTF-8. Несмотря на всю её "разноширинность". Поэтому моя личная кочка зрения предельно проста: любители оптимизировать должны оставить это занятие профессионалам. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 09:53 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Basil A. SidorovDima Tподнят вопрос не только передачи, но и произвольного доступаВы не можете использовать произвольный доступ при любой кодировке юникода. Просто потому, что составные символы - реально существуют. Использование юникода не ограничивается текстовыми файлами. Пусть это будет таблица БД с текстовыми полями. Basil A. SidorovПоэтому моя личная кочка зрения предельно проста: любители оптимизировать должны оставить это занятие профессионалам. Мне тоже пофиг на кодировку. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 10:07 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Dima TИспользование юникода не ограничивается текстовыми файлами. Пусть это будет таблица БД с текстовыми полями.Какая разница, в какой контейнер упакован текст? Составные символы от этого никуда не исчезают. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 10:11 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Basil A. SidorovDima TИспользование юникода не ограничивается текстовыми файлами. Пусть это будет таблица БД с текстовыми полями.Какая разница, в какой контейнер упакован текст? Составные символы от этого никуда не исчезают. Я писал про неуместность сравнения в пожатом виде 21684963 ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 10:15 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Dima TЯ писал про неуместность сравнения в пожатом виде 21684963 А я отмечал неуместность нытья про "нарушение представления". ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 10:27 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Вот интересный кусочек OpenJDK кода. (Это из транка. Но не оригинального меркурия а зеркала что на гитхабе). Sorry много букв под катом. Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29.
Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42.
... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 12:35 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Вот в смежном топике по сям идет борьба с сабжем. Я имею в виду с кодировками. http://www.sql.ru/forum/1303003/preobrazovanie-wstring-v-char-v-embedded-c ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 14:20 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
не соответствуют реалиям жизни: 2326241 ГК РФ CP1251.txt 4231334 ГК РФ UTF-8.txt +82% То есть +82% это не соответствие реалиям. {censored} Вы предлагаете в zip сжимать и в полях БД, и в памяти программы и каждый раз их разархивировать. Так что ли? Да лучше "сжать" в Cp1251 и так и использовать. Модератор: Просьба не переходить на личности ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 16:59 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewТо есть +82% это не соответствие реалиям"Некоторые вещи нам непонятны не потому, что наши понятия слабы, а потому, что вещи сии не входят в круг наших понятий". P.S. "вам триста лет, вы выползли из тьмы". ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 17:08 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene New, мне кажется что внедрение utf-8 это примерно то-же самое что и ДВС после паровой машины. Это не решение одного человека или корпорации. Это некая синергия которая сама решила что использование utf-8 скорее выгодно чем невыгодно для современного ПО. Тоесть это общественное коллегиальное решение. Комитет прсто пишет голимые бумажки. Он не внедряет utf-8. Мы сами внедряем основываясь на своем опыте и на оглядке вокруг. Если у тебя есть какие-то принципиальные доводы класса "невозможно" - то огласи их и поясни почему невозможно. Если ты видишь какие-то performance-issues в будущем - то предоставь нам свои числовые оценки. Насколько нас аффектит? 1% ? 10 ? или половина? Где вообще ты детектируешь проблему? В какой части API? Я солидарен с Василием на тему того что все конвертеры кодировок уже давно завернуты в ассемблер и закодены как интринзики. Вобщем обрисуй нам весь ужас ситуации как ты это видишь. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 17:08 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Все в мире глобализуется. Например попробуй залить на github исходник с камментами в 1251 - они будут нечитабельные, в utf-8 все будет по-русски. utf-8 единая кодировка для всех языков. Не надо заморачиваться принудительным задаванием кодовой страницы прежде чем вывести текст. Да, мы привыкли к этому костылю, но это костыль. Например в C/C++ Код: plaintext 1.
выдаст кракозябры, т.к. исходники в 1251 а вывод в 866. Тоже привет из прошлого. В C# Код: c# 1.
выдаст "Привет!", т.к. utf-8 однозначно идентифицирует символы. PS Копипаст русского текста в виндовсе из не юникодных приложений это отдельная боль ((( ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 17:32 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Dima TВсе в мире глобализуется. Например попробуй залить на github исходник с камментами в 1251 - они будут нечитабельные, в utf-8 все будет по-русски. utf-8 единая кодировка для всех языков. Не надо заморачиваться принудительным задаванием кодовой страницы прежде чем вывести текст. Да, мы привыкли к этому костылю, но это костыль. Например в C/C++ Код: plaintext 1.
выдаст кракозябры, т.к. исходники в 1251 а вывод в 866. Тоже привет из прошлого. В C# Код: c# 1.
выдаст "Привет!", т.к. utf-8 однозначно идентифицирует символы. PS Копипаст русского текста в виндовсе из не юникодных приложений это отдельная боль ((( буквально неделю назад, меня попросил помочь коллега, проблема была в том, что после чтения файла и записи в другой файл, часть строки в 1 поле обрезается, так как длина полей фиксированная. проблема была в том, что в исходном файле был символ из ANSI1251, а читали и писали файл ив UTF8. В результате этот символ после чтения\записи превращался в 2байтный и строка получала сдвиг. Как раз, такая ситуация, как описал автор данной темы, молодежь уже просто не парится и не думает о том, какая кодировка у исходного файла. Зафигачили UTF8 и всё работало уже лет 5 без проблем, пока символ вот такой не залетел. На вопрос о том, какая исходная кодировка файла, никто ответить не может, в итоге я предложил ANSI-1252 как наиболее подходящую. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 18:43 |
|
|
start [/forum/topic.php?fid=16&fpage=10&tid=1339969]: |
0ms |
get settings: |
10ms |
get forum list: |
15ms |
check forum access: |
5ms |
check topic access: |
5ms |
track hit: |
51ms |
get topic data: |
14ms |
get forum data: |
3ms |
get page messages: |
75ms |
get tp. blocked users: |
2ms |
others: | 12ms |
total: | 192ms |
0 / 0 |