Юникод и utf8 / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Юникод и utf8

25 сообщений из 172, страница 2 из 7

все

Юникод и utf8

#39707990

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Roman Mejtesв итоге я предложил ANSI-1252 как наиболее подходящую.
Да уж ... ничего что 1252 это дефолтная кодировка английского виндовса? Там нет русских букв.

...

Рейтинг:

0 / 0

25.09.2018, 20:51:19

| Ответить | Цитировать | Написать

Юникод и utf8

#39707997

Roman Mejtes

Участник

Откуда: г. Пермь

Сообщения: 4 264

Рейтинг: 0 / 0

Dima TRoman Mejtesв итоге я предложил ANSI-1252 как наиболее подходящую.
Да уж ... ничего что 1252 это дефолтная кодировка английского виндовса? Там нет русских букв.
там и не должно быть русских букв, я ошибся в начале сообщения, 1251 написал, по факту 1252. я не делаю русский софт :(

...

Рейтинг:

0 / 0

25.09.2018, 21:10:18

| Ответить | Цитировать | Написать

Юникод и utf8

#39708048

Eugene New

Участник

Сообщения: 277

Рейтинг: 0 / 0

Все в мире глобализуется.

Мне не нравится глобализация не в мою пользу.

Например попробуй залить на github исходник с камментами в 1251

Зачем это делать - тема для отдельного обсуждения. В смысле заливать свои исходники на гитхаб. Это же абсурдное действие, полностью против здравого смысла!

mayton,
мне кажется что внедрение utf-8 это примерно то-же самое что и ДВС после паровой машины.

У ДВС были преимущества, а у utf-8 их не видно.

Тоесть это общественное коллегиальное решение.
Было бы наивным так думать. Знаете что такое общественное решение? Это решение на выборах и решение представителей народа - депутатов или сенаторов. И все.
Все остальное - обман и манипуляция.

Если у тебя есть какие-то принципиальные доводы класса "невозможно"
У меня доводы класса невыгодно и нет смысла.

"вам триста лет, вы выползли из тьмы".
Мы люди света)

"Некоторые вещи нам непонятны не потому, что наши понятия слабы, а потому, что вещи сии не входят в круг наших понятий".

Мне эта вещь понятна, но я вижу от нее один вред для себя. Она выгодна только англосаксам, да и то не всем. Культурная агрессия в масштабах земного шара. Ценой дополнительных ресурсов и проблем у тех, против кого она направлена. Русским со своим национальным алфавитом она особенно невыгодна.

...

Рейтинг:

0 / 0

25.09.2018, 23:38:02

| Ответить | Цитировать | Написать

Юникод и utf8

#39708075

Andy_OLAP

Участник

Откуда: я знаю, что Хапоэль Беэр-Шева - чемпион

Сообщения: 2 080

Рейтинг: 0 / 0

Eugene NewВсе в мире глобализуется.
Мне не нравится глобализация не в мою пользу.

Можете написать письмо с протестом в адрес Джорджа или Генри, сыновей Генри Кэбота Лоджа-младшего (который умер в 1985-м), это венецианская семья Каботи, которая является первой по рангу семьей среди американской аристократии, они уже не первое тысячелетие в рамках человечества отвечают за вопросы глобализации. Барухам Вы все равно написать письмо не сможете, да и сомневаюсь, что после Бернарда Маннеса они продолжают напрямую заниматься этими проблемами :)
И я таки не удивлюсь, если они решат прочитать Ваше письмо и прислушаться к Вашему мнению. Возможно, даже позволят отменить использование utf-8 для русскоязычных проектов. Но затевая протест против решений, принятых мудрыми людьми, Вы принимаете на себя определенные риски. Решайте сами, я бы на Вашем месте не стал этого делать.

...

Рейтинг:

0 / 0

26.09.2018, 01:28:31

| Ответить | Цитировать | Написать

Юникод и utf8

#39708130

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Eugene NewНапример попробуй залить на github исходник с камментами в 1251

Зачем это делать - тема для отдельного обсуждения. В смысле заливать свои исходники на гитхаб. Это же абсурдное действие, полностью против здравого смысла!
Тогда написать отзыв на алиэкспрессе. В общем я к тому что без юникода невозможно сделать сайт, где может быть написано одновременно на всех языках.

PS Как уже неоднократно было сказано: никто не заставляет использовать юникод.

...

Рейтинг:

0 / 0

26.09.2018, 07:29:54

| Ответить | Цитировать | Написать

Юникод и utf8

#39708241

Ы2

Участник

Сообщения: 233

Рейтинг: 0 / 0

Eugene New…русский алфавит прекрасно умещается в один байт.
Да, русский умещается. Пара русский+английский — тоже. Но русский+немецкий — уже нет: так уж устроены стандартные однобайтовые кодировки. Я, например, работаю одновременно с английским и четырьмя языками, использующими кириллический алфавит: русским и тремя миноритарными. Для меня Unicode и utf-8 это единая кодировка в базе данных, один шрифт для интерфейса, единый набор функций для работы с текстом.

...

Рейтинг:

0 / 0

26.09.2018, 10:40:47

| Ответить | Цитировать | Написать

Юникод и utf8

#39708286

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Eugene NewМне эта вещь понятна, но я вижу от нее один вред для себя. Она выгодна только англосаксам, да и то не всем. Культурная агрессия в масштабах земного шара. Ценой дополнительных ресурсов и проблем у тех, против кого она направлена. Русским со своим национальным алфавитом она особенно невыгодна.
Знаете. Я тоже не люблю англичан. Считаю их надутыми индюками которые гордятся своими элитами. И по прежнему
хотят завоевать мир. Но в вашем тезисе я читаю опасный месседж нацеленный на изоляционизм.

Все успехи науки и техники 20-го 21-го веков это совместные усилия российских, европейских, и американских ученых.
Вы просто вслух про себя перечислите их фамилии и понимание придет.

Современный словарь русского языка наполовину состоит из слов заимствованых изнемецкого, английского, итальянского,
французского и прочих языков европы. Пётр Первый ездил учится в Европу. Благодаря ему облик страны резко преобразился.
Появились университеты. Стали двигаться науки. Дети дворян царской России ездили учится в университеты Франции. Это дало
толчок развитию.

Если вы почитаете первые главы "Войны и Мира" - там идут диалоги на трех языках. Да. Роман Льва Толстого не укладывается
в win-1251. Не хватает буковок чтоб передать писательское видение.

Профессор Хокинг писал что для освоения космоса не хватит усилий одной страны. Нужны будут совместные
разработки всей планеты земля.

Поэтому кодировку utf-8 я считаю полезной. Международной. И способствующей коллаборации и коммуникациям.

А обособленность и эдакое желание "пересидеть" я считаю контр-продуктивным и не способтвующим развитию
It и прочих наук в целом.

И вы - развивайтесь. Не сидите в СНГ-шных проектах. В мире полно интересного.

...

Рейтинг:

0 / 0

26.09.2018, 11:14:52

| Ответить | Цитировать | Написать

Юникод и utf8

#39708428

exp98

Участник

Сообщения: 2 390

Рейтинг: 0 / 0

Eugene New, вот кстати да, изоляционизм - удачное слово.
Из недстатков тоже уже вскользь сказали про зоопарк имеющихся текстов, когда уже не задумываются в какой кодировке дадут текст на обработку, что приводит иногда к затыкам.

Но (обсуждали уже в русском языке программирования) это сложилось исторически. Когда в 50-х ещё стандартизировали единый язык прогр-я Алгол, вопрос кодировок обсуждался. И да, "вошли в положение США", опередивших всех, и вложившихся уже в фортран. И нежелавших терять эти инвестиции.
Если б тогда европа + СССР сумели настоять, то сегодня м.б. никто и не начал такую тему. Но победителей не судят (план Маршалла помним).

Eugene, м.б. Ваши дети будут уже жить при утф и не париться про равномерный доступ к массиву. Просто не надо его использовать
после UnicodeString s;

...

Рейтинг:

0 / 0

26.09.2018, 13:47:38

| Ответить | Цитировать | Написать

Юникод и utf8

#39708446

Eugene New

Участник

Сообщения: 277

Рейтинг: 0 / 0

mayton,
были желающие в 17 веке перевести все на латиницу. Но люди кириллицу отстояли. Те самые люди, которые прекрасно говорили на трех языках. Это было правильно решение.

Английский язык сам почти полностью состоит из заимствований - там почти нет родных кельтских слов. По сути это дикая смесь языков оккупантов с искаженным до неузнаваемости произношением. Поэтому для англичан языковой вопрос такой больной. Натерпелись. Ничего, как то сумели после этого на ноги встать.

немецкий алфавит не помещается вместе с русским

С чего бы это ему не помещаться? Латинский алфавит + 3 умлаута + 1 лигатура.

...

Рейтинг:

0 / 0

26.09.2018, 13:58:42

| Ответить | Цитировать | Написать

Юникод и utf8

#39708464

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Eugene Newmayton,
были желающие в 17 веке перевести все на латиницу. Но люди кириллицу отстояли. Те самые люди, которые прекрасно говорили на трех языках. Это было правильно решение.

Английский язык сам почти полностью состоит из заимствований - там почти нет родных кельтских слов. По сути это дикая смесь языков оккупантов с искаженным до неузнаваемости произношением. Поэтому для англичан языковой вопрос такой больной. Натерпелись. Ничего, как то сумели после этого на ноги встать.
Окей. Я понял вашу политическую позицию. И уважаю.

Но к теме внедрения utf-8 она имеет мало отношения. Скорее даже наоборот. Можно русскоязычные
проекты внедрять в веб легче чем win-1251. А с однобайтными - куча головняка. Вспомните cp866
из эпохи DOS. Вспомните koi-8 который любили Фидошники. Они так подпортили нервы... До сих
пор можно находить сайты Васей Пупкиных которые нет-нет да и запилят что-то specific.

...

Рейтинг:

0 / 0

26.09.2018, 14:11:18

| Ответить | Цитировать | Написать

Юникод и utf8

#39708478

Ы2

Участник

Сообщения: 233

Рейтинг: 0 / 0

Eugene Newнемецкий алфавит не помещается вместе с русским
С чего бы это ему не помещаться? Латинский алфавит + 3 умлаута + 1 лигатура.
С того, что кириллица и основная латиница в 1251, а три умлаута и лигатура — в 1252. Конечно, можно все запихать в домодельную однобайтовую кодировку. Именно так и поступали в середине 90-х, пока не пришел Unicode: лепили странные шрифты из воды и дерьма, пересылали с каждым документом…
Если вам нужен только русский язык — используйте, что хотите. Я же предпочту Unicode, поскольку помню ту самую середину 90-х и мучения из-за того, что все нужные одновременно символы просто не помещались в кодовую таблицу на 256 ячеек. В Word-е с этим еще хоть как-то можно было бороться мириться, за его пределами же начинался полный мрак.

...

Рейтинг:

0 / 0

26.09.2018, 14:22:30

| Ответить | Цитировать | Написать

Юникод и utf8

#39708481

Ы2

Участник

Сообщения: 233

Рейтинг: 0 / 0

Eugene NewАнглийский язык сам почти полностью состоит из заимствований - там почти нет родных кельтских слов.
Поправка: кельтские слова в английском как раз-таки — заимствования, это германский язык.

...

Рейтинг:

0 / 0

26.09.2018, 14:25:09

| Ответить | Цитировать | Написать

Юникод и utf8

#39708520

OoCc

Участник

Откуда: с Кавказа

Сообщения: 2 210

Рейтинг: 0 / 0

Ы2Eugene NewАнглийский язык сам почти полностью состоит из заимствований - там почти нет родных кельтских слов.
Поправка: кельтские слова в английском как раз-таки — заимствования, это германский язык.
Уточню Английский - это германский, А келтики это группа языков никак с английским не связана.

...

Рейтинг:

0 / 0

26.09.2018, 15:06:07

| Ответить | Цитировать | Написать

Юникод и utf8

#39708551

booby

Участник

Сообщения: 2 667

Рейтинг: 1 / 0

mayton,

mayton,Если ты видишь какие-то performance-issues в будущем - то предоставь нам свои числовые оценки.
Насколько нас аффектит?

Технически - это вопрос об устройстве библиотечного API.
Их много было, и, несомненно еще будет.
Вероятно, твоя личная практика программиста в конкретный момент привязана к конкретному API,
по отношению к которому у тебя сформирована система ожиданий.
Предположим такие исходные:
- пишешь ты на Java.
- у тебя лично , а не вообще в мире, тонны кода, связанного с обработкой строк.
- этот код критичен - часть твоей собственной, специфической к предмету, утилитарной библиотеки специальных
алгоритмов обработки строк.
- и весь этот код базируется на ожидаемой гарантии того, что String.CharAt(i) работает с твоим кодом
за константное время, не зависящее от i.
(Предположим, что, сознательно или нет, ты заложился именно на это)

вопрос - что происходит с производительностью твоей, с годами и любовью выписанной библиотеки,
eсли происходит такой переход во внутреннем представлении строки на utf-8, который теряет гарантию константы для charAt(i),
и заменяет её на линейное от i время?

Это тоже гарантия, просто немного другая.
Сколько тонн кода после это ты признаешь как пригодное к переписыванию, и в скольких местах ты посчитаешь, что всё пропало?.
Сохранить такую гарантию - значить увелчить размер хранящего символ элемента.
Так и было сделано с самого начала в виде почти всегда заведомо излишнего двухбайтного представления.
Но двух байт теперь не хватает, надо шесть.
Правильное здесь решение - просто взять и увеличить размер char до 8-байтного целого?

Какую-то попытку ответа на это и пытаются давать в виде сжатого представления строки в новой java.
Но. а) это еще не завершенная реализация б) вопрос, заданный Eugene New она оивечает "неправильно",
и в этом есть своя правда - иначе любая конкатенация потенциально означает encoding,
но все со сваливанием в конце концов к "универсальному" представлению.
Универсальные строки строки плохо стыкуются гарантиями константного доступа к символа, только в обмен на расход памяти.

PS
Где-то в закромах ораклового публичного сайта валяется white paper от 2003 года, специфически строковым performance issues посвященная.
Efficient Use of pl/sql String functions for Unicode Applications
посмотри при случае, если не видел.

...

Рейтинг:

0 / 0

26.09.2018, 15:32:19

| Ответить | Цитировать | Написать

Юникод и utf8

#39708576

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

booby
- пишешь ты на Java.

Да.

booby - у тебя лично , а не вообще в мире, тонны кода, связанного с обработкой строк.
- этот код критичен - часть твоей собственной, специфической к предмету, утилитарной библиотеки специальных
алгоритмов обработки строк.
- и весь этот код базируется на ожидаемой гарантии того, что String.CharAt(i) работает с твоим кодом
за константное время, не зависящее от i.
(Предположим, что, сознательно или нет, ты заложился именно на это)

В настоящий момент (работаем с семёркой и восьмеркой в PROD) мы используем канонический String в котором
есть двух-байтное представление (char[]) строк. Поинт экономии будет решатся КМК в будущих версиях (11)
за счет опционального использования Latin. Англосаксы - Latin. Все что смешанное - UTF-16.

Поэтому я не предвижу проблем с String.CharAt(i).

Весь потоковый ввод... связанный с сериализацией. Сохранением файлов. С транспортными форматами и протоколами
мы давно перевели на utf-8 и это давно работает. Каких-либо perofmance issues связанных с этими процессами я не помню.

Если где-то в потоковом вводе-выводе мне понадобится String.CharAt(i) то это по определению не потоковый ввод
вывод и надо что-то думать на архитектурном уровне.

...

Рейтинг:

0 / 0

26.09.2018, 15:54:51

| Ответить | Цитировать | Написать

Юникод и utf8

#39708580

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

boobyНо двух байт теперь не хватает, надо шесть.
Правильное здесь решение - просто взять и увеличить размер char до 8-байтного целого?

Давайте остановимся на четырех.

...

Рейтинг:

0 / 0

26.09.2018, 15:58:58

| Ответить | Цитировать | Написать

Юникод и utf8

#39708582

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

boobyКакую-то попытку ответа на это и пытаются давать в виде сжатого представления строки в новой java.
Но. а) это еще не завершенная реализация б) вопрос, заданный Eugene New она оивечает "неправильно",
и в этом есть своя правда - иначе любая конкатенация потенциально означает encoding,
но все со сваливанием в конце концов к "универсальному" представлению.
Универсальные строки строки плохо стыкуются гарантиями константного доступа к символа, только в обмен на расход памяти.

Конкатенация строк - в принципе самая плохая операция что только существует. И лучше ее не делать.
Здесь вобщем-то безразлично какие кодировки. Асимптоматика враг.

Про константное время я вроде ответил выше.

...

Рейтинг:

0 / 0

26.09.2018, 16:01:54

| Ответить | Цитировать | Написать

Юникод и utf8

#39708583

OoCc

Участник

Откуда: с Кавказа

Сообщения: 2 210

Рейтинг: 0 / 0

booby,

Обработка текста основанная на индексом доступе? Можно пример?

...

Рейтинг:

0 / 0

26.09.2018, 16:02:07

| Ответить | Цитировать | Написать

Юникод и utf8

#39708585

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

boobyPS
Где-то в закромах ораклового публичного сайта валяется white paper от 2003 года, специфически строковым performance issues посвященная.
Efficient Use of pl/sql String functions for Unicode Applications
посмотри при случае, если не видел.
ОК. Спасибо. Почитаю.

...

Рейтинг:

0 / 0

26.09.2018, 16:02:25

| Ответить | Цитировать | Написать

Юникод и utf8

#39708590

booby

Участник

Сообщения: 2 667

Рейтинг: 1 / 0

OoCcbooby,

Обработка текста основанная на индексом доступе? Можно пример?
любая функция выделения подстроки с пятого по двадцатый символ, там где она может быть построена на индексном доступе против случая, когда не может.

...

Рейтинг:

0 / 0

26.09.2018, 16:08:53

| Ответить | Цитировать | Написать

Юникод и utf8

#39708599

WebSharper

Участник

Сообщения: 304

Рейтинг: 0 / 0

Eugene NewЭта штука реально бесит. С какой стати мы должны платить увеличением объема строк в два раза из-за китайцев, у которых ущербная письменность. Тогда как русский алфавит прекрасно умещается в один байт.

Русский алфавит не нужен - все нормальные цивилизованные люди давно перешли на латиницу!

7 бит хватит всем.

...

Рейтинг:

0 / 0

26.09.2018, 16:17:49

| Ответить | Цитировать | Написать

Юникод и utf8

#39708609

booby

Участник

Сообщения: 2 667

Рейтинг: 1 / 0

mayton,
о конкатенации речь не шла вообще.
и она не плохая и не хорошая. Просто операция на строках.
Очень замечтательно хорошая при разумном использовании.

Вот дают тебе задачу (искусственную, но какая вспомнилась) - написать функцию,
которая должна сформировать строку, имеющую смысл буфера.
Использоваться она будет в самом-самом вложенном цикле и её производительность критична.
тебе на вход отдают приемник, размер его не известен, но приемник гарантирует, что
выбросит ошибку, если буфер в него не поместится.
Возможности спросить у приемника - какого размера строку ты сможешь принять нет.

Конкатенацией можно написать такую функцию, которая всю систему превратит в неработоспособную.
А можно ей же сделать так, что время формирования результата будет технически неотличимо от случая с заранее известным размером.
Сама по себе конкатенация - "ни в чем не виноватая"

Плохая конкатенация, это как плохое сложение числе.
Рано или поздно, в конкретном железе, оно становится "слишком дорогим".

...

Рейтинг:

0 / 0

26.09.2018, 16:22:59

| Ответить | Цитировать | Написать

Юникод и utf8

#39708636

OoCc

Участник

Откуда: с Кавказа

Сообщения: 2 210

Рейтинг: 0 / 0

boobyOoCcbooby,

Обработка текста основанная на индексом доступе? Можно пример?
любая функция выделения подстроки с пятого по двадцатый символ, там где она может быть построена на индексном доступе против случая, когда не может.
Понятно. Например распарсить ЮРЛ ?

...

Рейтинг:

0 / 0

26.09.2018, 16:40:53

| Ответить | Цитировать | Написать

Юникод и utf8

#39708644

Basil A. Sidorov

Участник

Сообщения: 11 633

Рейтинг: 0 / 0

maytonЗнаете ...Зачем так много букав?
Классик русской литературы в классическом же четырёхтомнике пишет целые абзацы на французком языке.
Дети, опять-же ...
Не знаю, как сейчас, но раньше, в литературе для детей младшего школьного возраста, принято было расставлять ударения, чтобы ребёнок, которому объяснили в школе, что "эта чёрточка на гласной буквой обозначает ударный слог", мог запоминать правильное произношение (пока) незнакомых слов, просто читая книги.

Уникод решает эти и многие другие проблемы в "плоском" тексте, не требуя изобретать форматы и протоколы.
Из многих возможных кодировок юникода UTF-8 обеспечивает и обратную совместимость с C-API и возможность постепенной миграции.

Всего этого вполне достаточно, чтобы или не обращать внимания на странных экстремистов или просто забанить не вполне адекватного человека.

...

Рейтинг:

0 / 0

26.09.2018, 16:49:53

| Ответить | Цитировать | Написать

Юникод и utf8

#39708648

booby

Участник

Сообщения: 2 667

Рейтинг: 1 / 0

OoCc,

я не понимаю что ты хочешь сказать.
Что все алгоритмы на строках по своему смыслу потоковые?
Предположим, что ты прав в космическом смысле и в мировом масштабе.

Я всего лишь сказал, что достаточно существует кода в языках имярек,
относящихся к строке, если даже не прямо как к массиву, то основывающих свои суждения
об общей производительности алгоритма на предположении о константой стоимости доступа к символу, каково бы ни было внутреннее представление строки.

Существенно это или нет, и может ли алгоритм быть легко переформулирован
для сохранения своего класса времени работы в O-оценках - это всякий раз
специальный по отношению к алгоритму разговор.
mayton, вот не рискнул, с разбегу, от гарантий на время работы charAt отказаться.

И, допустимо считать, что в случае с твоим кодом, этот момент целиком не имеет значения.

...

Рейтинг:

0 / 0

26.09.2018, 16:55:35

| Ответить | Цитировать | Написать

25 сообщений из 172, страница 2 из 7

все

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Юникод и utf8

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&startmsg=39707990&tid=1339969]:	0ms
get settings:	8ms
get forum list:	10ms
check forum access:	2ms
check topic access:	2ms
track hit:	17ms
get topic data:	7ms
get forum data:	2ms
get page messages:	37ms
get tp. blocked users:	1ms
others:	227ms

total:	313ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы