powered by simpleCommunicator - 2.0.50     © 2025 Programmizd 02
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Юникод и utf8
25 сообщений из 172, страница 2 из 7
Юникод и utf8
    #39707990
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Roman Mejtesв итоге я предложил ANSI-1252 как наиболее подходящую.
Да уж ... ничего что 1252 это дефолтная кодировка английского виндовса? Там нет русских букв.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39707997
Roman Mejtes
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dima TRoman Mejtesв итоге я предложил ANSI-1252 как наиболее подходящую.
Да уж ... ничего что 1252 это дефолтная кодировка английского виндовса? Там нет русских букв.
там и не должно быть русских букв, я ошибся в начале сообщения, 1251 написал, по факту 1252. я не делаю русский софт :(
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708048
Eugene New
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Все в мире глобализуется.

Мне не нравится глобализация не в мою пользу.

Например попробуй залить на github исходник с камментами в 1251

Зачем это делать - тема для отдельного обсуждения. В смысле заливать свои исходники на гитхаб. Это же абсурдное действие, полностью против здравого смысла!

mayton,
мне кажется что внедрение utf-8 это примерно то-же самое что и ДВС после паровой машины.

У ДВС были преимущества, а у utf-8 их не видно.

Тоесть это общественное коллегиальное решение.
Было бы наивным так думать. Знаете что такое общественное решение? Это решение на выборах и решение представителей народа - депутатов или сенаторов. И все.
Все остальное - обман и манипуляция.

Если у тебя есть какие-то принципиальные доводы класса "невозможно"
У меня доводы класса невыгодно и нет смысла.

"вам триста лет, вы выползли из тьмы".
Мы люди света)

"Некоторые вещи нам непонятны не потому, что наши понятия слабы, а потому, что вещи сии не входят в круг наших понятий".

Мне эта вещь понятна, но я вижу от нее один вред для себя. Она выгодна только англосаксам, да и то не всем. Культурная агрессия в масштабах земного шара. Ценой дополнительных ресурсов и проблем у тех, против кого она направлена. Русским со своим национальным алфавитом она особенно невыгодна.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708075
Andy_OLAP
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene NewВсе в мире глобализуется.
Мне не нравится глобализация не в мою пользу.

Можете написать письмо с протестом в адрес Джорджа или Генри, сыновей Генри Кэбота Лоджа-младшего (который умер в 1985-м), это венецианская семья Каботи, которая является первой по рангу семьей среди американской аристократии, они уже не первое тысячелетие в рамках человечества отвечают за вопросы глобализации. Барухам Вы все равно написать письмо не сможете, да и сомневаюсь, что после Бернарда Маннеса они продолжают напрямую заниматься этими проблемами :)
И я таки не удивлюсь, если они решат прочитать Ваше письмо и прислушаться к Вашему мнению. Возможно, даже позволят отменить использование utf-8 для русскоязычных проектов. Но затевая протест против решений, принятых мудрыми людьми, Вы принимаете на себя определенные риски. Решайте сами, я бы на Вашем месте не стал этого делать.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708130
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene NewНапример попробуй залить на github исходник с камментами в 1251

Зачем это делать - тема для отдельного обсуждения. В смысле заливать свои исходники на гитхаб. Это же абсурдное действие, полностью против здравого смысла!
Тогда написать отзыв на алиэкспрессе. В общем я к тому что без юникода невозможно сделать сайт, где может быть написано одновременно на всех языках.

PS Как уже неоднократно было сказано: никто не заставляет использовать юникод.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708241
Ы2
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene New…русский алфавит прекрасно умещается в один байт.
Да, русский умещается. Пара русский+английский — тоже. Но русский+немецкий — уже нет: так уж устроены стандартные однобайтовые кодировки. Я, например, работаю одновременно с английским и четырьмя языками, использующими кириллический алфавит: русским и тремя миноритарными. Для меня Unicode и utf-8 это единая кодировка в базе данных, один шрифт для интерфейса, единый набор функций для работы с текстом.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708286
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene NewМне эта вещь понятна, но я вижу от нее один вред для себя. Она выгодна только англосаксам, да и то не всем. Культурная агрессия в масштабах земного шара. Ценой дополнительных ресурсов и проблем у тех, против кого она направлена. Русским со своим национальным алфавитом она особенно невыгодна.
Знаете. Я тоже не люблю англичан. Считаю их надутыми индюками которые гордятся своими элитами. И по прежнему
хотят завоевать мир. Но в вашем тезисе я читаю опасный месседж нацеленный на изоляционизм.

Все успехи науки и техники 20-го 21-го веков это совместные усилия российских, европейских, и американских ученых.
Вы просто вслух про себя перечислите их фамилии и понимание придет.

Современный словарь русского языка наполовину состоит из слов заимствованых изнемецкого, английского, итальянского,
французского и прочих языков европы. Пётр Первый ездил учится в Европу. Благодаря ему облик страны резко преобразился.
Появились университеты. Стали двигаться науки. Дети дворян царской России ездили учится в университеты Франции. Это дало
толчок развитию.

Если вы почитаете первые главы "Войны и Мира" - там идут диалоги на трех языках. Да. Роман Льва Толстого не укладывается
в win-1251. Не хватает буковок чтоб передать писательское видение.

Профессор Хокинг писал что для освоения космоса не хватит усилий одной страны. Нужны будут совместные
разработки всей планеты земля.

Поэтому кодировку utf-8 я считаю полезной. Международной. И способствующей коллаборации и коммуникациям.

А обособленность и эдакое желание "пересидеть" я считаю контр-продуктивным и не способтвующим развитию
It и прочих наук в целом.

И вы - развивайтесь. Не сидите в СНГ-шных проектах. В мире полно интересного.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708428
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene New, вот кстати да, изоляционизм - удачное слово.
Из недстатков тоже уже вскользь сказали про зоопарк имеющихся текстов, когда уже не задумываются в какой кодировке дадут текст на обработку, что приводит иногда к затыкам.

Но (обсуждали уже в русском языке программирования) это сложилось исторически. Когда в 50-х ещё стандартизировали единый язык прогр-я Алгол, вопрос кодировок обсуждался. И да, "вошли в положение США", опередивших всех, и вложившихся уже в фортран. И нежелавших терять эти инвестиции.
Если б тогда европа + СССР сумели настоять, то сегодня м.б. никто и не начал такую тему. Но победителей не судят (план Маршалла помним).

Eugene, м.б. Ваши дети будут уже жить при утф и не париться про равномерный доступ к массиву. Просто не надо его использовать
после UnicodeString s;
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708446
Eugene New
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,
были желающие в 17 веке перевести все на латиницу. Но люди кириллицу отстояли. Те самые люди, которые прекрасно говорили на трех языках. Это было правильно решение.

Английский язык сам почти полностью состоит из заимствований - там почти нет родных кельтских слов. По сути это дикая смесь языков оккупантов с искаженным до неузнаваемости произношением. Поэтому для англичан языковой вопрос такой больной. Натерпелись. Ничего, как то сумели после этого на ноги встать.

немецкий алфавит не помещается вместе с русским

С чего бы это ему не помещаться? Латинский алфавит + 3 умлаута + 1 лигатура.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708464
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene Newmayton,
были желающие в 17 веке перевести все на латиницу. Но люди кириллицу отстояли. Те самые люди, которые прекрасно говорили на трех языках. Это было правильно решение.

Английский язык сам почти полностью состоит из заимствований - там почти нет родных кельтских слов. По сути это дикая смесь языков оккупантов с искаженным до неузнаваемости произношением. Поэтому для англичан языковой вопрос такой больной. Натерпелись. Ничего, как то сумели после этого на ноги встать.
Окей. Я понял вашу политическую позицию. И уважаю.

Но к теме внедрения utf-8 она имеет мало отношения. Скорее даже наоборот. Можно русскоязычные
проекты внедрять в веб легче чем win-1251. А с однобайтными - куча головняка. Вспомните cp866
из эпохи DOS. Вспомните koi-8 который любили Фидошники. Они так подпортили нервы... До сих
пор можно находить сайты Васей Пупкиных которые нет-нет да и запилят что-то specific.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708478
Ы2
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene Newнемецкий алфавит не помещается вместе с русским
С чего бы это ему не помещаться? Латинский алфавит + 3 умлаута + 1 лигатура.
С того, что кириллица и основная латиница в 1251, а три умлаута и лигатура — в 1252. Конечно, можно все запихать в домодельную однобайтовую кодировку. Именно так и поступали в середине 90-х, пока не пришел Unicode: лепили странные шрифты из воды и дерьма, пересылали с каждым документом…
Если вам нужен только русский язык — используйте, что хотите. Я же предпочту Unicode, поскольку помню ту самую середину 90-х и мучения из-за того, что все нужные одновременно символы просто не помещались в кодовую таблицу на 256 ячеек. В Word-е с этим еще хоть как-то можно было бороться мириться, за его пределами же начинался полный мрак.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708481
Ы2
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene NewАнглийский язык сам почти полностью состоит из заимствований - там почти нет родных кельтских слов.
Поправка: кельтские слова в английском как раз-таки — заимствования, это германский язык.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708520
Фотография OoCc
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ы2Eugene NewАнглийский язык сам почти полностью состоит из заимствований - там почти нет родных кельтских слов.
Поправка: кельтские слова в английском как раз-таки — заимствования, это германский язык.
Уточню Английский - это германский, А келтики это группа языков никак с английским не связана.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708551
booby
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,

mayton,Если ты видишь какие-то performance-issues в будущем - то предоставь нам свои числовые оценки.
Насколько нас аффектит?

Технически - это вопрос об устройстве библиотечного API.
Их много было, и, несомненно еще будет.
Вероятно, твоя личная практика программиста в конкретный момент привязана к конкретному API,
по отношению к которому у тебя сформирована система ожиданий.
Предположим такие исходные:
- пишешь ты на Java.
- у тебя лично , а не вообще в мире, тонны кода, связанного с обработкой строк.
- этот код критичен - часть твоей собственной, специфической к предмету, утилитарной библиотеки специальных
алгоритмов обработки строк.
- и весь этот код базируется на ожидаемой гарантии того, что String.CharAt(i) работает с твоим кодом
за константное время, не зависящее от i.
(Предположим, что, сознательно или нет, ты заложился именно на это)

вопрос - что происходит с производительностью твоей, с годами и любовью выписанной библиотеки,
eсли происходит такой переход во внутреннем представлении строки на utf-8, который теряет гарантию константы для charAt(i),
и заменяет её на линейное от i время?

Это тоже гарантия, просто немного другая.
Сколько тонн кода после это ты признаешь как пригодное к переписыванию, и в скольких местах ты посчитаешь, что всё пропало?.
Сохранить такую гарантию - значить увелчить размер хранящего символ элемента.
Так и было сделано с самого начала в виде почти всегда заведомо излишнего двухбайтного представления.
Но двух байт теперь не хватает, надо шесть.
Правильное здесь решение - просто взять и увеличить размер char до 8-байтного целого?

Какую-то попытку ответа на это и пытаются давать в виде сжатого представления строки в новой java.
Но. а) это еще не завершенная реализация б) вопрос, заданный Eugene New она оивечает "неправильно",
и в этом есть своя правда - иначе любая конкатенация потенциально означает encoding,
но все со сваливанием в конце концов к "универсальному" представлению.
Универсальные строки строки плохо стыкуются гарантиями константного доступа к символа, только в обмен на расход памяти.

PS
Где-то в закромах ораклового публичного сайта валяется white paper от 2003 года, специфически строковым performance issues посвященная.
Efficient Use of pl/sql String functions for Unicode Applications
посмотри при случае, если не видел.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708576
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
booby
- пишешь ты на Java.

Да.

booby - у тебя лично , а не вообще в мире, тонны кода, связанного с обработкой строк.
- этот код критичен - часть твоей собственной, специфической к предмету, утилитарной библиотеки специальных
алгоритмов обработки строк.
- и весь этот код базируется на ожидаемой гарантии того, что String.CharAt(i) работает с твоим кодом
за константное время, не зависящее от i.
(Предположим, что, сознательно или нет, ты заложился именно на это)

В настоящий момент (работаем с семёркой и восьмеркой в PROD) мы используем канонический String в котором
есть двух-байтное представление (char[]) строк. Поинт экономии будет решатся КМК в будущих версиях (11)
за счет опционального использования Latin. Англосаксы - Latin. Все что смешанное - UTF-16.

Поэтому я не предвижу проблем с String.CharAt(i).

Весь потоковый ввод... связанный с сериализацией. Сохранением файлов. С транспортными форматами и протоколами
мы давно перевели на utf-8 и это давно работает. Каких-либо perofmance issues связанных с этими процессами я не помню.

Если где-то в потоковом вводе-выводе мне понадобится String.CharAt(i) то это по определению не потоковый ввод
вывод и надо что-то думать на архитектурном уровне.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708580
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
boobyНо двух байт теперь не хватает, надо шесть.
Правильное здесь решение - просто взять и увеличить размер char до 8-байтного целого?

Давайте остановимся на четырех.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708582
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
boobyКакую-то попытку ответа на это и пытаются давать в виде сжатого представления строки в новой java.
Но. а) это еще не завершенная реализация б) вопрос, заданный Eugene New она оивечает "неправильно",
и в этом есть своя правда - иначе любая конкатенация потенциально означает encoding,
но все со сваливанием в конце концов к "универсальному" представлению.
Универсальные строки строки плохо стыкуются гарантиями константного доступа к символа, только в обмен на расход памяти.

Конкатенация строк - в принципе самая плохая операция что только существует. И лучше ее не делать.
Здесь вобщем-то безразлично какие кодировки. Асимптоматика враг.

Про константное время я вроде ответил выше.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708583
Фотография OoCc
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
booby,

Обработка текста основанная на индексом доступе? Можно пример?
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708585
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
boobyPS
Где-то в закромах ораклового публичного сайта валяется white paper от 2003 года, специфически строковым performance issues посвященная.
Efficient Use of pl/sql String functions for Unicode Applications
посмотри при случае, если не видел.
ОК. Спасибо. Почитаю.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708590
booby
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
OoCcbooby,

Обработка текста основанная на индексом доступе? Можно пример?
любая функция выделения подстроки с пятого по двадцатый символ, там где она может быть построена на индексном доступе против случая, когда не может.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708599
WebSharper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eugene NewЭта штука реально бесит. С какой стати мы должны платить увеличением объема строк в два раза из-за китайцев, у которых ущербная письменность. Тогда как русский алфавит прекрасно умещается в один байт.


Русский алфавит не нужен - все нормальные цивилизованные люди давно перешли на латиницу!

7 бит хватит всем.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708609
booby
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,
о конкатенации речь не шла вообще.
и она не плохая и не хорошая. Просто операция на строках.
Очень замечтательно хорошая при разумном использовании.

Вот дают тебе задачу (искусственную, но какая вспомнилась) - написать функцию,
которая должна сформировать строку, имеющую смысл буфера.
Использоваться она будет в самом-самом вложенном цикле и её производительность критична.
тебе на вход отдают приемник, размер его не известен, но приемник гарантирует, что
выбросит ошибку, если буфер в него не поместится.
Возможности спросить у приемника - какого размера строку ты сможешь принять нет.

Конкатенацией можно написать такую функцию, которая всю систему превратит в неработоспособную.
А можно ей же сделать так, что время формирования результата будет технически неотличимо от случая с заранее известным размером.
Сама по себе конкатенация - "ни в чем не виноватая"

Плохая конкатенация, это как плохое сложение числе.
Рано или поздно, в конкретном железе, оно становится "слишком дорогим".
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708636
Фотография OoCc
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
boobyOoCcbooby,

Обработка текста основанная на индексом доступе? Можно пример?
любая функция выделения подстроки с пятого по двадцатый символ, там где она может быть построена на индексном доступе против случая, когда не может.
Понятно. Например распарсить ЮРЛ ?
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708644
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonЗнаете ...Зачем так много букав?
Классик русской литературы в классическом же четырёхтомнике пишет целые абзацы на французком языке.
Дети, опять-же ...
Не знаю, как сейчас, но раньше, в литературе для детей младшего школьного возраста, принято было расставлять ударения, чтобы ребёнок, которому объяснили в школе, что "эта чёрточка на гласной буквой обозначает ударный слог", мог запоминать правильное произношение (пока) незнакомых слов, просто читая книги.

Уникод решает эти и многие другие проблемы в "плоском" тексте, не требуя изобретать форматы и протоколы.
Из многих возможных кодировок юникода UTF-8 обеспечивает и обратную совместимость с C-API и возможность постепенной миграции.

Всего этого вполне достаточно, чтобы или не обращать внимания на странных экстремистов или просто забанить не вполне адекватного человека.
...
Рейтинг: 0 / 0
Юникод и utf8
    #39708648
booby
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
OoCc,

я не понимаю что ты хочешь сказать.
Что все алгоритмы на строках по своему смыслу потоковые?
Предположим, что ты прав в космическом смысле и в мировом масштабе.

Я всего лишь сказал, что достаточно существует кода в языках имярек,
относящихся к строке, если даже не прямо как к массиву, то основывающих свои суждения
об общей производительности алгоритма на предположении о константой стоимости доступа к символу, каково бы ни было внутреннее представление строки.

Существенно это или нет, и может ли алгоритм быть легко переформулирован
для сохранения своего класса времени работы в O-оценках - это всякий раз
специальный по отношению к алгоритму разговор.
mayton, вот не рискнул, с разбегу, от гарантий на время работы charAt отказаться.

И, допустимо считать, что в случае с твоим кодом, этот момент целиком не имеет значения.
...
Рейтинг: 0 / 0
25 сообщений из 172, страница 2 из 7
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Юникод и utf8
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]