|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Roman Mejtesв итоге я предложил ANSI-1252 как наиболее подходящую. Да уж ... ничего что 1252 это дефолтная кодировка английского виндовса? Там нет русских букв. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 20:51 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Dima TRoman Mejtesв итоге я предложил ANSI-1252 как наиболее подходящую. Да уж ... ничего что 1252 это дефолтная кодировка английского виндовса? Там нет русских букв. там и не должно быть русских букв, я ошибся в начале сообщения, 1251 написал, по факту 1252. я не делаю русский софт :( ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 21:10 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Все в мире глобализуется. Мне не нравится глобализация не в мою пользу. Например попробуй залить на github исходник с камментами в 1251 Зачем это делать - тема для отдельного обсуждения. В смысле заливать свои исходники на гитхаб. Это же абсурдное действие, полностью против здравого смысла! mayton, мне кажется что внедрение utf-8 это примерно то-же самое что и ДВС после паровой машины. У ДВС были преимущества, а у utf-8 их не видно. Тоесть это общественное коллегиальное решение. Было бы наивным так думать. Знаете что такое общественное решение? Это решение на выборах и решение представителей народа - депутатов или сенаторов. И все. Все остальное - обман и манипуляция. Если у тебя есть какие-то принципиальные доводы класса "невозможно" У меня доводы класса невыгодно и нет смысла. "вам триста лет, вы выползли из тьмы". Мы люди света) "Некоторые вещи нам непонятны не потому, что наши понятия слабы, а потому, что вещи сии не входят в круг наших понятий". Мне эта вещь понятна, но я вижу от нее один вред для себя. Она выгодна только англосаксам, да и то не всем. Культурная агрессия в масштабах земного шара. Ценой дополнительных ресурсов и проблем у тех, против кого она направлена. Русским со своим национальным алфавитом она особенно невыгодна. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.09.2018, 23:38 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewВсе в мире глобализуется. Мне не нравится глобализация не в мою пользу. Можете написать письмо с протестом в адрес Джорджа или Генри, сыновей Генри Кэбота Лоджа-младшего (который умер в 1985-м), это венецианская семья Каботи, которая является первой по рангу семьей среди американской аристократии, они уже не первое тысячелетие в рамках человечества отвечают за вопросы глобализации. Барухам Вы все равно написать письмо не сможете, да и сомневаюсь, что после Бернарда Маннеса они продолжают напрямую заниматься этими проблемами :) И я таки не удивлюсь, если они решат прочитать Ваше письмо и прислушаться к Вашему мнению. Возможно, даже позволят отменить использование utf-8 для русскоязычных проектов. Но затевая протест против решений, принятых мудрыми людьми, Вы принимаете на себя определенные риски. Решайте сами, я бы на Вашем месте не стал этого делать. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 01:28 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewНапример попробуй залить на github исходник с камментами в 1251 Зачем это делать - тема для отдельного обсуждения. В смысле заливать свои исходники на гитхаб. Это же абсурдное действие, полностью против здравого смысла! Тогда написать отзыв на алиэкспрессе. В общем я к тому что без юникода невозможно сделать сайт, где может быть написано одновременно на всех языках. PS Как уже неоднократно было сказано: никто не заставляет использовать юникод. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 07:29 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene New…русский алфавит прекрасно умещается в один байт. Да, русский умещается. Пара русский+английский — тоже. Но русский+немецкий — уже нет: так уж устроены стандартные однобайтовые кодировки. Я, например, работаю одновременно с английским и четырьмя языками, использующими кириллический алфавит: русским и тремя миноритарными. Для меня Unicode и utf-8 это единая кодировка в базе данных, один шрифт для интерфейса, единый набор функций для работы с текстом. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 10:40 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewМне эта вещь понятна, но я вижу от нее один вред для себя. Она выгодна только англосаксам, да и то не всем. Культурная агрессия в масштабах земного шара. Ценой дополнительных ресурсов и проблем у тех, против кого она направлена. Русским со своим национальным алфавитом она особенно невыгодна. Знаете. Я тоже не люблю англичан. Считаю их надутыми индюками которые гордятся своими элитами. И по прежнему хотят завоевать мир. Но в вашем тезисе я читаю опасный месседж нацеленный на изоляционизм. Все успехи науки и техники 20-го 21-го веков это совместные усилия российских, европейских, и американских ученых. Вы просто вслух про себя перечислите их фамилии и понимание придет. Современный словарь русского языка наполовину состоит из слов заимствованых изнемецкого, английского, итальянского, французского и прочих языков европы. Пётр Первый ездил учится в Европу. Благодаря ему облик страны резко преобразился. Появились университеты. Стали двигаться науки. Дети дворян царской России ездили учится в университеты Франции. Это дало толчок развитию. Если вы почитаете первые главы "Войны и Мира" - там идут диалоги на трех языках. Да. Роман Льва Толстого не укладывается в win-1251. Не хватает буковок чтоб передать писательское видение. Профессор Хокинг писал что для освоения космоса не хватит усилий одной страны. Нужны будут совместные разработки всей планеты земля. Поэтому кодировку utf-8 я считаю полезной. Международной. И способствующей коллаборации и коммуникациям. А обособленность и эдакое желание "пересидеть" я считаю контр-продуктивным и не способтвующим развитию It и прочих наук в целом. И вы - развивайтесь. Не сидите в СНГ-шных проектах. В мире полно интересного. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 11:14 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene New, вот кстати да, изоляционизм - удачное слово. Из недстатков тоже уже вскользь сказали про зоопарк имеющихся текстов, когда уже не задумываются в какой кодировке дадут текст на обработку, что приводит иногда к затыкам. Но (обсуждали уже в русском языке программирования) это сложилось исторически. Когда в 50-х ещё стандартизировали единый язык прогр-я Алгол, вопрос кодировок обсуждался. И да, "вошли в положение США", опередивших всех, и вложившихся уже в фортран. И нежелавших терять эти инвестиции. Если б тогда европа + СССР сумели настоять, то сегодня м.б. никто и не начал такую тему. Но победителей не судят (план Маршалла помним). Eugene, м.б. Ваши дети будут уже жить при утф и не париться про равномерный доступ к массиву. Просто не надо его использовать после UnicodeString s; ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 13:47 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
mayton, были желающие в 17 веке перевести все на латиницу. Но люди кириллицу отстояли. Те самые люди, которые прекрасно говорили на трех языках. Это было правильно решение. Английский язык сам почти полностью состоит из заимствований - там почти нет родных кельтских слов. По сути это дикая смесь языков оккупантов с искаженным до неузнаваемости произношением. Поэтому для англичан языковой вопрос такой больной. Натерпелись. Ничего, как то сумели после этого на ноги встать. немецкий алфавит не помещается вместе с русским С чего бы это ему не помещаться? Латинский алфавит + 3 умлаута + 1 лигатура. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 13:58 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene Newmayton, были желающие в 17 веке перевести все на латиницу. Но люди кириллицу отстояли. Те самые люди, которые прекрасно говорили на трех языках. Это было правильно решение. Английский язык сам почти полностью состоит из заимствований - там почти нет родных кельтских слов. По сути это дикая смесь языков оккупантов с искаженным до неузнаваемости произношением. Поэтому для англичан языковой вопрос такой больной. Натерпелись. Ничего, как то сумели после этого на ноги встать. Окей. Я понял вашу политическую позицию. И уважаю. Но к теме внедрения utf-8 она имеет мало отношения. Скорее даже наоборот. Можно русскоязычные проекты внедрять в веб легче чем win-1251. А с однобайтными - куча головняка. Вспомните cp866 из эпохи DOS. Вспомните koi-8 который любили Фидошники. Они так подпортили нервы... До сих пор можно находить сайты Васей Пупкиных которые нет-нет да и запилят что-то specific. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 14:11 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene Newнемецкий алфавит не помещается вместе с русским С чего бы это ему не помещаться? Латинский алфавит + 3 умлаута + 1 лигатура. С того, что кириллица и основная латиница в 1251, а три умлаута и лигатура — в 1252. Конечно, можно все запихать в домодельную однобайтовую кодировку. Именно так и поступали в середине 90-х, пока не пришел Unicode: лепили странные шрифты из воды и дерьма, пересылали с каждым документом… Если вам нужен только русский язык — используйте, что хотите. Я же предпочту Unicode, поскольку помню ту самую середину 90-х и мучения из-за того, что все нужные одновременно символы просто не помещались в кодовую таблицу на 256 ячеек. В Word-е с этим еще хоть как-то можно было бороться мириться, за его пределами же начинался полный мрак. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 14:22 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewАнглийский язык сам почти полностью состоит из заимствований - там почти нет родных кельтских слов. Поправка: кельтские слова в английском как раз-таки — заимствования, это германский язык. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 14:25 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Ы2Eugene NewАнглийский язык сам почти полностью состоит из заимствований - там почти нет родных кельтских слов. Поправка: кельтские слова в английском как раз-таки — заимствования, это германский язык. Уточню Английский - это германский, А келтики это группа языков никак с английским не связана. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 15:06 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
mayton, mayton,Если ты видишь какие-то performance-issues в будущем - то предоставь нам свои числовые оценки. Насколько нас аффектит? Технически - это вопрос об устройстве библиотечного API. Их много было, и, несомненно еще будет. Вероятно, твоя личная практика программиста в конкретный момент привязана к конкретному API, по отношению к которому у тебя сформирована система ожиданий. Предположим такие исходные: - пишешь ты на Java. - у тебя лично , а не вообще в мире, тонны кода, связанного с обработкой строк. - этот код критичен - часть твоей собственной, специфической к предмету, утилитарной библиотеки специальных алгоритмов обработки строк. - и весь этот код базируется на ожидаемой гарантии того, что String.CharAt(i) работает с твоим кодом за константное время, не зависящее от i. (Предположим, что, сознательно или нет, ты заложился именно на это) вопрос - что происходит с производительностью твоей, с годами и любовью выписанной библиотеки, eсли происходит такой переход во внутреннем представлении строки на utf-8, который теряет гарантию константы для charAt(i), и заменяет её на линейное от i время? Это тоже гарантия, просто немного другая. Сколько тонн кода после это ты признаешь как пригодное к переписыванию, и в скольких местах ты посчитаешь, что всё пропало?. Сохранить такую гарантию - значить увелчить размер хранящего символ элемента. Так и было сделано с самого начала в виде почти всегда заведомо излишнего двухбайтного представления. Но двух байт теперь не хватает, надо шесть. Правильное здесь решение - просто взять и увеличить размер char до 8-байтного целого? Какую-то попытку ответа на это и пытаются давать в виде сжатого представления строки в новой java. Но. а) это еще не завершенная реализация б) вопрос, заданный Eugene New она оивечает "неправильно", и в этом есть своя правда - иначе любая конкатенация потенциально означает encoding, но все со сваливанием в конце концов к "универсальному" представлению. Универсальные строки строки плохо стыкуются гарантиями константного доступа к символа, только в обмен на расход памяти. PS Где-то в закромах ораклового публичного сайта валяется white paper от 2003 года, специфически строковым performance issues посвященная. Efficient Use of pl/sql String functions for Unicode Applications посмотри при случае, если не видел. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 15:32 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
booby - пишешь ты на Java. Да. booby - у тебя лично , а не вообще в мире, тонны кода, связанного с обработкой строк. - этот код критичен - часть твоей собственной, специфической к предмету, утилитарной библиотеки специальных алгоритмов обработки строк. - и весь этот код базируется на ожидаемой гарантии того, что String.CharAt(i) работает с твоим кодом за константное время, не зависящее от i. (Предположим, что, сознательно или нет, ты заложился именно на это) В настоящий момент (работаем с семёркой и восьмеркой в PROD) мы используем канонический String в котором есть двух-байтное представление (char[]) строк. Поинт экономии будет решатся КМК в будущих версиях (11) за счет опционального использования Latin. Англосаксы - Latin. Все что смешанное - UTF-16. Поэтому я не предвижу проблем с String.CharAt(i). Весь потоковый ввод... связанный с сериализацией. Сохранением файлов. С транспортными форматами и протоколами мы давно перевели на utf-8 и это давно работает. Каких-либо perofmance issues связанных с этими процессами я не помню. Если где-то в потоковом вводе-выводе мне понадобится String.CharAt(i) то это по определению не потоковый ввод вывод и надо что-то думать на архитектурном уровне. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 15:54 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
boobyНо двух байт теперь не хватает, надо шесть. Правильное здесь решение - просто взять и увеличить размер char до 8-байтного целого? Давайте остановимся на четырех. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 15:58 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
boobyКакую-то попытку ответа на это и пытаются давать в виде сжатого представления строки в новой java. Но. а) это еще не завершенная реализация б) вопрос, заданный Eugene New она оивечает "неправильно", и в этом есть своя правда - иначе любая конкатенация потенциально означает encoding, но все со сваливанием в конце концов к "универсальному" представлению. Универсальные строки строки плохо стыкуются гарантиями константного доступа к символа, только в обмен на расход памяти. Конкатенация строк - в принципе самая плохая операция что только существует. И лучше ее не делать. Здесь вобщем-то безразлично какие кодировки. Асимптоматика враг. Про константное время я вроде ответил выше. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 16:01 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
booby, Обработка текста основанная на индексом доступе? Можно пример? ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 16:02 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
boobyPS Где-то в закромах ораклового публичного сайта валяется white paper от 2003 года, специфически строковым performance issues посвященная. Efficient Use of pl/sql String functions for Unicode Applications посмотри при случае, если не видел. ОК. Спасибо. Почитаю. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 16:02 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
OoCcbooby, Обработка текста основанная на индексом доступе? Можно пример? любая функция выделения подстроки с пятого по двадцатый символ, там где она может быть построена на индексном доступе против случая, когда не может. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 16:08 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
Eugene NewЭта штука реально бесит. С какой стати мы должны платить увеличением объема строк в два раза из-за китайцев, у которых ущербная письменность. Тогда как русский алфавит прекрасно умещается в один байт. Русский алфавит не нужен - все нормальные цивилизованные люди давно перешли на латиницу! 7 бит хватит всем. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 16:17 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
mayton, о конкатенации речь не шла вообще. и она не плохая и не хорошая. Просто операция на строках. Очень замечтательно хорошая при разумном использовании. Вот дают тебе задачу (искусственную, но какая вспомнилась) - написать функцию, которая должна сформировать строку, имеющую смысл буфера. Использоваться она будет в самом-самом вложенном цикле и её производительность критична. тебе на вход отдают приемник, размер его не известен, но приемник гарантирует, что выбросит ошибку, если буфер в него не поместится. Возможности спросить у приемника - какого размера строку ты сможешь принять нет. Конкатенацией можно написать такую функцию, которая всю систему превратит в неработоспособную. А можно ей же сделать так, что время формирования результата будет технически неотличимо от случая с заранее известным размером. Сама по себе конкатенация - "ни в чем не виноватая" Плохая конкатенация, это как плохое сложение числе. Рано или поздно, в конкретном железе, оно становится "слишком дорогим". ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 16:22 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
boobyOoCcbooby, Обработка текста основанная на индексом доступе? Можно пример? любая функция выделения подстроки с пятого по двадцатый символ, там где она может быть построена на индексном доступе против случая, когда не может. Понятно. Например распарсить ЮРЛ ? ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 16:40 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
maytonЗнаете ...Зачем так много букав? Классик русской литературы в классическом же четырёхтомнике пишет целые абзацы на французком языке. Дети, опять-же ... Не знаю, как сейчас, но раньше, в литературе для детей младшего школьного возраста, принято было расставлять ударения, чтобы ребёнок, которому объяснили в школе, что "эта чёрточка на гласной буквой обозначает ударный слог", мог запоминать правильное произношение (пока) незнакомых слов, просто читая книги. Уникод решает эти и многие другие проблемы в "плоском" тексте, не требуя изобретать форматы и протоколы. Из многих возможных кодировок юникода UTF-8 обеспечивает и обратную совместимость с C-API и возможность постепенной миграции. Всего этого вполне достаточно, чтобы или не обращать внимания на странных экстремистов или просто забанить не вполне адекватного человека. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 16:49 |
|
Юникод и utf8
|
|||
---|---|---|---|
#18+
OoCc, я не понимаю что ты хочешь сказать. Что все алгоритмы на строках по своему смыслу потоковые? Предположим, что ты прав в космическом смысле и в мировом масштабе. Я всего лишь сказал, что достаточно существует кода в языках имярек, относящихся к строке, если даже не прямо как к массиву, то основывающих свои суждения об общей производительности алгоритма на предположении о константой стоимости доступа к символу, каково бы ни было внутреннее представление строки. Существенно это или нет, и может ли алгоритм быть легко переформулирован для сохранения своего класса времени работы в O-оценках - это всякий раз специальный по отношению к алгоритму разговор. mayton, вот не рискнул, с разбегу, от гарантий на время работы charAt отказаться. И, допустимо считать, что в случае с твоим кодом, этот момент целиком не имеет значения. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.09.2018, 16:55 |
|
|
start [/forum/topic.php?fid=16&startmsg=39707990&tid=1339969]: |
0ms |
get settings: |
12ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
142ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
71ms |
get tp. blocked users: |
2ms |
others: | 11ms |
total: | 273ms |
0 / 0 |