Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
ИзопропилSashaMercuryХм. Пришел к тому, что мне нужно реализовать тип данных который включает в себя строку, и способ её чтения спецификацию юникода почитай - там много удивительного процитируйте хотя бы строчку из "много удивительного" ;) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 03:10 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
Изопропил, википедия, это не спецификация. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 03:33 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
SashaMercury, спецификацию сам откроешь - http://unicode.org UNICODE NORMALIZATION FORM http://unicode.org/reports/tr15/ ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 03:40 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
Изопропил, спасибо за ссылку. Но к сожалению, у меня нет 60-120 минут(а может и больше) на изучение того документа. Это не Си, и не алгоритмы, и не математика. Позже, я обязательно постараюсь прочитать то, к чему вы пытались меня привести. Может быть вы попробуете простыми словами донести до особо одарённых то, что хотели сказать ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 12:50 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
Наверное он хотел сказать что сравнени Unicode символов не равно сравнению байтов. Если я верно понял суть. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 13:58 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
maytonНаверное он хотел сказать что сравнени Unicode символов не равно сравнению байтов. Если я верно понял суть. Ну да, и если крутить символы in-place, то будет сложнее -- символы-то переменной длины ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 14:10 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
а ещё два символа могут складываться в один знак (буква с диакритикой), так что надо ещё определиться, какой результат мы хотим увидеть после «кручения». ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 14:31 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
MasterZivНу да, и если крутить символы in-place, то будет сложнее -- символы-то переменной длины это самое простое, строку UTF-8 можно читать в любом направлении. а вот композитные(не путать с суррогатными парами UTF-16) типа a + ogonek + acute = <U+0061, U+0328, U+0301> переворачивать несколько сложнее ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 14:33 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
Возможен ли вообще реверсный итератор по Utf-8 байтовому массиву? Это как архив читать в обратном направлении. Особенно в совокупности с копозитными символами. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 14:53 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
maytonВозможен ли вообще реверсный итератор по Utf-8 байтовому массиву?Разумеется возможен. Отдельная кодовая точка состоит или из байта со сброшенным старшим битом или начинается байтом с двумя установленными старшими битами. Максимальный размер кодовой точки - четыре байта. Соответственно, при любом направлении прохода по последовательности байт отдельные кодовые точки выделяются с примерно одинаковой (не)эффективностью. Обработка составных символов от кодировки не зависит. Всё, что требуется - аккуратно копировать кусочки байт вперёд и назад. Не просто, но реализуемо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 16:04 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
Тоже думаю что возможно. Кстати думаю что с некоторой структурой данных типа индексации.. можно не реализовывать чтения Utf8 "взад". А просто "двигать" серединку строки влево. По аналогии с сортировкой вставками. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 16:12 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
Изопропил, не улавливаю связи с тем, о чём я рассуждал. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 16:14 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
maytonВозможен ли вообще реверсный итератор по Utf-8 байтовому массиву? тривиален - первый байт многобайтового символа 11xxyyyy все последующие 10xxyyyy ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 16:34 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
SashaMercuryИзопропил, не улавливаю связи с тем, о чём я рассуждал. Хотел строковую библиотеку написать? - не забудь про UTF-8. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 16:37 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
Нет. Трудность не в том. Поддержка Utf-8 обычно реализована как фильтр внешних данных. А все манипуляции со строками в ядре системы должны ходить в Utf-16. А то чем мы щас занимаемся это онанизм и вариации на тему как-бы впихнуть "квадратную пробку в круглое отверстие". Вобщем сон разума порождает чудовищ. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 16:42 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
maytonА все манипуляции со строками в ядре системы должны ходить в Utf-16.Фундаментальное заблуждение. Корни растут из того факта, что изначально юникод делали по принципу "один символ - один код". Я бы сказал, что есть два варианта: 1. utf8; 2. Упаковка 21-битных триад в блоки по восемь байт. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 16:45 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
mayton, речь об интерпретации композитных символов. UTF-8 UTF-16 или UTF-32 не имеет ни малейшего значения. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 17:24 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
maytonА все манипуляции со строками в ядре системы должны ходить в Utf-16. Ну тогда уж UTF-32 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 17:25 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
Basil A. Sidorov2. Упаковка 21-битных триад в блоки по восемь байт. Это еще зачем? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 17:52 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
ИзопропилmaytonА все манипуляции со строками в ядре системы должны ходить в Utf-16. Ну тогда уж UTF-32 Не очень понял сарказма. Кому не хватает 64К букв? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 17:52 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
maytonНе очень понял сарказма. Кому не хватает 64К букв? алгоритму обработки. нечего ветви делать для обработки суррогатных пар. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 17:58 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
maytonНе очень понял сарказма. Кому не хватает 64К букв?Если вы не в курсе, то уже третья версия юникода содержала более ста тысяч (несоставных) символов. Текущая версия - шестая. P.S. Собственно, 64КБукв не хватило уже тогда, когда Корея, Китай и Япония не договорились о единой схеме кодирования иероглифических символов. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 18:28 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
maytonЭто еще зачем?UTF-16 требует обрабатывать суррогатные пары, UTF-8 и UTF-32 - не требуют. В UTF-8 - переменное число байт на кодовую точку, в UTF-32 - фиксированное, но бесполезно теряется одиннадцать бит. Если упаковать 21-битные кодовые точки в битовую структуру, то мы оставляем фиксированное число бит на кодовую точку и достаточно существенно экономим на хранении данных. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 18:32 |
|
||
|
Решение ряда задач.
|
|||
|---|---|---|---|
|
#18+
Basil A. Sidorovв UTF-32 - фиксированное, но бесполезно теряется одиннадцать бит. Если упаковать 21-битные кодовые точки в битовую структуру, то мы оставляем фиксированное число бит на кодовую точку и достаточно существенно экономим на хранении данных. Понятно. Почему-то напомнило Base64. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.11.2014, 19:13 |
|
||
|
|

start [/forum/topic.php?fid=57&msg=38817534&tid=2019210]: |
0ms |
get settings: |
8ms |
get forum list: |
14ms |
check forum access: |
5ms |
check topic access: |
5ms |
track hit: |
39ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
66ms |
get tp. blocked users: |
1ms |
| others: | 271ms |
| total: | 421ms |

| 0 / 0 |
