Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Возьмём файл сжатый очень хорошим (в пределе -- идеальным) архиватором. Содержимое этого сжатого файла можно рассматривать как строку битов S длины N. “Хорошее сжатие” означает, что информационная энтропия распределения битов в этой строке сильно минимизирована (в идеале -- сведена к минимальному значению, соответствующему “количеству информации” в исходном файле, подвергнутом сжатию). Маленькая энтропия означает, в частности, что если мы нарежем рассматриваемую строку S на последовательные “слова” одинаковой длины М и составим частотный словарь этих слов, то не только всё множество возможных “слов” длины М будет присутствовать в этом словаре, но и разброс частот этих слов будет минимальным. То есть -- существенно меньшим, чем разброс частот в аналогично препарированной случайной строке битов той же длин N. Можно сказать, что частоты “слов” в S “хорошо выровнены”. Возьмём теперь датчик случайных чисел (ДПСЧ), выберем произвольное начальное значение Х (не слишком длинное в битовой записи) и создадим на основании последовательности значений, возвращаемых этим ДПСЧ -- начиная с ДПСЧ(Х) -- (псевдо-)случайную строку Z той же самой длины N. Сложим побитово S и Z. Получившаяся строка R будет, вообще говоря, столь же (псевдо-)случайна, как и строка Z. То есть частоты входящих в неё “слов” совершенно не будут выровнены. А это значит, что, прогнав её (Z) через тот же самый хороший архиватор, мы сможем дополнительно её сжать. И есть хорошие шансы надеяться, что “выигрыш” (в числе битов) от этого сжатия будет больше, чем длина в битах записи числа Х. И даже (возможно, особенно если N велико) больше, чем длина в битах алгоритма нашего ДПСЧ, записанного на каком-то “экономном” байт-коде... Можно, наконец, явно произнести, что, зная только Х, мы всегда можем повторно сгенерировать строку Z и, вычтя её из R, получить исходную S. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 13:16 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Что-то не так. Хорошо сжатая последовательность как раз максимально похожа на случайную. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 15:19 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Вот сразу заявлю: не вижу paradoxa -- надеяться только можно. Вообще, оно конечно, если на серии опытов существует плотность распред F( S AND Y), то она м.б. весьма разнообразна и не связана с индивидуальными плотностями (умозрительно говоря). С другой стороны, давно уже было такое: Строим словарь С1 из "текста", нарезая его на кусочки ограниченной в целом длины (аналог ЛЗВ). Строим текст из ссылок на С1 Строим словарь С2 из текста. Строим текст из ссылок на С2 ...... На первых итерациях имеем квазикомбинаторный взрыв. В дальнейшем - сужаемость, похожая на треугольник. Его высота и полнота зависит от начальной "энтропийности" "текста". Чем "белее шум", тем тр-к брюхастее и выше, а чем больше повторяемость - тем ниже и менее беременный. Последний "текст"= единственная ссылка. Вот и сжатие. А есть ли paradox, хрз. Писал "текст" - т.к. в компе всё можно свести к послед-сти {0,1} ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 15:26 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Barlone, в случайной последовательности частоты "слов" распределены по какому-нибудь Пуассону (на вскидку). Значит есть слова, встречающиеся (заметно?) чаще или реже среднего. А префиксное кодирование, например, специально занимается тем, что выравнивает (как можно лучше) частоты слов. С учётом длин, конечно: все слова длиной 8 бит должны иметь частоты, в идеале, равные 1/256; а слова длиной 10 бит -- равные 1/1024 ... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 15:32 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Иван FXS. “Хорошее сжатие” означает, что информационная энтропия распределения битов в этой строке сильно минимизирована наоборот, максимизирована. Иван, вы бы почитали что-нибудь про все это, наконец. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 15:52 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
S.G., да, спасибо. Внимание всем: "энтропия минимизирована" читать (выше) как "энтропия максимизирована". ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 16:13 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
S.G., я просто физик по исходному. А там -- в термодинамике -- энтропия возрастает самопроизвольно, а чтобы её уменьшить, нужно специально усилия прикладывать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 16:16 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Иван FXSв случайной последовательности частоты "слов" распределены по какому-нибудь Пуассону (на вскидку)Да с чего бы? Равномерно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 16:18 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
в смысле "равномерно" это как? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 16:19 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 16:28 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Barlone, Сами слова - равномерно. А их частота (сиречь количество одинаковых в выборке) - таки да, по Пуассону. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 16:34 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Иван FXSВнимание всем: "энтропия минимизирована" читать (выше) как "энтропия максимизирована". После прочтения "парадокс" совсем пропал. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 16:35 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Соколинский Борис, так можно слова длиной 15 с частотами из правого крыла Пуассона (их, 15-буквенного Пуассона) перекодировать словами длины 14 с частотами из левого крыла Пуассона (их, 14-буквенного Пуассона). И наоборот, то есть взаимно? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 16:43 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
читать:Иван FXS(их, 14-буквенного Пуассона) ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 16:45 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Кстати пользуюсь мнемоникой: возрастание Э интерпретируется как возрастание хаоса, что и ведёт к побелению шума. Всякая же структуризация ведёт к уменьшению Э. Ваще я полагаю, что выравнивание Э-й как самоцель нужно только для шифрования, а для сжатия нужна суммарная. Просто это не будет означать криптостойкость сжатого кода. Не помню, в Хаффмане вроде как раз тлько суммарность используется. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 17:31 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Ну и собственно к paradoxu. Он - в головах. Т.к. Ш-н относил всё к оптимальной "передаче инфы" на уровне канала связи. Да ещё наверное подразумевая, что передавать алгоритм вместе с кодом не требуется и что наверное этот алгоритм - вещь статическая. Мы же давно имеем глобальные сети + сетевой стек + возможность фреймворкать. Давно уже не надо на Ш как на икону смотреть. Т.е. оптимальность всегда д.б. относительно конретного фреймворка. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 17:43 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Кстати, в тему максимизации/минимизации энтропии: из двух сообщений одинаковой длины лучше будет сжиматься ("хорошим" архиватором) то, в котором больше информации? Или, наоборот, то, в котором меньше информации? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 18:04 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
В Э-ном смысле я полагаю, что в целом там, где удельная инфа выше. Если же фреймворкать, то скоко инфы в известной фразе? "Не верьте тому, кто пугает вас плохой погодой в Швейцарии. Здесь очень солнечно и тепло." А в исковерканной? "...в Лимпопо. Там ооооооооооооооооочень ХооооЛоооооооДНооооооо." ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 18:34 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
exp98, лучше будет сжиматься то сообщение, в котором удельная ("на единицу длины") инфа выше, -- я правильно вас понял? А как связана "фреймворковость" с обсуждением сравнительной сжимаемости (податливости сжатию) строк (сообщений) типа приведённого вами: " Там ооооооооооооооооочень ХооооЛоооооооДНооооооо " -- против " Там очень ХоЛоДНо ", например? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 18:43 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Соколинский БорисBarlone, Сами слова - равномерно. А их частота (сиречь количество одинаковых в выборке) - таки да, по Пуассону.А, ну действительно. Только это не поможет. Никакой архиватор случайную последовательность не сожмет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 18:53 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Иван FXSВозьмём теперь датчик случайных чисел (ДПСЧ), выберем произвольное начальное значение Х (не слишком длинное в битовой записи) и создадим на основании последовательности значений, возвращаемых этим ДПСЧ -- начиная с ДПСЧ(Х) -- (псевдо-)случайную строку Z той же самой длины N. Сложим побитово S и Z. Получившаяся строка R будет, вообще говоря, столь же (псевдо-)случайна, как и строка Z. То есть частоты входящих в неё “слов” совершенно не будут выровнены. А это значит, что, прогнав её (Z) через тот же самый хороший архиватор, мы сможем дополнительно её сжать. И есть хорошие шансы надеяться, что “выигрыш” (в числе битов) от этого сжатия будет больше, чем длина в битах записи числа Х. И даже (возможно, особенно если N велико) больше, чем длина в битах алгоритма нашего ДПСЧ, записанного на каком-то “экономном” байт-коде... ИМХО не сожмется. Результат тоже будет близок к случайному набору. Можешь затестить, в отличии от других твоих алгоритмов этот прост в реализации: 1. Взял какой-нибудь сжатый файл. i = 0 2. Инициализировал ГПСЧ значением i. 3. Поксорил файл с ГПСЧ 4. Пожал (например в ZIP) 5. Если результат размером меньше идеального (ранее найденного), то запомнил результат как идеальный. 6. Если i < ... то i++ и п.2 Думаю найдутся решения чуть поменьше исходного, но уменьшение будет в пределах 1%. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 19:05 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Иван FXSтак можно слова длиной 15 с частотами из правого крыла Пуассона (их, 15-буквенного Пуассона) перекодировать словами длины 14 с частотами из левого крыла Пуассона (их, 14-буквенного Пуассона). Это все равно что повторно архивировать. Иван FXSКстати, в тему максимизации/минимизации энтропии: из двух сообщений одинаковой длины лучше будет сжиматься ("хорошим" архиватором) то, в котором больше информации? Или, наоборот, то, в котором меньше информации? Информация - многозначный термин. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 19:16 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Иван FXS, я вот что подумал: если ты прав, т.е. твоя идея рабочая, то можно жать что угодно до бесконечности. Ну хотя бы в десятки раз. Например дистрибутив виндовса сжать до 1 Мб, пусть даже 100 Мб, думаю ради этого MS запустил бы перебор на пару месяцев. Вывод: если бы это работало, то этим бы уже пользовались. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 19:48 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Dima T, потому и "парадокс". ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 20:05 |
|
||
|
Об одном парадоксе информационной энтропии
|
|||
|---|---|---|---|
|
#18+
Соколинский БорисИван FXSтак можно слова длиной 15 с частотами из правого крыла Пуассона (их, 15-буквенного Пуассона) перекодировать словами длины 14 с частотами из левого крыла Пуассона (их, 14-буквенного Пуассона). Это все равно что повторно архивировать. задачка в том, как при таком перекодировании обойтись без "словаря перевода", либо с таким словарём, который не перекрыл бы (своей длиной) весь эффект сжатия. Соколинский БорисИнформация - многозначный термин. чувствуете подвох: получается, что абсолютно случайная последовательность битов не сжимается (хотя лично всё ещё тлеет надежда) из-за того, что в ней предельно много информации! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 20:13 |
|
||
|
|

start [/forum/topic.php?fid=16&startmsg=39581688&tid=1340191]: |
0ms |
get settings: |
10ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
40ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
63ms |
get tp. blocked users: |
1ms |
| others: | 13ms |
| total: | 163ms |

| 0 / 0 |
