powered by simpleCommunicator - 2.0.59     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Об одном парадоксе информационной энтропии
25 сообщений из 48, страница 1 из 2
Об одном парадоксе информационной энтропии
    #39581688
Иван FXS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Возьмём файл сжатый очень хорошим (в пределе -- идеальным) архиватором. Содержимое этого сжатого файла можно рассматривать как строку битов S длины N. “Хорошее сжатие” означает, что информационная энтропия распределения битов в этой строке сильно минимизирована (в идеале -- сведена к минимальному значению, соответствующему “количеству информации” в исходном файле, подвергнутом сжатию).

Маленькая энтропия означает, в частности, что если мы нарежем рассматриваемую строку S на последовательные “слова” одинаковой длины М и составим частотный словарь этих слов, то не только всё множество возможных “слов” длины М будет присутствовать в этом словаре, но и разброс частот этих слов будет минимальным. То есть -- существенно меньшим, чем разброс частот в аналогично препарированной случайной строке битов той же длин N.

Можно сказать, что частоты “слов” в S “хорошо выровнены”.

Возьмём теперь датчик случайных чисел (ДПСЧ), выберем произвольное начальное значение Х (не слишком длинное в битовой записи) и создадим на основании последовательности значений, возвращаемых этим ДПСЧ -- начиная с ДПСЧ(Х)
-- (псевдо-)случайную строку Z той же самой длины N.

Сложим побитово S и Z. Получившаяся строка R будет, вообще говоря, столь же (псевдо-)случайна, как и строка Z. То есть частоты входящих в неё “слов” совершенно не будут выровнены. А это значит, что, прогнав её (Z) через тот же самый хороший архиватор, мы сможем дополнительно её сжать. И есть хорошие шансы надеяться, что “выигрыш” (в числе битов) от этого сжатия будет больше, чем длина в битах записи числа Х. И даже (возможно, особенно если N велико) больше, чем длина в битах алгоритма нашего ДПСЧ, записанного на каком-то “экономном” байт-коде...

Можно, наконец, явно произнести, что, зная только Х, мы всегда можем повторно сгенерировать строку Z и, вычтя её из R, получить исходную S.
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581797
Barlone
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Что-то не так. Хорошо сжатая последовательность как раз максимально похожа на случайную.
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581802
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вот сразу заявлю: не вижу paradoxa -- надеяться только можно.
Вообще, оно конечно, если на серии опытов существует плотность распред F( S AND Y), то она м.б. весьма разнообразна и не связана с индивидуальными плотностями (умозрительно говоря).

С другой стороны, давно уже было такое:
Строим словарь С1 из "текста", нарезая его на кусочки ограниченной в целом длины (аналог ЛЗВ).
Строим текст из ссылок на С1
Строим словарь С2 из текста.
Строим текст из ссылок на С2
......
На первых итерациях имеем квазикомбинаторный взрыв.
В дальнейшем - сужаемость, похожая на треугольник. Его высота и полнота зависит от начальной "энтропийности" "текста". Чем "белее шум", тем тр-к брюхастее и выше, а чем больше повторяемость - тем ниже и менее беременный.

Последний "текст"= единственная ссылка. Вот и сжатие. А есть ли paradox, хрз.
Писал "текст" - т.к. в компе всё можно свести к послед-сти {0,1}
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581808
Иван FXS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Barlone,

в случайной последовательности частоты "слов" распределены по какому-нибудь Пуассону (на вскидку). Значит есть слова, встречающиеся (заметно?) чаще или реже среднего.

А префиксное кодирование, например, специально занимается тем, что выравнивает (как можно лучше) частоты слов. С учётом длин, конечно: все слова длиной 8 бит должны иметь частоты, в идеале, равные 1/256; а слова длиной 10 бит -- равные 1/1024 ...
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581835
Фотография S.G.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Иван FXS. “Хорошее сжатие” означает, что информационная энтропия распределения битов в этой строке сильно минимизирована наоборот, максимизирована.

Иван, вы бы почитали что-нибудь про все это, наконец.
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581854
Иван FXS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
S.G.,

да, спасибо. Внимание всем: "энтропия минимизирована" читать (выше) как "энтропия максимизирована".
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581858
Иван FXS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
S.G.,

я просто физик по исходному. А там -- в термодинамике -- энтропия возрастает самопроизвольно, а чтобы её уменьшить, нужно специально усилия прикладывать.
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581863
Barlone
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Иван FXSв случайной последовательности частоты "слов" распределены по какому-нибудь Пуассону (на вскидку)Да с чего бы? Равномерно.
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581864
Иван FXS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
в смысле "равномерно" это как?
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581869
Barlone
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581879
Соколинский Борис
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Barlone,
Сами слова - равномерно. А их частота (сиречь количество одинаковых в выборке) - таки да, по Пуассону.
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581881
Соколинский Борис
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Иван FXSВнимание всем: "энтропия минимизирована" читать (выше) как "энтропия максимизирована". После прочтения "парадокс" совсем пропал.
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581888
Иван FXS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Соколинский Борис,

так можно слова длиной 15 с частотами из правого крыла Пуассона (их, 15-буквенного Пуассона) перекодировать словами длины 14 с частотами из левого крыла Пуассона (их, 14-буквенного Пуассона).

И наоборот, то есть взаимно?
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581889
Иван FXS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
читать:Иван FXS(их, 14-буквенного Пуассона) ?
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581934
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кстати пользуюсь мнемоникой: возрастание Э интерпретируется как возрастание хаоса, что и ведёт к побелению шума. Всякая же структуризация ведёт к уменьшению Э.

Ваще я полагаю, что выравнивание Э-й как самоцель нужно только для шифрования, а для сжатия нужна суммарная. Просто это не будет означать криптостойкость сжатого кода. Не помню, в Хаффмане вроде как раз тлько суммарность используется.
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581947
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну и собственно к paradoxu. Он - в головах. Т.к. Ш-н относил всё к оптимальной "передаче инфы" на уровне канала связи. Да ещё наверное подразумевая, что передавать алгоритм вместе с кодом не требуется и что наверное этот алгоритм - вещь статическая.

Мы же давно имеем глобальные сети + сетевой стек + возможность фреймворкать. Давно уже не надо на Ш как на икону смотреть.
Т.е. оптимальность всегда д.б. относительно конретного фреймворка.
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581964
Иван FXS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кстати, в тему максимизации/минимизации энтропии: из двух сообщений одинаковой длины лучше будет сжиматься ("хорошим" архиватором) то, в котором больше информации? Или, наоборот, то, в котором меньше информации?
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39581995
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В Э-ном смысле я полагаю, что в целом там, где удельная инфа выше.
Если же фреймворкать, то скоко инфы в известной фразе?
"Не верьте тому, кто пугает вас плохой погодой в Швейцарии. Здесь очень солнечно и тепло."
А в исковерканной?
"...в Лимпопо. Там ооооооооооооооооочень ХооооЛоооооооДНооооооо."
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39582008
Иван FXS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98, лучше будет сжиматься то сообщение, в котором удельная ("на единицу длины") инфа выше, -- я правильно вас понял?

А как связана "фреймворковость" с обсуждением сравнительной сжимаемости (податливости сжатию) строк (сообщений) типа приведённого вами: " Там ооооооооооооооооочень ХооооЛоооооооДНооооооо " -- против " Там очень ХоЛоДНо ", например?
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39582012
Barlone
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Соколинский БорисBarlone,
Сами слова - равномерно. А их частота (сиречь количество одинаковых в выборке) - таки да, по Пуассону.А, ну действительно.
Только это не поможет. Никакой архиватор случайную последовательность не сожмет.
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39582021
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Иван FXSВозьмём теперь датчик случайных чисел (ДПСЧ), выберем произвольное начальное значение Х (не слишком длинное в битовой записи) и создадим на основании последовательности значений, возвращаемых этим ДПСЧ -- начиная с ДПСЧ(Х)
-- (псевдо-)случайную строку Z той же самой длины N.

Сложим побитово S и Z. Получившаяся строка R будет, вообще говоря, столь же (псевдо-)случайна, как и строка Z. То есть частоты входящих в неё “слов” совершенно не будут выровнены. А это значит, что, прогнав её (Z) через тот же самый хороший архиватор, мы сможем дополнительно её сжать. И есть хорошие шансы надеяться, что “выигрыш” (в числе битов) от этого сжатия будет больше, чем длина в битах записи числа Х. И даже (возможно, особенно если N велико) больше, чем длина в битах алгоритма нашего ДПСЧ, записанного на каком-то “экономном” байт-коде...
ИМХО не сожмется. Результат тоже будет близок к случайному набору.

Можешь затестить, в отличии от других твоих алгоритмов этот прост в реализации:
1. Взял какой-нибудь сжатый файл. i = 0
2. Инициализировал ГПСЧ значением i.
3. Поксорил файл с ГПСЧ
4. Пожал (например в ZIP)
5. Если результат размером меньше идеального (ранее найденного), то запомнил результат как идеальный.
6. Если i < ... то i++ и п.2

Думаю найдутся решения чуть поменьше исходного, но уменьшение будет в пределах 1%.
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39582025
Соколинский Борис
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Иван FXSтак можно слова длиной 15 с частотами из правого крыла Пуассона (их, 15-буквенного Пуассона) перекодировать словами длины 14 с частотами из левого крыла Пуассона (их, 14-буквенного Пуассона).

Это все равно что повторно архивировать.

Иван FXSКстати, в тему максимизации/минимизации энтропии: из двух сообщений одинаковой длины лучше будет сжиматься ("хорошим" архиватором) то, в котором больше информации? Или, наоборот, то, в котором меньше информации? Информация - многозначный термин.
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39582046
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Иван FXS, я вот что подумал: если ты прав, т.е. твоя идея рабочая, то можно жать что угодно до бесконечности. Ну хотя бы в десятки раз. Например дистрибутив виндовса сжать до 1 Мб, пусть даже 100 Мб, думаю ради этого MS запустил бы перебор на пару месяцев.

Вывод: если бы это работало, то этим бы уже пользовались.
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39582055
Иван FXS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dima T,

потому и "парадокс".
...
Рейтинг: 0 / 0
Об одном парадоксе информационной энтропии
    #39582056
Иван FXS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Соколинский БорисИван FXSтак можно слова длиной 15 с частотами из правого крыла Пуассона (их, 15-буквенного Пуассона) перекодировать словами длины 14 с частотами из левого крыла Пуассона (их, 14-буквенного Пуассона).

Это все равно что повторно архивировать.
задачка в том, как при таком перекодировании обойтись без "словаря перевода", либо с таким словарём, который не перекрыл бы (своей длиной) весь эффект сжатия.

Соколинский БорисИнформация - многозначный термин.
чувствуете подвох: получается, что абсолютно случайная последовательность битов не сжимается (хотя лично всё ещё тлеет надежда) из-за того, что в ней предельно много информации!
...
Рейтинг: 0 / 0
25 сообщений из 48, страница 1 из 2
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Об одном парадоксе информационной энтропии
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]