powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Несжимаемая последовательность байт
73 сообщений из 73, показаны все 3 страниц
Несжимаемая последовательность байт
    #39989182
Фотография hVostt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Есть идеи, как сгенерировать последовательность байт, с какими-то гарантиями нулевой или около нулевой сжимаемости?
Условно говоря, если пропустить поток через какой-нибудь deflate, на выходе размер практически не изменится.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989188
x1ca4064
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hVostt
Есть идеи, как сгенерировать последовательность байт, с какими-то гарантиями нулевой или около нулевой сжимаемости?


Хороший генератор _случайных_ чисел + расчет энтропии, если энтропия мала, новая генерация.
Зачем?
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989201
x1ca4064
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hVostt,
Хотя, на практике, достаточно и просто псевдослучайных байт - ужмется меньше, чем на 1%, если сжиматель не сделан специально под данный ГПСЧ
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989202
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Поток из ГПСЧ через deflate пропусти. Пожатое обычно не жмется
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989203
982183
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Мы для этих целей оцифровывали физический белый шум лет 20 назад....
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989225
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hVostt,

Для очень коротких последовательностей поток deflate должен быть всегда больше чем исходная.
За счёт заголовков блоков.

Поэтому ты уточни что у тебя на входе.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989338
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я как-то рассеяно размышлял об архиваторе который будет вести бесконечно большой справочник файлов или текстовых
фрагментов. По моим расчетам у меня коэффициент выходил намного лучше известных PPM/LZW.

Но это концепт. И время работы его архивации просто зависит от размера справочника. И основные данные - это статьи
и журналы и книги.

Вобщем я и Бабушкин будем вести соревнование.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989375
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я в свое время читал что-то про "арифметическое сжатие", это последний этап сжатия в программах архивации, после чего сжать последовательность практически невозможно.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989387
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hVostt, JPEG подойдёт?
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989424
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Aklin
Я в свое время читал что-то про "арифметическое сжатие", это последний этап сжатия в программах архивации, после чего сжать последовательность практически невозможно.

Это если рассматривать сжимаемые данные просто как Шенноновский поток абстрактных символов.
В моём методе я изучаю не вероятности символов а повторы слов, предложений, абзацев и даже
целых текстовых документов в изучаемом потоке.

Остался пустяк. Придумать быстрый детектор этих повторов. Здесь я застрял.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989482
mini.weblab
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
я не знаю, что подразумевается под deflate, поэтому предположу, что имеется ввиду произвольный алгоритм сжатия.

получить последовательность с нулевой или околонулевой сжимаемастью можно, но для конкретного алгоритма, т.е

CA(D) = CA(CA(D)) = CA( CA( CA(D) ) ) и т.д

CA - compression algorithm
D - data

в общем случае, думаю, что не получится, и exp98 как раз удачно упомянул JPEG (lossy compression algorithm),
т.е, меняя уровень потерь, на выходе мы каждый раз будем получать разные данные
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989486
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989488
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Без этого дефлейта не обходится ни один современный архиватор или файловый упаковщик.
И внутри Gif картинок он вобщем-то есть. И в Zip. И в jar/war/ear. И игровые форматы упаковки
ресурсов. И Андроидовские.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989491
mini.weblab
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,
спасибо, не знала

в конечном итоге все сведется к типу сжимаемых данных, математической модели и ее физической реализации
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989512
Фотография hVostt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
hVostt, JPEG подойдёт?


Нет, нужно генерировать последовательность.
В практической плоскости можно брать уже пожатые данные как исходник.

А я говорю про генерацию )
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989518
Фотография hVostt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я взял криптографический генератор случайных чисел, пожал дефлейтом, получил незначительное увеличение полученного размера. Чем больше объём данных, тем меньше оверхед.

В целом это решает задачу :)


x1ca4064
Хороший генератор _случайных_ чисел + расчет энтропии, если энтропия мала, новая генерация.
Зачем?


Dima T
Поток из ГПСЧ через deflate пропусти. Пожатое обычно не жмется


Вы оказались чертовски правы

Зачем? Хотел закостылить поток для расчёта пропускной скорости канала, при максимально плохих исходных данных.

Всем спасибо!
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989560
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Хоть решение уже и принято...
hVostt
В практической плоскости можно брать уже пожатые данные как исходник.
А я говорю про генерацию )
И я говорю про генерацию. И я говорил брать уже пожатые данные как исходник.
JPEG ,ZIP, RAR ... выше предлагали уже. Генерируешь псевдослуч. Называешь это рисунком. Делаешь JPEG ,ZIP, RAR ... Делаешь SubString(), чтобы избавиться от текстов. А дальше сжимай и проверяй, там 1% или больше.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989566
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Остался пустяк. Придумать быстрый детектор этих повторов. Здесь я застрял.
А за счёт памяти, индексирования триплетов/квартетов, и многоуровневости? Кратко так: 3плет сравнился -->переход на уровень выше и там уже продолжаем сравнивать представителей от бОльших кусков. Правда не знаю, насколько это быстро, не изучал.
Я 10-15 лет назад примерно так хотел авторефераты без словаря. Что-то игрушечное получалось. В конкретных деталях конечно далеко не так как я написал здесь.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989576
Фотография hVostt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
И я говорю про генерацию. И я говорил брать уже пожатые данные как исходник.


Так-то можно брать какую-угодно последовательность чего угодно, сжимать, и пожатые данные использовать в качестве исходника.

Это не интересно )
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989579
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98,

Я последний раз термин триплет слышал когда мы с Semantic Web работали. Там это было частью орграфа знаний. Типа subject, predicate, object.

Но ты очевидно имел в виду другое? Триграмма? Три символа?
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989594
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton, 3 символа.
hVostt, про интерес в вопросе не было.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989611
Фотография hVostt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
hVostt, про интерес в вопросе не было.


Было чётко сказано про генерацию.
Взять готовое и сказать, что это генерация -- халтура :)
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989726
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Любой криптографический ГПСЧ гарантирует нам отсутствие легких зависимостей
в последовательности. Можете взять

Код: sql
1.
Random random = new SecureRandom();


если вы - счастливый обладатель JDK.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989810
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В продолжение Тяпничной веревки для Льва Николаича (ps. не переживайте это такая стуктура
данных а не то что вы подумали) я хотел помимо гибкой строки, реализовать еще свой полнотекстовый поиск
с блекджеком и куртизанками на три-граммах.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989819
Roman Mejtes
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
может взять алгоритм Хоффмана, сгенерировать последовательность кодов (к примеру до 24 бит) и просто плеваться ими в случайном порядке?
я конечно не уверен, но мне кажется, там будет высокий уровень энтропии
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989892
mini.weblab
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Roman Mejtes,
а как можно сгенирировать последовательность по алгоритму Хаффмана?
:-)
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989894
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Любая симметричная криптография - тоже нулевая сжимаемость. Попробуйте сами.

Вернее сказать это один из нужных побочных эффектов. У атакующего нет никакой информации
вообще о характере и роде энтропии.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989907
mini.weblab
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,
я не верю в генерацию последовательности Хаффмана :-)

у меня сейчас по плану AVL Trees (self balanced binary search trees),
два дня ушло только на то, чтобы разобраться как делать балансировку
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989918
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mini.weblab
mayton,
я не верю в генерацию последовательности Хаффмана :-)

Я не консультирую в вопросах веры. Спроси как-нибудь по другому.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989963
Фотография hVostt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Я не консультирую в вопросах веры. Спроси как-нибудь по другому.


Ну типа, как напрямую сделать Хаффмана максимально не эффективным?
Без трюков с криптографией и гпсч?

Последовательность может быть простая, но не сжимаемая. Никаких атак здесь не подразумевается, как и защиты от неё.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989975
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну-у, навскидку что-то вроде того:
1)Маленькое разнообразие коротких последовательностей, часто встречающихся.
2)1-2 очнь длинноых, но редких послед-стей.
3) Они все не пересекаются.
ИМХО

И, Хвост, почему же у криптогр. трюки? Это просто методы равномерного размазывания исходного набора символов по более обширному набору. Просто есть готовые. А что, теперь нужно ещё один придумать?
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989981
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hVostt
mayton
Я не консультирую в вопросах веры. Спроси как-нибудь по другому.


Ну типа, как напрямую сделать Хаффмана максимально не эффективным?
Без трюков с криптографией и гпсч?

Последовательность может быть простая, но не сжимаемая. Никаких атак здесь не подразумевается, как и защиты от неё.

Смысл хаффмена - кодирование частых символов - короткими бит-последовательностями
префиксных кодов. А редких символов - длинными. На выходе имеем равномерно
шумящие биты. Но не идеальные.

Придумайте такую гистограмму (относительную частоту алфавита) при которой
гистограмма длин префиксных кодов Хаффмена будет максимально непропорциональна
относительным частотам вашего алфавита. Дальше - не хочу теоретизирвать.
Берите просто русский алфавит. И смотрите что получится на выходе. Закодируйте
хотя - бы 100 букв и посчитайте длину кода в битах. И сравните например с
32х символьным идеальным белым шумом. ПОсчитайте в битах. Чем ближе ваш
Хаффмен к белому шуму по длине - тем вы лучше его сломали.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989994
Фотография hVostt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
И, Хвост, почему же у криптогр. трюки? Это просто методы равномерного размазывания исходного набора символов по более обширному набору. Просто есть готовые. А что, теперь нужно ещё один придумать?


Математика на вас нет.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39989995
Фотография hVostt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Чем ближе ваш
Хаффмен к белому шуму по длине - тем вы лучше его сломали.


Практически задача решена, берём КГПСЧ и получаем то, что нужно.

А вот алгоритмически -- нет :)
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990011
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hVostt
mayton
Чем ближе ваш
Хаффмен к белому шуму по длине - тем вы лучше его сломали.


Практически задача решена, берём КГПСЧ и получаем то, что нужно.

А вот алгоритмически -- нет :)

Мне кажется что ты прикалываешься.

Сам давно уже решил задачу - но чего то ещё хочешь в топике намутить.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990041
Фотография hVostt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Сам давно уже решил задачу - но чего то ещё хочешь в топике намутить.


Ничего не хочу намутить, сказал же практически задача решена.

Но алгоритма, который изначально генерирует не случайную последовательность символов, которая не жмётся дефлейтом у меня нет. Т.е. алгоритмически задача не решена.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990055
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А чем тебе псевдослучайные числа - не алгоритм?
А последовательность целых (монотонная) не алгоритм?
А последовательность после shuffle - не алгоритм?
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990156
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А я понял его так, что мы все юзеры. Т.е. берём готовое, а своё придумать не можем или не умеем. Касательно себя я не особенно и протестую.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990159
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я точно юзер своего смартфона. Даже и в мыслях не было что-то в нем накодить.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990166
Фотография hVostt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
А чем тебе псевдослучайные числа - не алгоритм?


И микроскопом можно прекрасно забить гвоздь.
Просто так получилось, что псевдослучайные числа плохо жмутся.

Однако, это не исключает ситуации, когда некоторая сгенерированная последовательность пожмётся очень даже хорошо.

mayton
А последовательность целых (монотонная) не алгоритм?


Если она жмётся максимально плохо -- это отвечает практическим и алгоритмическим требованиям.

mayton
А последовательность после shuffle - не алгоритм?


Shuffle обычно реализуется на некотором рандоме.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990167
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hVostt
Однако, это не исключает ситуации, когда некоторая сгенерированная последовательность пожмётся очень даже хорошо.
Только я до этого не доживу.
А чтобы дожить, выше предлагалось пропускать послед-сть через фильтр.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990168
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hVostt
Shuffle обычно реализуется на некотором рандоме.

Предлагаю свести рандом к конечному автомату над булевыми значениями
и таким образом поставить детерминистическую точку в этом споре.

Рандом - это метафора. Конечный автомат который выдает циклическую
последовательность целых - реален.

Алгоритм?
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990174
Фотография hVostt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
Только я до этого не доживу.
А чтобы дожить, выше предлагалось пропускать послед-сть через фильтр.


Это ещё не доказано :)

mayton
Предлагаю свести рандом к конечному автомату над булевыми значениями
и таким образом поставить детерминистическую точку в этом споре.


Извините, я был не в курсе, что мы о чём-то спорим.
Я ведь уже давно согласился, что практически задача решена.

mayton
Рандом - это метафора.


"Стальные нервы" -- вот это метафора.
А "радном" это "случайный" в прямом смысле слова :)
В контексте нашего обсуждения, это ГПСЧ.

mayton
Конечный автомат который выдает циклическую
последовательность целых - реален.

Алгоритм?


++i :)

Берём алгоритм сжатия, конкретный, например deflate.
Теперь нужно сформировать бесконечную последовательность байт, которая гарантировано 100% +бесконечность никогда не будет сжата дефлейтом.

Вот это алгоритмическое решение.

Если что, я как бы не настаиваю, если у кого нет идей, то на нет и суда нет.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990176
mini.weblab
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hVostt,
авторТеперь нужно сформировать бесконечную последовательность байт, которая гарантировано 100% +бесконечность никогда не будет сжата дефлейтом.

ответ: нет, невозможно (имхо)
1) гарантировать 100% можно для конечной последовательности
2) для бесконечной последовательности можно гарантировать сходимость по распределению
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990177
mini.weblab
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
кстати! насчет алгоритма АВЛ, вот что я обнаружила:

авторАдельсон-Вельский Г. М., Ландис Е. М. Один алгоритм организации информации // Доклады АН СССР. — 1962. — Т. 146, № 2. — С. 263—266.

Adelson-Velsky, Georgy; Landis, Evgenii (1962). "An algorithm for the organization of information". Proceedings of the USSR Academy of Sciences (in Russian). 146: 263–266. English translation by Myron J. Ricci in Soviet Mathematics - Doklady, 3:1259–1263, 1962
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990193
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hVostt,

Да. Гарантировано не будет сжата. Она бы сжалась, если бы deflate был идеален. Но он ограничен по размеру справочника поэтому гпсч победит.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990215
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mini.weblab
кстати! насчет алгоритма АВЛ, вот что я обнаружила:
Там просто обязана быть аннотация.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990216
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hVostt
exp98
Только я до этого не доживу.
А чтобы дожить, выше предлагалось пропускать послед-сть через фильтр.
Это ещё не доказано :)
авторМатематика на вас нет. Отнюдь ))

...5. Класс множеств, строго представимых в данном базисе, вообще говоря, не замкнут уже относительно таких операций, как объединение и пересечение множеств, проектирование множества на алфавит и др. Для каждой из этих операций нетрудно построить базис порождения и строго представимые в этом базисе множества такие, что результат применения операции к соответствующим множествам не является строго представимым в этом базисе. Для последних двух операций то же утверждение остается верным и при переходе к строгой представимости при помощи перечислимого множества алгорифмов.

С. Ю. Маслов, О некоторых способах задания множеств в базисах порождения, Докл. АН СССР, 1963, том 153, номер 2, 266–269
a joke
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990222
Фотография hVostt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98,

Ну ладно-ладно, давайте вашу зачётку :))
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990224
Фотография Кроик Семён
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Число Пи
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990254
читал, читал и родилось пару мыслей...
авторАлгоритм Лемпеля-Зива
Классический алгоритм Лемпеля-Зива – LZ77, названный так по году своего опубликования, предельно прост. Он формулируется следующим образом : "если в прошедшем ранее выходном потоке уже встречалась подобная последовательность байт, причем запись о ее длине и смещении от текущей позиции короче чем сама эта последовательность, то в выходной файл записывается ссылка (смещение, длина), а не сама последовательность". Так фраза "КОЛОКОЛ_ОКОЛО_КОЛОКОЛЬНИ" закодируется как "КОЛО(-4,3)_(-5,4)О_(-14,7)ЬНИ".
если у нас каждый символ - это цифра, то не могут ли тут математики свою магию прикрутить?
авторРаспространенный метод сжатия RLE (англ. Run Length Encoding), который заключается в записи вместо последовательности одинаковых символов одного символа и их количества, является подклассом данного алгоритма. Рассмотрим, например, последовательность "ААААААА". С помощью алгоритма RLE она будет закодирована как "(А,7)", в то же время ее можно достаточно хорошо сжать и с помощью алгоритма LZ77 : "А(-1,6)". Действительно, степень сжатия именно такой последовательности им хуже (примерно на 30-40%), но сам по себе алгоритм LZ77 более универсален, и может намного лучше обрабатывать последовательности вообще несжимаемые методом RLE.
Нет ли "алгоритма максимального сжатия", который превратит код в несжимаемый?
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990291
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Если исходником был текст. То в нем есть несколько уровней семантики.

1) Есть символы и их энтропия (уровень Шеннона-Хаффмена). Или PPM или арифметическое сжатие.
2) слоги и слова (это справочники Лемпеля Зива)
3) Слова. Предложения. Шаблоны предложений. Регулярки. Грамматики. Формы Бекуса-Науэра. Языки программирования. Языки народов.
4) Тексты. Марковские модели. Локальные по отношению к главам и разделам книги или параграфа.
5) ? есть ли еще уровни? Не знаю. Наверное есть. Профили писателей. Стили.

Архиваторы работают на 1-2 уровне. Если анализировать текст на 3-4 уровень то можно что-то сжать побольше.
Поэтому пределу совершенства нет. Есть только вопрос как много денег и мегфалопов мы готовы отдать
чтобы пожать еще на 2-3 % лучше.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990307
надо быть реалистами и остановиться на п.2

помню в начале 00 в IRC был паренёк лет 18, который продавал алгоритм сжатия, превращающий 1000 байт в 10
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990308
Eolt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Можно и такую штуку использовать
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990317
mini.weblab
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза 2020,
если принять твою точку зрения о том, что компьютер работает исключительно с 0 и 1, то если сгенирировать битовую последовательность из 0 и 1, где появление как 0 так 1 равновероятно, то такую последовательность ничем не пожмешь.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990327
Roman Mejtes
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eolt, 1500 евриков, не слабо :) за такие бабки можно нанять таджика на год и он будет жать на клавиатуре случайные кнопки генерирую случайные последовательности
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990329
mini.weblab
Алексей Роза 2020,
если принять твою точку зрения о том, что компьютер работает исключительно с 0 и 1, то если сгенирировать битовую последовательность из 0 и 1, где появление как 0 так 1 равновероятно, то такую последовательность ничем не пожмешь.

её априори не пожмёшь, потому что обозначить сжатый кусок нечем
а так можно было бы подряд идущие 0/1 пожать
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990363
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза 2020
надо быть реалистами и остановиться на п.2

помню в начале 00 в IRC был паренёк лет 18, который продавал алгоритм сжатия, превращающий 1000 байт в 10

С архиваторами очень легко обмануть на специфичных данных. Например - вести заведомо известный
справочник из заведомо подгтовленных блобов которые участвуют в тесте. Найти эти блобы - не проблема.

Или специально подтасовать исходные данные так что Архиватор Бабушкина будет в профите (реально
и под него существуют частные случаи).

Или заведомо знать что будем сжимать трафик из random() а он - детерминирован. Достаточно только знать
стартовую комбинацию seed.

И я уже молчу про то что архиватор может проско скидывать файло в S3.amazon хранилище.

Модератор: Материться не надо даже с точечками
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990365
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Roman Mejtes
Eolt, 1500 евриков, не слабо :) за такие бабки можно нанять таджика на год и он будет жать на клавиатуре случайные кнопки генерирую случайные последовательности

А зачем он нужен? Время специфичной аппаратуры прошло еще в 2000х.
Сегодня - любое железо - суть платформа которая просто исполняет микро-код.
Так решили. Так дешевле обновлять и поддерживать актуальность. А любая
железка содержит баги и стареет протоколом и еще и опасна по Керхгофсу.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990392
Eolt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
А зачем он нужен?


Это генератор подлинных случайных чисел. Компьютер же генерирует псевдослучайную последовательность.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990393
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eolt
mayton
А зачем он нужен?


Это генератор подлинных случайных чисел. Компьютер же генерирует псевдослучайную последовательность.

Не, mayton прав, а ты зря продолжение его поста обрезал.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990400
Eolt
mayton
А зачем он нужен?


Это генератор подлинных случайных чисел. Компьютер же генерирует псевдослучайную последовательность.

а чё так сложна? положение атомов в пространстве всегда рандомно из-за броуновской движухи
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990401
Eolt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dima T,

HRNG используется в серьезных и денежных проектах. Там где не будут использовать генератор псевдослучайных чисел написанный Васей Пупкиным из Крыжополя.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990403
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eolt
Dima T,

HRNG используется в серьезных и денежных проектах. Там где не будут использовать генератор написанный Васей Пупкиным из Крыжополя.

Ты плохо себе представляешь законы Керхгофа и криптографию.
Исходных код этого железа должен быть предоставлен. Иначе господа
которые его продают - мошенники либо спецслужбы государства.

Я не вижу никакого смысла в современном мире парить железку
которая решает какую-то крипто-задачу но при этом представляет
собой черный ящик. Мы уже это проходили.

Ты меня понимаешь?
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990405
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mini.weblab
кстати! насчет алгоритма АВЛ, вот что я обнаружила: ...
Всё же остался вопрос. Как понял я, там речь о том, что поиск с такой структурой осуществляется за C*Log(N). А как от этого проложить мостик к Хафману, о котором недавно шла речь?
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990406
Eolt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton

Ты плохо себе представляешь законы Керхгофа и криптографию.
Исходных код этого железа должен быть предоставлен. Иначе господа
которые его продают - мошенники либо спецслужбы государства.

Я не вижу никакого смысла в современном мире парить железку
которая решает какую-то крипто-задачу но при этом представляет
собой черный ящик. Мы уже это проходили.

Ты меня понимаешь?


Я понимаю, что ты не понимаешь зачем нужен HRNG.

Типичный кейс - например открываешь онлайн-казино где нибудь в Европе, где делают ставки через интернет на рулетку.
Как получать случайные числа для рулетки? Генератор RND написанных Васей Пупкиным из Крыжополя не подойдет. Полиция заявит, что ты мошенник и генератор подыгрывает тебе, и будет права ибо нефиг. Пойдешь в тюрьму за мошенничество.
Чтобы не попасть в тюрьму, покупаешь сертифицированный HRNG за 1500 евро и генеришь им случайные числа. Полиция к тебе не имеет претензий. В случае чего все претензии производителю HRNG.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990408
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Если исходником был текст. То в нем есть несколько уровней семантики. 1)...5)...
Не буду ни придираться к мелочам, ни достраивать до 6), 7).... Я просто прошу всех записать этот пост мэйтона в склерозничек.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990414
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eolt
mayton

Ты плохо себе представляешь законы Керхгофа и криптографию.
Исходных код этого железа должен быть предоставлен. Иначе господа
которые его продают - мошенники либо спецслужбы государства.

Я не вижу никакого смысла в современном мире парить железку
которая решает какую-то крипто-задачу но при этом представляет
собой черный ящик. Мы уже это проходили.

Ты меня понимаешь?


Я понимаю, что ты не понимаешь зачем нужен HRNG.

Типичный кейс - например открываешь онлайн-казино где нибудь в Европе, где делают ставки через интернет на рулетку.
Как получать случайные числа для рулетки? Генератор RND написанных Васей Пупкиным из Крыжополя не подойдет. Полиция заявит, что ты мошенник и генератор подыгрывает тебе, и будет права ибо нефиг. Пойдешь в тюрьму за мошенничество.
Чтобы не попасть в тюрьму, покупаешь сертифицированный HRNG за 1500 евро и генеришь им случайные числа. Полиция к тебе не имеет претензий. В случае чего все претензии производителю HRNG.

Тоесть ты в топике программирования решил рекламировать частное железо? Зачем тебе это?

Я уже не говорю о том что это железо - закрытое для нас и здесь нет темы программирования.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990429
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
mayton
Если исходником был текст. То в нем есть несколько уровней семантики. 1)...5)...
Не буду ни придираться к мелочам, ни достраивать до 6), 7).... Я просто прошу всех записать этот пост мэйтона в склерозничек.

А зачем его записывать?
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990552
mini.weblab
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
mini.weblab
кстати! насчет алгоритма АВЛ, вот что я обнаружила: ...
Всё же остался вопрос. Как понял я, там речь о том, что поиск с такой структурой осуществляется за C*Log(N). А как от этого проложить мостик к Хафману, о котором недавно шла речь?

я просто так сказала, что сейчас пытаюсь сделать АВЛ дерево. :-)
а потом я стала читать про АВЛ деревья и обнаружила, что алгоритм был разработан в СССР.
а вообще АВЛ дерево, как и дерево Хаффмана есть алгоритм для хранения данных.
дерево Хаффмана - решает задачу размера данных, а АВЛ дерево - обеспечивает быстрый доступ к данным.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990562
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
А зачем его записывать?
Автор может не записывать.
Сразу вспоминаю анекдот, как заставить чел-ка спрыгнуть с Лондонского моста.
-Вы знаете, что с моста прыгать запрещено?
-А-а .... пофиг.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990574
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
mayton
А зачем его записывать?
Автор может не записывать.
Сразу вспоминаю анекдот, как заставить чел-ка спрыгнуть с Лондонского моста.
-Вы знаете, что с моста прыгать запрещено?
-А-а .... пофиг.

Мне больше напоминает сказку где кролик говорил Лису дескыть делай со мной что хочешь только
за терновый куст не бросай.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39991573
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Но ты очевидно имел в виду другое? Триграмма? Три символа?
Не по теме, здесь был побочный вопрос. На самом нижнем уровне имел ввиду такое (вроде словарика), не строго по 3, 2-4, "_" это разделитель:
..._э-г_э-х_эбе_эбо_эбу_эва_эвг_эвд_эве_эвк_эвм_эво_эвр_эвт_эвф_эга_эге_эги_эго_эгр_эда_эде_эди_эже_эзо_эйд_эйф_эйх_эка_экв_эке_экз_эки_экк_экл_эко_экп_экр_экс_экт_эку_экю_эла_эле_эли_элл_эло_эль_элю_эма_эмб_эме_эми_эмм_эмо_эмп_эму_эмф_эна_энг_энд_эне_энз_эни_энк_энн_эно_энс_энт_эну_энц_эоз_эол_эоц_эпа_эпе_эпи_эпо_эпу_эпю_эра_эрб_эрг_эрд_эре_эрз_эри_эрк_эрл_эро_эрр_эрс_эру_эрц_эсд_эсе_эск_эсм_эсп_эсс_эст_эсх_эсэ_эта_эте_эти_этн_это_этр_этю_эфа_эфе_эфи_эфо_эфф_эхи_эхм_эхо_эша_эше_эяк_юан_юби_юбк_юбо_юбч_юве_юго_юдо_южа_южн_юзо_юит_юка_юкк_юко_юла_юли_юлк_юмо_юна_юнг_юне_юни_юнк_юнн_юно_юны_юпи_юра_юри_юрк_юро_юрс_юрт_юрь_юсо_юст_юти_юфе_юфт_юшк_ююб_ябе_ябл_ява_яви_явк_явл_явн_яво_явс_явь_яга_ягд_яге_ягн_яго_ягу_яде_ядо_ядр_язв_язё_язы_язь_яиц_яич_яйл_яйц_яка_яко_яку_якш_яли_яло_ялт_яма_ямб_ями_ямк_ямн_ямо_ямс_ямщ_янв_янк_янс_янт_яны_япо_яра_ярд_яре_яри_ярк_ярл_ярм_яро_яру_ярч_яры_ярь_яса_ясе_яск_ясл_ясм_ясн_ясо_яст_ясы_ята_ятв_ято_ятр_ять_яфе_яхо_яхт_яча_яче_ячи_ячм_ячн_яшм_яще_ящи_ящу_-с_ад_аж_аз_аи_ай_ан_ар_ас_ау_ах_ба_бы_во_вы_га_гм_да_до_её_еж_ер_ёж_же_за_из_ил_ин_их_ка_ко_кш_ли_ль_ля_ми_мм_мо_му_мы_на_не_ни_но_ну_ню_об_од_ой_ом_он_оп_от_ох_па_по_ре_се_сё_си_со_су_то_ту_ты_уа_уд_уж_ук_ум_ус_уф_ух_фа_фи_фу_ха_хм_це_че_чу_ша_ща_щи_эй_эк_эм_эн_эр_эс_эф_эх_юг_юз_юр_юс_ют_яд_яз_як_ял_ям_яр_яс_
на уровнях выше аналогично, но то уже не назвать буквами и их кол-во на текстах стягивается в точку.
...
Рейтинг: 0 / 0
73 сообщений из 73, показаны все 3 страниц
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Несжимаемая последовательность байт
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]