|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
Есть идеи, как сгенерировать последовательность байт, с какими-то гарантиями нулевой или около нулевой сжимаемости? Условно говоря, если пропустить поток через какой-нибудь deflate, на выходе размер практически не изменится. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 00:49 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
hVostt Есть идеи, как сгенерировать последовательность байт, с какими-то гарантиями нулевой или около нулевой сжимаемости? Хороший генератор _случайных_ чисел + расчет энтропии, если энтропия мала, новая генерация. Зачем? ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 04:00 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
hVostt, Хотя, на практике, достаточно и просто псевдослучайных байт - ужмется меньше, чем на 1%, если сжиматель не сделан специально под данный ГПСЧ ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 06:25 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
Поток из ГПСЧ через deflate пропусти. Пожатое обычно не жмется ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 06:39 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
Мы для этих целей оцифровывали физический белый шум лет 20 назад.... ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 06:47 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
hVostt, Для очень коротких последовательностей поток deflate должен быть всегда больше чем исходная. За счёт заголовков блоков. Поэтому ты уточни что у тебя на входе. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 09:21 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
Я как-то рассеяно размышлял об архиваторе который будет вести бесконечно большой справочник файлов или текстовых фрагментов. По моим расчетам у меня коэффициент выходил намного лучше известных PPM/LZW. Но это концепт. И время работы его архивации просто зависит от размера справочника. И основные данные - это статьи и журналы и книги. Вобщем я и Бабушкин будем вести соревнование. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 13:29 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
Я в свое время читал что-то про "арифметическое сжатие", это последний этап сжатия в программах архивации, после чего сжать последовательность практически невозможно. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 14:33 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
hVostt, JPEG подойдёт? ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 14:50 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
Aklin Я в свое время читал что-то про "арифметическое сжатие", это последний этап сжатия в программах архивации, после чего сжать последовательность практически невозможно. Это если рассматривать сжимаемые данные просто как Шенноновский поток абстрактных символов. В моём методе я изучаю не вероятности символов а повторы слов, предложений, абзацев и даже целых текстовых документов в изучаемом потоке. Остался пустяк. Придумать быстрый детектор этих повторов. Здесь я застрял. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 16:12 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
я не знаю, что подразумевается под deflate, поэтому предположу, что имеется ввиду произвольный алгоритм сжатия. получить последовательность с нулевой или околонулевой сжимаемастью можно, но для конкретного алгоритма, т.е CA(D) = CA(CA(D)) = CA( CA( CA(D) ) ) и т.д CA - compression algorithm D - data в общем случае, думаю, что не получится, и exp98 как раз удачно упомянул JPEG (lossy compression algorithm), т.е, меняя уровень потерь, на выходе мы каждый раз будем получать разные данные ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 18:18 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 18:26 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
Без этого дефлейта не обходится ни один современный архиватор или файловый упаковщик. И внутри Gif картинок он вобщем-то есть. И в Zip. И в jar/war/ear. И игровые форматы упаковки ресурсов. И Андроидовские. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 18:28 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
mayton, спасибо, не знала в конечном итоге все сведется к типу сжимаемых данных, математической модели и ее физической реализации ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 18:35 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
exp98 hVostt, JPEG подойдёт? Нет, нужно генерировать последовательность. В практической плоскости можно брать уже пожатые данные как исходник. А я говорю про генерацию ) ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 19:28 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
Я взял криптографический генератор случайных чисел, пожал дефлейтом, получил незначительное увеличение полученного размера. Чем больше объём данных, тем меньше оверхед. В целом это решает задачу :) x1ca4064 Хороший генератор _случайных_ чисел + расчет энтропии, если энтропия мала, новая генерация. Зачем? Dima T Поток из ГПСЧ через deflate пропусти. Пожатое обычно не жмется Вы оказались чертовски правы Зачем? Хотел закостылить поток для расчёта пропускной скорости канала, при максимально плохих исходных данных. Всем спасибо! ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 19:37 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
Хоть решение уже и принято... hVostt В практической плоскости можно брать уже пожатые данные как исходник. А я говорю про генерацию ) JPEG ,ZIP, RAR ... выше предлагали уже. Генерируешь псевдослуч. Называешь это рисунком. Делаешь JPEG ,ZIP, RAR ... Делаешь SubString(), чтобы избавиться от текстов. А дальше сжимай и проверяй, там 1% или больше. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 21:22 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
mayton Остался пустяк. Придумать быстрый детектор этих повторов. Здесь я застрял. Я 10-15 лет назад примерно так хотел авторефераты без словаря. Что-то игрушечное получалось. В конкретных деталях конечно далеко не так как я написал здесь. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 21:43 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
exp98 И я говорю про генерацию. И я говорил брать уже пожатые данные как исходник. Так-то можно брать какую-угодно последовательность чего угодно, сжимать, и пожатые данные использовать в качестве исходника. Это не интересно ) ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 22:18 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
exp98, Я последний раз термин триплет слышал когда мы с Semantic Web работали. Там это было частью орграфа знаний. Типа subject, predicate, object. Но ты очевидно имел в виду другое? Триграмма? Три символа? ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 22:26 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
mayton, 3 символа. hVostt, про интерес в вопросе не было. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 22:58 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
exp98 hVostt, про интерес в вопросе не было. Было чётко сказано про генерацию. Взять готовое и сказать, что это генерация -- халтура :) ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2020, 23:34 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
Любой криптографический ГПСЧ гарантирует нам отсутствие легких зависимостей в последовательности. Можете взять Код: sql 1.
если вы - счастливый обладатель JDK. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.08.2020, 11:34 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
В продолжение Тяпничной веревки для Льва Николаича (ps. не переживайте это такая стуктура данных а не то что вы подумали) я хотел помимо гибкой строки, реализовать еще свой полнотекстовый поиск с блекджеком и куртизанками на три-граммах. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.08.2020, 13:57 |
|
Несжимаемая последовательность байт
|
|||
---|---|---|---|
#18+
может взять алгоритм Хоффмана, сгенерировать последовательность кодов (к примеру до 24 бит) и просто плеваться ими в случайном порядке? я конечно не уверен, но мне кажется, там будет высокий уровень энтропии ... |
|||
:
Нравится:
Не нравится:
|
|||
14.08.2020, 14:11 |
|
|
start [/forum/moderation_log.php?user_name=Imrek]: |
0ms |
get settings: |
10ms |
get forum list: |
14ms |
get settings: |
8ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
186ms |
get topic data: |
12ms |
get forum data: |
2ms |
get page messages: |
66ms |
get tp. blocked users: |
2ms |
others: | 575ms |
total: | 896ms |
0 / 0 |