Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
Есть данные Д - битовая последовательность длины N, - которые требуется сжать, и стандартный ГПСЧ. 1. Находим битовую последовательность минимальной длины M, которая ни разу не встречается в Д. Назовём её "флаг" (Ф). 2. В цикле перебираем значения seed (s), используемые для инициации ГПСЧ: ГПСЧ(s). 3. Посредством ГПСЧ(s) генерируем случайную последовательность (СП) той же длины N. 4. Сравниваем побитово Д и СП. Все совпадающие - в Д и СП - последовательности битов, длиной больше М заменяем (в Д !) на флаг Ф. При этом следим, чтобы "на стыках" вставляемого флага и соседних исходных битов Д не возникали "паразитные флаги". 5. В результате замен получается битовая последовательность Д' длины N' (меньше N !). 6. Продолжаем перебор (цикл в п.2) до тех пор, пока не найдём значение seed, дающее удовлетворяющую нас степень сжатия К= N/N' 7. Архивный файл представляет собой структуру из трёх элементов: Ф, s, Д' . ______________________________ PS. Как вариант, в качестве флага Ф можно использовать вообще любую последовательность битов, желательно редко встречающуюся в Д, поскольку "естественные" вхождения Ф в Д нужно будет маркировать посредством, например, удвоения: Ф -> ФФ. (И потом нужно будет следить, чтобы дополнительные ФФ не возникали в процессе сжатия.) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.01.2018, 12:36 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
... кстати, файл, сжатый с применением одной пары параметров (Ф1, s1), можно дальше пытаться сжимать с каким то другим Ф2, подбирая какое-то другое значение s2. И так пока не надоест. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 03.01.2018, 13:26 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
Иван FXS, Если ГПСЧ качественный, т.е. распределение битов равновероятно, оцените количество циклов для достижения нужной степени сжатия. Задачка не выглядит очень уж сложной и, я думаю, ответ вам не понравится. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.01.2018, 10:00 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
Задачу можно свести к вырожденной заменив гпсч на последовательность целых чисел. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.01.2018, 10:35 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
Это обычный алгоритм LZW, только с ошибками и случайно-генеруемым словарем :fail: ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.01.2018, 10:50 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
scf, по секрету, этот топик вынесен в автономную тему из темы http://www.sql.ru/forum/1281135/dispersiya-dliny-arhiva -- где как раз обсуждалось сильное (желательно) сжатие с расходованием большого (в пределе - не ограниченного) количества ресурсов. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.01.2018, 12:25 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
Siemargl, Сюрприз: словарь не нужно запихивать в архивный файл! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.01.2018, 12:26 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
Точно такое же первое впеч, как у Siemargl - типа ЛЗВ, но только словарь заменён алгоритмом. Т.е. как бы , отталкиваясь от идей ЛЗВ, строим нечто из класса "сжатие посредством алгоритма". В связи с этим (и учитывая корни этой темы) есть мнение, что 1 из 2-х: либо нужно уметь восстанавливать исходник, либо нужна воспроизводимость кодирования данной Д. Во всяк я так понимаю термин pow. В случае же ГСПЧ да ещё стандартного я сомневаюсь в воспроизводимости. По моему мнению, при одном и том же СИДЕ СП будут разные (а лень проверять). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.01.2018, 19:12 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
exp98, вы, наверное, полагаете, что если повторно вызвать ГПСЧ с тем же аргументом (seed-ом), то он возвратит другой результат ... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.01.2018, 19:38 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
Иван FXS, пример кода будет? Желательно со статистикой. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.01.2018, 20:10 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
Dima T, в смысле "пример кода"? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.01.2018, 20:30 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
Ну чтож... пятница продолжается. Давайте порассуждаем. Иван FXSЕсть данные Д - битовая последовательность длины N, - которые требуется сжать, и стандартный ГПСЧ. Тезис о том что есть некая "последовательность в вакууме" меня не устраивает. Он - лукавый. У меня возникли вопросы. На что похожа эта битовая последовательность? 1. Английский текст. Или произвольный текст. 2. Поток случайных бит наподобие /dev/urandom 3. Смесь вышеперечисленного. 4. Еще какой-то вариант 1. Находим битовую последовательность минимальной длины M, которая ни разу не встречается в Д. Назовём её "флаг" (Ф). Я-бы предложил назвать его "escape" ('\') 2. В цикле перебираем значения seed (s), используемые для инициации ГПСЧ: ГПСЧ(s). Нам нужно хотя-бы формально доказать что длина s в битах будет меньше чем длина random(). К примеру для встроенного в ОС линейного конгруэнтного ГПСЧ, аргумент и функция будут по 32 бита. И функция - суть биекция. Если мы вводим в задачу ГПСЧ более высокой или плавающей разрядности то надо обосновать что он является ГПСЧ. Либо он НЕ-ГПСЧ. Либо не биекция. Не биекция - значит не покрываем ОДЗ. И т.д. 3. Посредством ГПСЧ(s) генерируем случайную последовательность (СП) той же длины N. 4. Сравниваем побитово Д и СП. Все совпадающие - в Д и СП - последовательности битов, длиной больше М заменяем (в Д !) на флаг Ф. При этом следим, чтобы "на стыках" вставляемого флага и соседних исходных битов Д не возникали "паразитные флаги". 5. В результате замен получается битовая последовательность Д' длины N' (меньше N !). Последний поинт - слабое место в рассуждениях. Надо как-то подкрепить рассуждения. Ато получится очередной кодер Бабушкина. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.01.2018, 00:56 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
maytonНам нужно хотя-бы формально доказать что длина s в битах будет меньше чем длина random(). нам совершенно это не нужно, поскольку пользоваться мы собираемся не "атомарным" значением, возвращаемым random-мом, а (как и написано далее) "случайной последовательность ... длины N". Для построения которой, естественно, нам придётся вызывать random последовательно некоторое количество раз. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.01.2018, 09:31 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
... причём вся эта (псевдо-) "случайная последовательность длины N" алгоритмически порождается одним (исходным) значением seed. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.01.2018, 09:33 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
maytonПоследний поинт - слабое место в рассуждениях. совершенно не слабое, поскольку мы делаем только те замены, которые укорачивают длину строки. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.01.2018, 10:10 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
А что там по первому вопросу? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.01.2018, 12:35 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
mayton, да хоть "3. Смесь вышеперечисленного". При том что вы ведь в курсе той, параллельной темы, и знаете, что тема возникла в контексте сжатия данных блокчейна криптовалюты (типа Биткойна)... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.01.2018, 12:51 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
Иван FXS, ok. Нужен образец исходных данных. И ваш proof-of-concept. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.01.2018, 14:08 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
maytonНужен образец исходных данных как я понимаю, вот здесь https://rutracker.org/forum/viewtopic.php?t=5444025 файлы с расширением .ldb (типа 3806072.ldb) размером ~2Мб -- это блоки блокчейна в натуральном виде ... С proof-of-concept заметно сложнее ... его нет, есть только чистая идея. В статусе гипотезы, к тому же. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.01.2018, 18:58 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
Тогда предлагаю ее называть гипотезой СРСД (по названию топика). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.01.2018, 19:08 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
exp98Точно такое же первое впеч, как у Siemargl - типа ЛЗВ, но только словарь заменён алгоритмом. Т.е. как бы , отталкиваясь от идей ЛЗВ, строим нечто из класса "сжатие посредством алгоритма". В связи с этим (и учитывая корни этой темы) есть мнение, что 1 из 2-х: либо нужно уметь восстанавливать исходник, либо нужна воспроизводимость кодирования данной Д. Во всяк я так понимаю термин pow. В случае же ГСПЧ да ещё стандартного я сомневаюсь в воспроизводимости. По моему мнению, при одном и том же СИДЕ СП будут разные (а лень проверять).не ну почему. псевдорандом же. при одном и том же seed, генерирует одну и ту же последовательность. это слегка модифицированный алгоритм под названием "мартышка, клацая на пишущей машинке, за очень большое время напишет войну и мир". Дает возможность топикстартеру посетовать, что не то что алгоритм плохой, просто процессоры у нас слабые :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.01.2018, 14:23 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
Это ближе к Библиотеке Борхеса. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.01.2018, 14:51 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
S.G."мартышка, клацая на пишущей машинке, за очень большое время напишет войну и мир" точно! Я думал об этом, но как-то не нашлось повода упомянуть это трудолюбивое животное. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.01.2018, 18:55 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
S.G."мартышка, клацая на пишущей машинкеа майнинговые фермы -- это разве не триллиарды кремниевых мартышек, клацающих на пишущих машинках? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.01.2018, 08:19 |
|
||
|
Об одном способе ресурсоёмкого сжатия данных
|
|||
|---|---|---|---|
|
#18+
Иван FXSЕсть данные Д - битовая последовательность длины N, - которые требуется сжать, и стандартный ГПСЧ. 1. Находим битовую последовательность минимальной длины M, которая ни разу не встречается в Д. Назовём её "флаг" (Ф). 2. В цикле перебираем значения seed (s), используемые для инициации ГПСЧ: ГПСЧ(s). 3. Посредством ГПСЧ(s) генерируем случайную последовательность (СП) той же длины N. 4. Сравниваем побитово Д и СП. Все совпадающие - в Д и СП - последовательности битов, длиной больше М заменяем (в Д !) на флаг Ф. При этом следим, чтобы "на стыках" вставляемого флага и соседних исходных битов Д не возникали "паразитные флаги". 5. В результате замен получается битовая последовательность Д' длины N' (меньше N !). 6. Продолжаем перебор (цикл в п.2) до тех пор, пока не найдём значение seed, дающее удовлетворяющую нас степень сжатия К= N/N' 7. Архивный файл представляет собой структуру из трёх элементов: Ф, s, Д' . ______________________________ PS. Как вариант, в качестве флага Ф можно использовать вообще любую последовательность битов, желательно редко встречающуюся в Д, поскольку "естественные" вхождения Ф в Д нужно будет маркировать посредством, например, удвоения: Ф -> ФФ. (И потом нужно будет следить, чтобы дополнительные ФФ не возникали в процессе сжатия.) А обратно как распаковать? Вот прямо с коротким примером можете? Что значит "последовательности битов, длиной больше М заменяем ..."? Насколько больше? На фиксированное число битов? Если заменять последовательности произвольной длины больше М, то как вы потом исходную длину узнаете? Вот допустим у вас на выходе Ф=101 и Д'=1011101, ну и s какой-то, как вы это распакуете? Вы же даже N не планируете сохранять. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.01.2018, 12:48 |
|
||
|
|

start [/forum/topic.php?fid=16&msg=39579992&tid=1340187]: |
0ms |
get settings: |
8ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
171ms |
get topic data: |
13ms |
get forum data: |
3ms |
get page messages: |
58ms |
get tp. blocked users: |
1ms |
| others: | 12ms |
| total: | 288ms |

| 0 / 0 |
