Об одном способе ресурсоёмкого сжатия данных / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Об одном способе ресурсоёмкого сжатия данных

10 сообщений из 60, страница 3 из 3

все

Об одном способе ресурсоёмкого сжатия данных

#39581886

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Иван FXSнет.
Если исходная строка -

Код: plaintext

"10101011100111010101 1111 1001111001 1111111111 "

, то флаг "000", как и описано в п.1

Если случайная строка, внезапно, получилась

Код: plaintext

"11111111111111111111111111111111111111111111"

, то сжатая будет:

Код: plaintext

"10101011100111010101 000 100111001 000 "

(плюс отдельно нужно будет передать длины двух "флагированных" отрезков.
А где seed для инициализации ГПСЧ?

...

Рейтинг:

0 / 0

10.01.2018, 16:43:22

| Ответить | Цитировать | Написать

Об одном способе ресурсоёмкого сжатия данных

#39581890

Иван FXS

Участник

Сообщения: 1 761

Рейтинг: 0 / 0

Dima T,

тоже нужно будет передавать, это уже написано - в п.7 исходного поста.

...

Рейтинг:

0 / 0

10.01.2018, 16:47:38

| Ответить | Цитировать | Написать

Об одном способе ресурсоёмкого сжатия данных

#39581895

Иван FXS

Участник

Сообщения: 1 761

Рейтинг: 0 / 0

Dima Tдля хранения seed потребуется места столько же сколько занимает исходная подстрока, это я выше доказал я это ваше доказательство не вкурил, извините. Что за "исходная под -строка"?

...

Рейтинг:

0 / 0

10.01.2018, 16:53:41

| Ответить | Цитировать | Написать

Об одном способе ресурсоёмкого сжатия данных

#39581897

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Иван FXSDima T,

тоже нужно будет передавать, это уже написано - в п.7 исходного поста.
В случае если повторов подстроки будет найдено 2 и более, то нахождение пожатого варианта становится более вероятно, но размер пожатого будет меньше на какие-то единицы бит.

И я придумал как эту задачу порешать за один проход всех вариантов seed :)

...

Рейтинг:

0 / 0

10.01.2018, 16:54:39

| Ответить | Цитировать | Написать

Об одном способе ресурсоёмкого сжатия данных

#39581907

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Иван FXSDima Tдля хранения seed потребуется места столько же сколько занимает исходная подстрока, это я выше доказал я это ваше доказательство не вкурил, извините. Что за "исходная под -строка"?
Например чтобы нашлось 1111 (это исходная подстрока), т.е. 4 бита ГПСЧ должен иметь минимум 2^4 вариантов seed, поэтому чтобы записать конкретное значение seed надо будет 4 бита.

Хотя для твоего алгоритма доказательство не совсем корректно, т.к. найти надо какой-нибудь один из всего множества, т.е. вероятность выше, но чувствую что не намного, осталось придумать как это обосновать.

...

Рейтинг:

0 / 0

10.01.2018, 17:06:20

| Ответить | Цитировать | Написать

Об одном способе ресурсоёмкого сжатия данных

#39581912

Иван FXS

Участник

Сообщения: 1 761

Рейтинг: 0 / 0

Dima T,

"Например чтобы нашлось 1111 (это исходная подстрока)" ... в одной конкретной позиции ... "ГПСЧ должен иметь минимум 2^4 вариантов seed"

-- но нам совершенно не обязательно, чтобы нашлось именно "1111" и именно в этой позиции.

...

Рейтинг:

0 / 0

10.01.2018, 17:11:50

| Ответить | Цитировать | Написать

Об одном способе ресурсоёмкого сжатия данных

#39581927

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Иван FXS-- но нам совершенно не обязательно, чтобы нашлось именно "1111" и именно в этой позиции.
Верно, я потому и написал "доказательство не совсем корректно".

Надо отталкиваться от другого: какой макс.длины подстрока наиболее вероятно найдется? Думаю М бит, где М такое что 2^M меньше всех возможных комбинаций seed. Потому что ГПСЧ может выдать больше всего различных комбинаций по М бит.

Дальше надо посчитать как-то вероятность получения совпадения M+1 бит, M+2 и т.д. Не соображу как, но чувствую что каждый доп.бит уменьшает вероятность вдвое, т.е. сэкономить пару байт это уже достаточно редкий случай.

...

Рейтинг:

0 / 0

10.01.2018, 17:24:15

| Ответить | Цитировать | Написать

Об одном способе ресурсоёмкого сжатия данных

#39583939

Иван FXS

Участник

Сообщения: 1 761

Рейтинг: 0 / 0

SiemarglЭто обычный алгоритм LZW, только с ошибками и случайно-генеруемым словарем :fail:
только вы то ли не заметили, то ли решили умолчать о том, что "генерируемый словарь" означает, что словарь не класть в выходной файл (увеличивая его размер), как это делается в LZW.

("С ошибками" я не понял, поэтому отнестись не могу.)

...

Рейтинг:

0 / 0

14.01.2018, 15:18:32

| Ответить | Цитировать | Написать

Об одном способе ресурсоёмкого сжатия данных

#39583940

Иван FXS

Участник

Сообщения: 1 761

Рейтинг: 0 / 0

Иван FXSсловарь не нужно класть в выходной файл

...

Рейтинг:

0 / 0

14.01.2018, 15:22:15

| Ответить | Цитировать | Написать

Об одном способе ресурсоёмкого сжатия данных

#39583961

Иван FXS

Участник

Сообщения: 1 761

Рейтинг: 0 / 0

Сейчас, почти через две недели, я бы по-другому сформулировал концепцию сжатия (гипотетическую, конечно, поскольку осуществимость её не доказана). А именно, я бы заменил "флаг" (который непонятно-какой-длины) на "цепную адресацию":

Есть данные Д - битовая строка длины N, - которую требуется сжать, и стандартный ГПСЧ.

1. В цикле перебираем значения seed (s), используемые для инициации ГПСЧ: ГПСЧ(s).

2. Записываем s в начало выходного файла.

3. Посредством ГПСЧ(s) генерируем случайную последовательность (СП) той же длины N.

4. Устанавливаем "счётчик цепной адресации" в ноль: А=0.

5. Сравнивая побитово Д и СП, движемся вдоль них обеих до тех пор, пока не находим в них (по "цепному адресу" А) одинаковую подстроку (П) длиной М.

6. Если используемая нами нотация записи целых чисел позволят записать эти два числа (А и М) короче, чем М битов, то записываем их в начало выходного файла. И записываем в его конец очередную порцию несжатых битов - те, что шли до П (то есть подстроку П "выбрасываем", не пишем в выходной файл).

(6.1. Кстати, мы можем постановить, что с подстроками короче М0 связываться принципиально не следует; тогда записывать нужно не М, а разницу М-М0, что чуточку выгоднее.)

7. Если условие, описанное в п. 6, выполнено, переходим на п.4; если не выполнено -- переходим на п.5. Дальнейшее сканирование строк -- в любом случае -- продолжается с первого бита после подстроки П.

8. Дойдя до конца строки Д, оцениваем полученный вариант сжатия: если он лучше всех предыдущих, сохраняем его, если нет -- забываем. И переходим к п.1 .

...

Рейтинг:

0 / 0

14.01.2018, 16:49:22

| Ответить | Цитировать | Написать

10 сообщений из 60, страница 3 из 3

все

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Об одном способе ресурсоёмкого сжатия данных

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&msg=39581897&tid=1340187]:	0ms
get settings:	7ms
get forum list:	15ms
check forum access:	3ms
check topic access:	3ms
track hit:	44ms
get topic data:	8ms
get forum data:	2ms
get page messages:	42ms
get tp. blocked users:	1ms
others:	191ms

total:	316ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы