powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Несжимаемая последовательность байт
23 сообщений из 73, страница 3 из 3
Несжимаемая последовательность байт
    #39990254
читал, читал и родилось пару мыслей...
авторАлгоритм Лемпеля-Зива
Классический алгоритм Лемпеля-Зива – LZ77, названный так по году своего опубликования, предельно прост. Он формулируется следующим образом : "если в прошедшем ранее выходном потоке уже встречалась подобная последовательность байт, причем запись о ее длине и смещении от текущей позиции короче чем сама эта последовательность, то в выходной файл записывается ссылка (смещение, длина), а не сама последовательность". Так фраза "КОЛОКОЛ_ОКОЛО_КОЛОКОЛЬНИ" закодируется как "КОЛО(-4,3)_(-5,4)О_(-14,7)ЬНИ".
если у нас каждый символ - это цифра, то не могут ли тут математики свою магию прикрутить?
авторРаспространенный метод сжатия RLE (англ. Run Length Encoding), который заключается в записи вместо последовательности одинаковых символов одного символа и их количества, является подклассом данного алгоритма. Рассмотрим, например, последовательность "ААААААА". С помощью алгоритма RLE она будет закодирована как "(А,7)", в то же время ее можно достаточно хорошо сжать и с помощью алгоритма LZ77 : "А(-1,6)". Действительно, степень сжатия именно такой последовательности им хуже (примерно на 30-40%), но сам по себе алгоритм LZ77 более универсален, и может намного лучше обрабатывать последовательности вообще несжимаемые методом RLE.
Нет ли "алгоритма максимального сжатия", который превратит код в несжимаемый?
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990291
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Если исходником был текст. То в нем есть несколько уровней семантики.

1) Есть символы и их энтропия (уровень Шеннона-Хаффмена). Или PPM или арифметическое сжатие.
2) слоги и слова (это справочники Лемпеля Зива)
3) Слова. Предложения. Шаблоны предложений. Регулярки. Грамматики. Формы Бекуса-Науэра. Языки программирования. Языки народов.
4) Тексты. Марковские модели. Локальные по отношению к главам и разделам книги или параграфа.
5) ? есть ли еще уровни? Не знаю. Наверное есть. Профили писателей. Стили.

Архиваторы работают на 1-2 уровне. Если анализировать текст на 3-4 уровень то можно что-то сжать побольше.
Поэтому пределу совершенства нет. Есть только вопрос как много денег и мегфалопов мы готовы отдать
чтобы пожать еще на 2-3 % лучше.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990307
надо быть реалистами и остановиться на п.2

помню в начале 00 в IRC был паренёк лет 18, который продавал алгоритм сжатия, превращающий 1000 байт в 10
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990308
Eolt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Можно и такую штуку использовать
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990317
mini.weblab
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза 2020,
если принять твою точку зрения о том, что компьютер работает исключительно с 0 и 1, то если сгенирировать битовую последовательность из 0 и 1, где появление как 0 так 1 равновероятно, то такую последовательность ничем не пожмешь.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990327
Roman Mejtes
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eolt, 1500 евриков, не слабо :) за такие бабки можно нанять таджика на год и он будет жать на клавиатуре случайные кнопки генерирую случайные последовательности
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990329
mini.weblab
Алексей Роза 2020,
если принять твою точку зрения о том, что компьютер работает исключительно с 0 и 1, то если сгенирировать битовую последовательность из 0 и 1, где появление как 0 так 1 равновероятно, то такую последовательность ничем не пожмешь.

её априори не пожмёшь, потому что обозначить сжатый кусок нечем
а так можно было бы подряд идущие 0/1 пожать
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990363
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза 2020
надо быть реалистами и остановиться на п.2

помню в начале 00 в IRC был паренёк лет 18, который продавал алгоритм сжатия, превращающий 1000 байт в 10

С архиваторами очень легко обмануть на специфичных данных. Например - вести заведомо известный
справочник из заведомо подгтовленных блобов которые участвуют в тесте. Найти эти блобы - не проблема.

Или специально подтасовать исходные данные так что Архиватор Бабушкина будет в профите (реально
и под него существуют частные случаи).

Или заведомо знать что будем сжимать трафик из random() а он - детерминирован. Достаточно только знать
стартовую комбинацию seed.

И я уже молчу про то что архиватор может проско скидывать файло в S3.amazon хранилище.

Модератор: Материться не надо даже с точечками
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990365
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Roman Mejtes
Eolt, 1500 евриков, не слабо :) за такие бабки можно нанять таджика на год и он будет жать на клавиатуре случайные кнопки генерирую случайные последовательности

А зачем он нужен? Время специфичной аппаратуры прошло еще в 2000х.
Сегодня - любое железо - суть платформа которая просто исполняет микро-код.
Так решили. Так дешевле обновлять и поддерживать актуальность. А любая
железка содержит баги и стареет протоколом и еще и опасна по Керхгофсу.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990392
Eolt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
А зачем он нужен?


Это генератор подлинных случайных чисел. Компьютер же генерирует псевдослучайную последовательность.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990393
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eolt
mayton
А зачем он нужен?


Это генератор подлинных случайных чисел. Компьютер же генерирует псевдослучайную последовательность.

Не, mayton прав, а ты зря продолжение его поста обрезал.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990400
Eolt
mayton
А зачем он нужен?


Это генератор подлинных случайных чисел. Компьютер же генерирует псевдослучайную последовательность.

а чё так сложна? положение атомов в пространстве всегда рандомно из-за броуновской движухи
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990401
Eolt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dima T,

HRNG используется в серьезных и денежных проектах. Там где не будут использовать генератор псевдослучайных чисел написанный Васей Пупкиным из Крыжополя.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990403
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eolt
Dima T,

HRNG используется в серьезных и денежных проектах. Там где не будут использовать генератор написанный Васей Пупкиным из Крыжополя.

Ты плохо себе представляешь законы Керхгофа и криптографию.
Исходных код этого железа должен быть предоставлен. Иначе господа
которые его продают - мошенники либо спецслужбы государства.

Я не вижу никакого смысла в современном мире парить железку
которая решает какую-то крипто-задачу но при этом представляет
собой черный ящик. Мы уже это проходили.

Ты меня понимаешь?
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990405
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mini.weblab
кстати! насчет алгоритма АВЛ, вот что я обнаружила: ...
Всё же остался вопрос. Как понял я, там речь о том, что поиск с такой структурой осуществляется за C*Log(N). А как от этого проложить мостик к Хафману, о котором недавно шла речь?
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990406
Eolt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton

Ты плохо себе представляешь законы Керхгофа и криптографию.
Исходных код этого железа должен быть предоставлен. Иначе господа
которые его продают - мошенники либо спецслужбы государства.

Я не вижу никакого смысла в современном мире парить железку
которая решает какую-то крипто-задачу но при этом представляет
собой черный ящик. Мы уже это проходили.

Ты меня понимаешь?


Я понимаю, что ты не понимаешь зачем нужен HRNG.

Типичный кейс - например открываешь онлайн-казино где нибудь в Европе, где делают ставки через интернет на рулетку.
Как получать случайные числа для рулетки? Генератор RND написанных Васей Пупкиным из Крыжополя не подойдет. Полиция заявит, что ты мошенник и генератор подыгрывает тебе, и будет права ибо нефиг. Пойдешь в тюрьму за мошенничество.
Чтобы не попасть в тюрьму, покупаешь сертифицированный HRNG за 1500 евро и генеришь им случайные числа. Полиция к тебе не имеет претензий. В случае чего все претензии производителю HRNG.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990408
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Если исходником был текст. То в нем есть несколько уровней семантики. 1)...5)...
Не буду ни придираться к мелочам, ни достраивать до 6), 7).... Я просто прошу всех записать этот пост мэйтона в склерозничек.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990414
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Eolt
mayton

Ты плохо себе представляешь законы Керхгофа и криптографию.
Исходных код этого железа должен быть предоставлен. Иначе господа
которые его продают - мошенники либо спецслужбы государства.

Я не вижу никакого смысла в современном мире парить железку
которая решает какую-то крипто-задачу но при этом представляет
собой черный ящик. Мы уже это проходили.

Ты меня понимаешь?


Я понимаю, что ты не понимаешь зачем нужен HRNG.

Типичный кейс - например открываешь онлайн-казино где нибудь в Европе, где делают ставки через интернет на рулетку.
Как получать случайные числа для рулетки? Генератор RND написанных Васей Пупкиным из Крыжополя не подойдет. Полиция заявит, что ты мошенник и генератор подыгрывает тебе, и будет права ибо нефиг. Пойдешь в тюрьму за мошенничество.
Чтобы не попасть в тюрьму, покупаешь сертифицированный HRNG за 1500 евро и генеришь им случайные числа. Полиция к тебе не имеет претензий. В случае чего все претензии производителю HRNG.

Тоесть ты в топике программирования решил рекламировать частное железо? Зачем тебе это?

Я уже не говорю о том что это железо - закрытое для нас и здесь нет темы программирования.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990429
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
mayton
Если исходником был текст. То в нем есть несколько уровней семантики. 1)...5)...
Не буду ни придираться к мелочам, ни достраивать до 6), 7).... Я просто прошу всех записать этот пост мэйтона в склерозничек.

А зачем его записывать?
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990552
mini.weblab
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
mini.weblab
кстати! насчет алгоритма АВЛ, вот что я обнаружила: ...
Всё же остался вопрос. Как понял я, там речь о том, что поиск с такой структурой осуществляется за C*Log(N). А как от этого проложить мостик к Хафману, о котором недавно шла речь?

я просто так сказала, что сейчас пытаюсь сделать АВЛ дерево. :-)
а потом я стала читать про АВЛ деревья и обнаружила, что алгоритм был разработан в СССР.
а вообще АВЛ дерево, как и дерево Хаффмана есть алгоритм для хранения данных.
дерево Хаффмана - решает задачу размера данных, а АВЛ дерево - обеспечивает быстрый доступ к данным.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990562
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
А зачем его записывать?
Автор может не записывать.
Сразу вспоминаю анекдот, как заставить чел-ка спрыгнуть с Лондонского моста.
-Вы знаете, что с моста прыгать запрещено?
-А-а .... пофиг.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39990574
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
mayton
А зачем его записывать?
Автор может не записывать.
Сразу вспоминаю анекдот, как заставить чел-ка спрыгнуть с Лондонского моста.
-Вы знаете, что с моста прыгать запрещено?
-А-а .... пофиг.

Мне больше напоминает сказку где кролик говорил Лису дескыть делай со мной что хочешь только
за терновый куст не бросай.
...
Рейтинг: 0 / 0
Несжимаемая последовательность байт
    #39991573
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Но ты очевидно имел в виду другое? Триграмма? Три символа?
Не по теме, здесь был побочный вопрос. На самом нижнем уровне имел ввиду такое (вроде словарика), не строго по 3, 2-4, "_" это разделитель:
..._э-г_э-х_эбе_эбо_эбу_эва_эвг_эвд_эве_эвк_эвм_эво_эвр_эвт_эвф_эга_эге_эги_эго_эгр_эда_эде_эди_эже_эзо_эйд_эйф_эйх_эка_экв_эке_экз_эки_экк_экл_эко_экп_экр_экс_экт_эку_экю_эла_эле_эли_элл_эло_эль_элю_эма_эмб_эме_эми_эмм_эмо_эмп_эму_эмф_эна_энг_энд_эне_энз_эни_энк_энн_эно_энс_энт_эну_энц_эоз_эол_эоц_эпа_эпе_эпи_эпо_эпу_эпю_эра_эрб_эрг_эрд_эре_эрз_эри_эрк_эрл_эро_эрр_эрс_эру_эрц_эсд_эсе_эск_эсм_эсп_эсс_эст_эсх_эсэ_эта_эте_эти_этн_это_этр_этю_эфа_эфе_эфи_эфо_эфф_эхи_эхм_эхо_эша_эше_эяк_юан_юби_юбк_юбо_юбч_юве_юго_юдо_южа_южн_юзо_юит_юка_юкк_юко_юла_юли_юлк_юмо_юна_юнг_юне_юни_юнк_юнн_юно_юны_юпи_юра_юри_юрк_юро_юрс_юрт_юрь_юсо_юст_юти_юфе_юфт_юшк_ююб_ябе_ябл_ява_яви_явк_явл_явн_яво_явс_явь_яга_ягд_яге_ягн_яго_ягу_яде_ядо_ядр_язв_язё_язы_язь_яиц_яич_яйл_яйц_яка_яко_яку_якш_яли_яло_ялт_яма_ямб_ями_ямк_ямн_ямо_ямс_ямщ_янв_янк_янс_янт_яны_япо_яра_ярд_яре_яри_ярк_ярл_ярм_яро_яру_ярч_яры_ярь_яса_ясе_яск_ясл_ясм_ясн_ясо_яст_ясы_ята_ятв_ято_ятр_ять_яфе_яхо_яхт_яча_яче_ячи_ячм_ячн_яшм_яще_ящи_ящу_-с_ад_аж_аз_аи_ай_ан_ар_ас_ау_ах_ба_бы_во_вы_га_гм_да_до_её_еж_ер_ёж_же_за_из_ил_ин_их_ка_ко_кш_ли_ль_ля_ми_мм_мо_му_мы_на_не_ни_но_ну_ню_об_од_ой_ом_он_оп_от_ох_па_по_ре_се_сё_си_со_су_то_ту_ты_уа_уд_уж_ук_ум_ус_уф_ух_фа_фи_фу_ха_хм_це_че_чу_ша_ща_щи_эй_эк_эм_эн_эр_эс_эф_эх_юг_юз_юр_юс_ют_яд_яз_як_ял_ям_яр_яс_
на уровнях выше аналогично, но то уже не назвать буквами и их кол-во на текстах стягивается в точку.
...
Рейтинг: 0 / 0
23 сообщений из 73, страница 3 из 3
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Несжимаемая последовательность байт
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]