powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Алгоритмы для бесконечного потока данных.
14 сообщений из 39, страница 2 из 2
Алгоритмы для бесконечного потока данных.
    #38751412
Barlone
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dima TВместо CRC32 можно любой другой хэш взять (MD5 например), просто затестить какой быстрее считается.Ну глядя на алгоритмы, md5 должен быть примерно в 30 раз медленнее crc. Ну так то да, если допустима погрешность, то взять какой-нибудь хеш и хранить по биту на каждое его возможное значение - самый компактный способ хранения будет. Только размер хеша надо правильно выбрать. А то для crc32 больше четырех с небольшим миллиардов уникальных пользователей никак не получится :)
...
Рейтинг: 0 / 0
Алгоритмы для бесконечного потока данных.
    #38751694
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Главное, не забывайте про зеленных человечков с Марса!!! Они тоже хотят, что бы их посчитали. CRC32 и придел в 4 млр. не катит

Да... и не забывайте требования к оборудованию... нужно все на 128 Mb диске сделать....
...
Рейтинг: 0 / 0
Алгоритмы для бесконечного потока данных.
    #38751707
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Можно CRC64 взять и чтобы в 128 уложиться жать JPEG`ом раз небольшие потери разрешены
...
Рейтинг: 0 / 0
Алгоритмы для бесконечного потока данных.
    #38751727
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ребята, какие такие хэши, все хэши теряют данные, уникальность после хэша не проверить.
...
Рейтинг: 0 / 0
Алгоритмы для бесконечного потока данных.
    #38751741
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZiv, ознакомься с ТЗ
eldarkaa2) достаточно примерного значения с погрешностью, не превышающей нескольких процентов

Осталось провести исследование сколько процентов теряют разные хэши, чтобы уложиться в заданные пределы.
...
Рейтинг: 0 / 0
Алгоритмы для бесконечного потока данных.
    #38751756
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я как-то такое исследование устраивал, надо было ускорить поиск по точному совпадению строки char(100) в таблице из полумиллиона уникальных записей. Оказалось CRC32 почти тянет на уникальный ключ, повторов было очень мало. Но если всегда считать CRC от 100 символов, а если обрезать конечные пробелы - количество повторов значительно увеличиваются.
...
Рейтинг: 0 / 0
Алгоритмы для бесконечного потока данных.
    #38751765
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dima TMasterZiv, ознакомься с ТЗ
eldarkaa2) достаточно примерного значения с погрешностью, не превышающей нескольких процентов

Осталось провести исследование сколько процентов теряют разные хэши, чтобы уложиться в заданные пределы.Дело не в том, сколько теряют хэши, а в том, каково распределение входных данных.
Если, например, функия хэша дает одинаковое значение (т.е. коллизию) для четного N и для нечетного N+1, а во входном потоке четных чисел на порядок больше, чем нечетных, то погрешность составит десятки-сотни процентов, а вовсе не 1/N.
...
Рейтинг: 0 / 0
Алгоритмы для бесконечного потока данных.
    #38751970
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Фильтр Блума частично решает проблему существования ключа в бесконечной выборке
при условии конечной памяти самого фильтра. Но подсчёт (итератор) в нем невозможен.

Кроме того из постановки вопроса непонятно, были ли транзакции на удаление ключей.
Если нет - в большинстве случаев можно просто анализировать count(*) событий.
...
Рейтинг: 0 / 0
Алгоритмы для бесконечного потока данных.
    #38752755
Фотография Виталий Гробштейн
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
eldarkaa,
Вам нужно просто осознать, что ничего бесконечного не бывает. Потом оценить разумно объем данных которые РЕАЛЬНО нужно хранить. Уверен, что ничего суперсложного в вашей задаче не останется.
...
Рейтинг: 0 / 0
Алгоритмы для бесконечного потока данных.
    #38752803
scf
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Эту задачу решает вот такая штука:
http://ru.wikipedia.org/wiki/Фильтр_Блума

Только вам нужен Multiset, т.е. вместо битового массива нужен массив счетчиков.
...
Рейтинг: 0 / 0
Алгоритмы для бесконечного потока данных.
    #38753160
Фотография SashaMercury
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZivТвоё видение в корне неверно.
Потому что если брать это ограничение за основу, то решений у задачи нет.

Правильный ответ уже был. И на пункт а, и на пункт б.

Ваша задача(оба пункта) практически равносильна попытке найти сумму расходящегося ряда.
...
Рейтинг: 0 / 0
Алгоритмы для бесконечного потока данных.
    #38753500
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dima TMasterZiv, ознакомься с ТЗ
eldarkaa2) достаточно примерного значения с погрешностью, не превышающей нескольких процентов

Осталось провести исследование сколько процентов теряют разные хэши, чтобы уложиться в заданные пределы.

Ну-ну, успехов ....
...
Рейтинг: 0 / 0
Алгоритмы для бесконечного потока данных.
    #38753510
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZivНу-ну, успехов ....

Успехи есть, выше писал, работает в реальном проекте. :)
...
Рейтинг: 0 / 0
Алгоритмы для бесконечного потока данных.
    #38753551
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Глянул текущее состояние:
почти 495 тыс. уникальных записей, совпавших CRC32 - всего 29 штук
Если взять остаток деления CRC32 на 1 Мб - дублей 100 тыс.
2 мб - 54 тыс.
4 мб - 28 тыс.
8 мб - 14 тыс.
16 мб - 7 тыс.

Зависимость точности от объема просматривается.
...
Рейтинг: 0 / 0
14 сообщений из 39, страница 2 из 2
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Алгоритмы для бесконечного потока данных.
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]