Алгоритмы для бесконечного потока данных. / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Алгоритмы для бесконечного потока данных.

14 сообщений из 39, страница 2 из 2

все

Алгоритмы для бесконечного потока данных.

#38751412

Barlone

Участник

Сообщения: 1 506

Рейтинг: 0 / 0

Dima TВместо CRC32 можно любой другой хэш взять (MD5 например), просто затестить какой быстрее считается.Ну глядя на алгоритмы, md5 должен быть примерно в 30 раз медленнее crc. Ну так то да, если допустима погрешность, то взять какой-нибудь хеш и хранить по биту на каждое его возможное значение - самый компактный способ хранения будет. Только размер хеша надо правильно выбрать. А то для crc32 больше четырех с небольшим миллиардов уникальных пользователей никак не получится :)

...

Рейтинг:

0 / 0

19.09.2014, 12:38:48

| Ответить | Цитировать | Написать

Алгоритмы для бесконечного потока данных.

#38751694

Leonid Kudryavtsev

Участник

Сообщения: 9 300

Рейтинг: 0 / 0

Главное, не забывайте про зеленных человечков с Марса!!! Они тоже хотят, что бы их посчитали. CRC32 и придел в 4 млр. не катит

Да... и не забывайте требования к оборудованию... нужно все на 128 Mb диске сделать....

...

Рейтинг:

0 / 0

19.09.2014, 15:44:23

| Ответить | Цитировать | Написать

Алгоритмы для бесконечного потока данных.

#38751707

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Можно CRC64 взять и чтобы в 128 уложиться жать JPEG`ом раз небольшие потери разрешены

...

Рейтинг:

0 / 0

19.09.2014, 15:52:40

| Ответить | Цитировать | Написать

Алгоритмы для бесконечного потока данных.

#38751727

MasterZiv

Участник

Откуда: Питер

Сообщения: 32 427

Рейтинг: 0 / 0

Ребята, какие такие хэши, все хэши теряют данные, уникальность после хэша не проверить.

...

Рейтинг:

0 / 0

19.09.2014, 16:08:28

| Ответить | Цитировать | Написать

Алгоритмы для бесконечного потока данных.

#38751741

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

MasterZiv, ознакомься с ТЗ
eldarkaa2) достаточно примерного значения с погрешностью, не превышающей нескольких процентов

Осталось провести исследование сколько процентов теряют разные хэши, чтобы уложиться в заданные пределы.

...

Рейтинг:

0 / 0

19.09.2014, 16:16:10

| Ответить | Цитировать | Написать

Алгоритмы для бесконечного потока данных.

#38751756

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Я как-то такое исследование устраивал, надо было ускорить поиск по точному совпадению строки char(100) в таблице из полумиллиона уникальных записей. Оказалось CRC32 почти тянет на уникальный ключ, повторов было очень мало. Но если всегда считать CRC от 100 символов, а если обрезать конечные пробелы - количество повторов значительно увеличиваются.

...

Рейтинг:

0 / 0

19.09.2014, 16:26:35

| Ответить | Цитировать | Написать

Алгоритмы для бесконечного потока данных.

#38751765

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

Dima TMasterZiv, ознакомься с ТЗ
eldarkaa2) достаточно примерного значения с погрешностью, не превышающей нескольких процентов

Осталось провести исследование сколько процентов теряют разные хэши, чтобы уложиться в заданные пределы.Дело не в том, сколько теряют хэши, а в том, каково распределение входных данных.
Если, например, функия хэша дает одинаковое значение (т.е. коллизию) для четного N и для нечетного N+1, а во входном потоке четных чисел на порядок больше, чем нечетных, то погрешность составит десятки-сотни процентов, а вовсе не 1/N.

...

Рейтинг:

0 / 0

19.09.2014, 16:33:14

| Ответить | Цитировать | Написать

Алгоритмы для бесконечного потока данных.

#38751970

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Фильтр Блума частично решает проблему существования ключа в бесконечной выборке
при условии конечной памяти самого фильтра. Но подсчёт (итератор) в нем невозможен.

Кроме того из постановки вопроса непонятно, были ли транзакции на удаление ключей.
Если нет - в большинстве случаев можно просто анализировать count(*) событий.

...

Рейтинг:

0 / 0

19.09.2014, 19:01:31

| Ответить | Цитировать | Написать

Алгоритмы для бесконечного потока данных.

#38752755

Виталий Гробштейн

Участник

Откуда: Смоленск

Сообщения: 99

Рейтинг: 0 / 0

eldarkaa,
Вам нужно просто осознать, что ничего бесконечного не бывает. Потом оценить разумно объем данных которые РЕАЛЬНО нужно хранить. Уверен, что ничего суперсложного в вашей задаче не останется.

...

Рейтинг:

0 / 0

21.09.2014, 01:43:34

| Ответить | Цитировать | Написать

Алгоритмы для бесконечного потока данных.

#38752803

scf

Участник

Сообщения: 666

Рейтинг: 0 / 0

Эту задачу решает вот такая штука:
http://ru.wikipedia.org/wiki/Фильтр_Блума

Только вам нужен Multiset, т.е. вместо битового массива нужен массив счетчиков.

...

Рейтинг:

0 / 0

21.09.2014, 08:25:52

| Ответить | Цитировать | Написать

Алгоритмы для бесконечного потока данных.

#38753160

SashaMercury

Участник

Откуда: Москва

Сообщения: 2 595

Рейтинг: 0 / 0

MasterZivТвоё видение в корне неверно.
Потому что если брать это ограничение за основу, то решений у задачи нет.

Правильный ответ уже был. И на пункт а, и на пункт б.

Ваша задача(оба пункта) практически равносильна попытке найти сумму расходящегося ряда.

...

Рейтинг:

0 / 0

22.09.2014, 03:16:36

| Ответить | Цитировать | Написать

Алгоритмы для бесконечного потока данных.

#38753500

MasterZiv

Участник

Откуда: Питер

Сообщения: 32 427

Рейтинг: 0 / 0

...

Рейтинг:

0 / 0

22.09.2014, 14:09:19

| Ответить | Цитировать | Написать

Алгоритмы для бесконечного потока данных.

#38753510

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

MasterZivНу-ну, успехов ....

Успехи есть, выше писал, работает в реальном проекте. :)

...

Рейтинг:

0 / 0

22.09.2014, 14:16:12

| Ответить | Цитировать | Написать

Алгоритмы для бесконечного потока данных.

#38753551

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

Глянул текущее состояние:
почти 495 тыс. уникальных записей, совпавших CRC32 - всего 29 штук
Если взять остаток деления CRC32 на 1 Мб - дублей 100 тыс.
2 мб - 54 тыс.
4 мб - 28 тыс.
8 мб - 14 тыс.
16 мб - 7 тыс.

Зависимость точности от объема просматривается.

...

Рейтинг:

0 / 0

22.09.2014, 14:44:40

| Ответить | Цитировать | Написать

14 сообщений из 39, страница 2 из 2

все

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Алгоритмы для бесконечного потока данных.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&gotonew=1&tid=1341222]:	0ms
get settings:	7ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	45ms
get topic data:	7ms
get first new msg:	4ms
get forum data:	2ms
get page messages:	47ms
get tp. blocked users:	1ms
others:	198ms

total:	331ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы