powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Bloom фильтры
12 сообщений из 12, страница 1 из 1
Bloom фильтры
    #39107627
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вот нашел такое
"Например, Гуголь использует фильтры Блума в своей BigTable для уменьшения обращений к диску. Оно и не удивительно, ведь по сути, BigTable — это большая очень разреженная многомерная таблица, поэтому большая часть ключей указывает в пустоту. К тому же, данные распиливаются на относительно небольшие блоки-файлы, каждый из которых опрашивается при запросах, хотя может не содержать требуемых данных."

Вопрос:
фильтр Блума по определению имеет тенденцию к потере адекватности со временем, при увеличении фильтруемых данных.

Как это обнаруживается, как он рефрешится или убивается и строится заново?
...
Рейтинг: 0 / 0
Bloom фильтры
    #39108404
Booben.Com
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
В основе Блюма одна или несколько хешфункций.
Каждая из них со временем будет давать коллизиции. Для Блюма означает ложные срабатывания.
Через какойто высокий порог, такие ложные срабатывания будут увеличиватся в геометрической прогрессии.

Бороться с этим можно несколькими способами. Первый способ - рехеширование, выбор более оптимальной хеширующей функции.
Второй способ - добавление еще одной хеширующей функции в сет. Блюм может состоять из нескольких хеширующих функций.

Качество блюма можно посчитать по количеству обнаруженых коллизий. Если полный фулскан по блюму делать долго,
можно воспользоваться методом Монте Карло, провести пробацию на какомто большом но не полном обьеме данных и пересчитать по пропорциям процент ложных срабатываний.
...
Рейтинг: 0 / 0
Bloom фильтры
    #39108478
GVF112GVF
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Winnipuh,

Все зависит от реализации фильтра. Из него нельзя удалять элементы.
Есть различные расширения фильтра Блума, которые все-таки позволяют это делать, но, понятное дело, не бесплатно. Возможно добавление элемента к множеству и проверка принадлежности элемента множеству и т.д.

FYI ..

Bloom Filters by Example - http://billmill.org/bloomfilter-tutorial/
SSTable (Sorted String Table) & LSM-Tree - http://www.mezhov.com/2013/09/sstable-lsm-tree.html

С уважением,
Вадим.
...
Рейтинг: 0 / 0
Bloom фильтры
    #39108704
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Booben.ComВ основе Блюма одна или несколько хешфункций.
Каждая из них со временем будет давать коллизиции. Для Блюма означает ложные срабатывания.
Через какойто высокий порог, такие ложные срабатывания будут увеличиватся в геометрической прогрессии.

Бороться с этим можно несколькими способами. Первый способ - рехеширование, выбор более оптимальной хеширующей функции.
Второй способ - добавление еще одной хеширующей функции в сет. Блюм может состоять из нескольких хеширующих функций.

Качество блюма можно посчитать по количеству обнаруженых коллизий. Если полный фулскан по блюму делать долго,
можно воспользоваться методом Монте Карло, провести пробацию на какомто большом но не полном обьеме данных и пересчитать по пропорциям процент ложных срабатываний.

Да, если ФБ строится для динамического набора данных, то, естественно, его качество будет ухудшаться.
Каков критерий подмножества, на котором делать тест? Чисто эвристически брать.
Может быть накапливать статистику ложных срабатываний и затем сбрасывать фильтр в ноль и снова строить?
Я где-то читал, что при работе с дисками кэши используют что-то типа ФБ
...
Рейтинг: 0 / 0
Bloom фильтры
    #39108706
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GVF112GVFWinnipuh,

Все зависит от реализации фильтра. Из него нельзя удалять элементы.
Есть различные расширения фильтра Блума, которые все-таки позволяют это делать, но, понятное дело, не бесплатно. Возможно добавление элемента к множеству и проверка принадлежности элемента множеству и т.д.

FYI ..

Bloom Filters by Example - http://billmill.org/bloomfilter-tutorial/
SSTable (Sorted String Table) & LSM-Tree - http://www.mezhov.com/2013/09/sstable-lsm-tree.html

С уважением,
Вадим.

Думаю, что вариант с апдейтом ФБ проходит только в частных случаях, сильно накладно, теряется эффект
...
Рейтинг: 0 / 0
Bloom фильтры
    #39108899
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Winnipuh, а смысл погружаться в Bloom Filters и LSM-trees, если последние уже развились во Fractal trees и COLA?
...
Рейтинг: 0 / 0
Bloom фильтры
    #39109024
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAWinnipuh, а смысл погружаться в Bloom Filters и LSM-trees, если последние уже развились во Fractal trees и COLA?

Может и нету, надо почитать, но в простоте тоже есть свои преимущества
...
Рейтинг: 0 / 0
Bloom фильтры
    #39109161
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
WinnipuhskyANAWinnipuh, а смысл погружаться в Bloom Filters и LSM-trees, если последние уже развились во Fractal trees и COLA?

Может и нету, надо почитать, но в простоте тоже есть свои преимуществаЭто какие и в простоте чего? :)
...
Рейтинг: 0 / 0
Bloom фильтры
    #39109217
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
skyANAWinnipuhпропущено...


Может и нету, надо почитать, но в простоте тоже есть свои преимуществаЭто какие и в простоте чего? :)

Сами ФБ в общем-то просты.

А что и где почитать про Fractal trees и COLA?
Чтобы доходчиво.
...
Рейтинг: 0 / 0
Bloom фильтры
    #39109334
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Лекции Техносферы к примеру посмотреть. Там у них вроде как была ссылка на github с литературой.
...
Рейтинг: 0 / 0
Bloom фильтры
    #39109340
GVF112GVF
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Winnipuh,

Performance of Fractal-Tree Databases -
https://www.bnl.gov/csc/seminars/abstracts/Bender_Presentation.pdf

or

Open Source Search - https://www.research.ibm.com/haifa/Workshops/ir2005/papers/DougCutting-Haifa05.pdf

С уважением,
Вадим.
...
Рейтинг: 0 / 0
Bloom фильтры
    #39109348
Winnipuh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
спасибо, коллеги
...
Рейтинг: 0 / 0
12 сообщений из 12, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Bloom фильтры
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]