Гость
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Bloom фильтры / 12 сообщений из 12, страница 1 из 1
19.11.2015, 12:43
    #39107627
Winnipuh
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Bloom фильтры
Вот нашел такое
"Например, Гуголь использует фильтры Блума в своей BigTable для уменьшения обращений к диску. Оно и не удивительно, ведь по сути, BigTable — это большая очень разреженная многомерная таблица, поэтому большая часть ключей указывает в пустоту. К тому же, данные распиливаются на относительно небольшие блоки-файлы, каждый из которых опрашивается при запросах, хотя может не содержать требуемых данных."

Вопрос:
фильтр Блума по определению имеет тенденцию к потере адекватности со временем, при увеличении фильтруемых данных.

Как это обнаруживается, как он рефрешится или убивается и строится заново?
...
Рейтинг: 0 / 0
20.11.2015, 00:03
    #39108404
Booben.Com
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Bloom фильтры
В основе Блюма одна или несколько хешфункций.
Каждая из них со временем будет давать коллизиции. Для Блюма означает ложные срабатывания.
Через какойто высокий порог, такие ложные срабатывания будут увеличиватся в геометрической прогрессии.

Бороться с этим можно несколькими способами. Первый способ - рехеширование, выбор более оптимальной хеширующей функции.
Второй способ - добавление еще одной хеширующей функции в сет. Блюм может состоять из нескольких хеширующих функций.

Качество блюма можно посчитать по количеству обнаруженых коллизий. Если полный фулскан по блюму делать долго,
можно воспользоваться методом Монте Карло, провести пробацию на какомто большом но не полном обьеме данных и пересчитать по пропорциям процент ложных срабатываний.
...
Рейтинг: 0 / 0
20.11.2015, 07:51
    #39108478
GVF112GVF
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Bloom фильтры
Winnipuh,

Все зависит от реализации фильтра. Из него нельзя удалять элементы.
Есть различные расширения фильтра Блума, которые все-таки позволяют это делать, но, понятное дело, не бесплатно. Возможно добавление элемента к множеству и проверка принадлежности элемента множеству и т.д.

FYI ..

Bloom Filters by Example - http://billmill.org/bloomfilter-tutorial/
SSTable (Sorted String Table) & LSM-Tree - http://www.mezhov.com/2013/09/sstable-lsm-tree.html

С уважением,
Вадим.
...
Рейтинг: 0 / 0
20.11.2015, 11:27
    #39108704
Winnipuh
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Bloom фильтры
Booben.ComВ основе Блюма одна или несколько хешфункций.
Каждая из них со временем будет давать коллизиции. Для Блюма означает ложные срабатывания.
Через какойто высокий порог, такие ложные срабатывания будут увеличиватся в геометрической прогрессии.

Бороться с этим можно несколькими способами. Первый способ - рехеширование, выбор более оптимальной хеширующей функции.
Второй способ - добавление еще одной хеширующей функции в сет. Блюм может состоять из нескольких хеширующих функций.

Качество блюма можно посчитать по количеству обнаруженых коллизий. Если полный фулскан по блюму делать долго,
можно воспользоваться методом Монте Карло, провести пробацию на какомто большом но не полном обьеме данных и пересчитать по пропорциям процент ложных срабатываний.

Да, если ФБ строится для динамического набора данных, то, естественно, его качество будет ухудшаться.
Каков критерий подмножества, на котором делать тест? Чисто эвристически брать.
Может быть накапливать статистику ложных срабатываний и затем сбрасывать фильтр в ноль и снова строить?
Я где-то читал, что при работе с дисками кэши используют что-то типа ФБ
...
Рейтинг: 0 / 0
20.11.2015, 11:28
    #39108706
Winnipuh
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Bloom фильтры
GVF112GVFWinnipuh,

Все зависит от реализации фильтра. Из него нельзя удалять элементы.
Есть различные расширения фильтра Блума, которые все-таки позволяют это делать, но, понятное дело, не бесплатно. Возможно добавление элемента к множеству и проверка принадлежности элемента множеству и т.д.

FYI ..

Bloom Filters by Example - http://billmill.org/bloomfilter-tutorial/
SSTable (Sorted String Table) & LSM-Tree - http://www.mezhov.com/2013/09/sstable-lsm-tree.html

С уважением,
Вадим.

Думаю, что вариант с апдейтом ФБ проходит только в частных случаях, сильно накладно, теряется эффект
...
Рейтинг: 0 / 0
20.11.2015, 12:57
    #39108899
skyANA
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Bloom фильтры
Winnipuh, а смысл погружаться в Bloom Filters и LSM-trees, если последние уже развились во Fractal trees и COLA?
...
Рейтинг: 0 / 0
20.11.2015, 14:13
    #39109024
Winnipuh
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Bloom фильтры
skyANAWinnipuh, а смысл погружаться в Bloom Filters и LSM-trees, если последние уже развились во Fractal trees и COLA?

Может и нету, надо почитать, но в простоте тоже есть свои преимущества
...
Рейтинг: 0 / 0
20.11.2015, 15:41
    #39109161
skyANA
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Bloom фильтры
WinnipuhskyANAWinnipuh, а смысл погружаться в Bloom Filters и LSM-trees, если последние уже развились во Fractal trees и COLA?

Может и нету, надо почитать, но в простоте тоже есть свои преимуществаЭто какие и в простоте чего? :)
...
Рейтинг: 0 / 0
20.11.2015, 16:05
    #39109217
Winnipuh
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Bloom фильтры
skyANAWinnipuhпропущено...


Может и нету, надо почитать, но в простоте тоже есть свои преимуществаЭто какие и в простоте чего? :)

Сами ФБ в общем-то просты.

А что и где почитать про Fractal trees и COLA?
Чтобы доходчиво.
...
Рейтинг: 0 / 0
20.11.2015, 17:45
    #39109334
skyANA
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Bloom фильтры
Лекции Техносферы к примеру посмотреть. Там у них вроде как была ссылка на github с литературой.
...
Рейтинг: 0 / 0
20.11.2015, 17:49
    #39109340
GVF112GVF
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Bloom фильтры
Winnipuh,

Performance of Fractal-Tree Databases -
https://www.bnl.gov/csc/seminars/abstracts/Bender_Presentation.pdf

or

Open Source Search - https://www.research.ibm.com/haifa/Workshops/ir2005/papers/DougCutting-Haifa05.pdf

С уважением,
Вадим.
...
Рейтинг: 0 / 0
20.11.2015, 17:58
    #39109348
Winnipuh
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Bloom фильтры
спасибо, коллеги
...
Рейтинг: 0 / 0
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Bloom фильтры / 12 сообщений из 12, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]