powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / какую бд рекомендуете для хранения (один столбец и миллиард строк )
25 сообщений из 35, страница 1 из 2
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38614907
sqlmiha1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
какую бд рекомендуете для хранения
базы "словарь слов" - один столбец и миллиард строк каждая длиной до 128 байт
и быстрых выборок к ней вида
select "слово" from base
?
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38614917
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
sqlmiha1какую бд рекомендуете для хранения
базы "словарь слов" - один столбец и миллиард строк каждая длиной до 128 байт
и быстрых выборок к ней вида
select "слово" from base
?key-value. Тот же Oracle NoSQL DB.
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38614918
sqlmiha1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Alexander Ryndin, а nosql?
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38614919
sqlmiha1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
а из бесплатных nosql?
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38614921
DPH3
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
sqlmiha1какую бд рекомендуете для хранения
базы "словарь слов" - один столбец и миллиард строк каждая длиной до 128 байт
и быстрых выборок к ней вида
select "слово" from base
?

Не совсем понял, как это - только одни столбец? Или два столбца вида "слово","значение в 128 байт"?
Выбор по слову - только по точному совпадению или по маске/морфологии/и т.п.?
Насколько много чтений, насколько много записей, какого вида записи?
С чем уже имели дело?
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38614924
sqlmiha1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
DPH3,

столбец один - слово до 128 байт
выбор слов по маске *слово*
записей нет
только чтения до сотни-тысячи в секунду (может больше)
смотри пока mssql / mongodb
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38614925
sqlmiha1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
смотрЮ пока mssql / mongodb
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38614930
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
sqlmiha1а из бесплатных nosql?Oracle NoSQL Community Edition бесплатная
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38614931
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
sqlmiha1смотрЮ пока mssql / mongodbПо мне так mongodb - это из пушки по воробьям. Зачем вам документоориентированная база?
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38614957
29 Белых Котиков
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
OCZ Z-Drive R4 CloudServ и простой текстовый файл, в котором лежат отсортированные слова. Но один поиск по отсортированному файлу потребуется 9 чтений файла. Соответственно, (IOPS на чтение)=9*(количество запросов в секунду)

Никакого кеширования, всё просто и предсказуемо, зато будет гарантированно работать на вашем объёме. Так же, эти ваши 128 гигов можно в памяти разместить.
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38614964
29 Белых Котиков
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
То есть, 30 обращений к файлу потребуется. Лучше сразу в память загнать массив. Всё остальное работать не будет.
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38615067
Фотография ЕвгенийВ
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
120 гигов вполне влезут в оперативку :)
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38615072
DPH3
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
sqlmiha1выбор слов по маске *слово*

А маска какого вида? Только вида "слово%" или и "%слово%"? Решения будут очень разными.

Реально, как правильно говорят, без SSD или загрузки всего объема в память нормально не сделать. Даже если только индекс ветвей B-дерева хранить в памяти, хотя бы один IOPS при чтении потребуется. 1000 IOPS - это уже многовато для обычных дисков.

Если маска - простая, я бы сделал бы просто руками (всей работы на день-два, меньше, чем уже ушло на исследования решений).
MongoDB тут худший вариант )
MySQL - не знаю, как там с оптимизацией размещения индекса в памяти, но решить точно можно.

Если маска - произвольная, то надо смотреть в сторону какого-нибудь elastic search на кластере, но это надолго )
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38615153
Arm79
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
sqlmiha1select "слово" from base
Вам же уже сказали в ветке MS SQL, что указанный запрос вернет весь миллиард записей.
Вы определитесь, вам каждый раз нужно запрашивать этот миллиард или это получение одной записи зараз?
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38615447
sqlmiha1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
уточняю маска вида "слово%" и "%слово%"
запрос вида select slovo from base where slovo=""%слово%""
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38615464
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
sqlmiha1уточняю маска вида "слово%" и "%слово%"
запрос вида select slovo from base where slovo=""%слово%""
Тебе нужен Sphinx или другие системы полнотекстового поиска. Ни одна СУБД не справится.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38615528
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
sqlmiha1уточняю маска вида "слово%" и "%слово%"
запрос вида select slovo from base where slovo=""%слово%""Для ускорения именно таких запросов, и вообще используя регулярные выражения, в СУБД Caché были добавлены индексы iFind .
Для Вашего случая достаточно будет типа Basic (о iFind на русском ).
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38615542
Фотография ЕвгенийВ
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
sqlmiha1уточняю маска вида "слово%" и "%слово%"
запрос вида select slovo from base where slovo=""%слово%""
Тут только полный скан всего миллиарда.
Нужно оптимизировать хранение, уменьшив чтения диска или грубая сила типа Hadoop .
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38615559
Arm79
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
sqlmiha1уточняю маска вида "слово%" и "%слово%"
запрос вида select slovo from base where slovo=""%слово%""
1) Уточните требования по скорости выборки.
2) Уточните, требуется ли многопользовательская работа или доступ локальный

Первоначальное впечатление: %слово% приведет к полному перебору
Если без первого процента - какие-то варианты возможны.
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38615592
29 Белых Котиков
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну если дополнить словарь огрызками слов, то получим 16 терабайт и 43 обращения к словарю на один поиск. Итого на 100 000 запросов в секунду понадобится массив из 250 мелких SSDшек или примерно пять миллионов рублей.
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38615736
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Arm79Первоначальное впечатление: %слово% приведет к полному переборуЕвгенийВТут только полный скан всего миллиарда.29 Белых КотиковНу если дополнить словарь огрызками слов, то получим 16 терабайт и 43 обращения к словарю на один поиск. Итого на 100 000 запросов в секунду понадобится массив из 250 мелких SSDшек или примерно пять миллионов рублей.Нет, можно задействовать специальные индексы: 15885843

Сделал тест согласно упражнению на книге "Библия" :

1) без индекса

select Id, Para from BookPara where Para like '%огон%'

2) с индексом

select Id, Para from BookPara where id %FIND search_index(ParaStemmedI,'*огон*',1)

Результат:
Количество найденных строкБыстродействие (сек.)Количество обращений к глобаламБез индекса2870.518151845С индексом2870.0091006
Разница налицо.
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38615749
29 Белых Котиков
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
servit,

Ну если слова на языке, то да, специальные индексы намного лучше. Но так как слов миллиард, скорее всего это что-то вроде уникального идентификатора. А какой размер индекса получился в процентах от таблицы, можете проверить, для интереса?
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38615777
Фотография ЕвгенийВ
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
29 Белых Котиковservit,

Ну если слова на языке, то да, специальные индексы намного лучше. Но так как слов миллиард, скорее всего это что-то вроде уникального идентификатора. А какой размер индекса получился в процентах от таблицы, можете проверить, для интереса?
Однозначно в Библии уникальных слов меньше, чем 1 000 000 000.
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38615779
Basil A. Sidorov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Их меньше, даже если найти скрижали всех мёртвых языков.
...
Рейтинг: 0 / 0
какую бд рекомендуете для хранения (один столбец и миллиард строк )
    #38615786
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
29 Белых КотиковА какой размер индекса получился в процентах от таблицы, можете проверить, для интереса?Данные - 8.7 Мб (собственно сам FB2 занимает 6.56 Мб)
Индексы - 16 Мб
Есть ещё несколько системных индексов (ISC.IF.*):
  • ISC.IF.WordCP - 1.3 Мб
  • ISC.IF.WordD - 1.5 Мб
  • ISC.IF.WordI - 1.1 Мб
  • ISC.IF.WordParts - 1.0 Мб
  • ISC.IF.WordRI - 1.2 Мб
...
Рейтинг: 0 / 0
25 сообщений из 35, страница 1 из 2
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / какую бд рекомендуете для хранения (один столбец и миллиард строк )
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]