|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
какую бд рекомендуете для хранения базы "словарь слов" - один столбец и миллиард строк каждая длиной до 128 байт и быстрых выборок к ней вида select "слово" from base ? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 02:19 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
sqlmiha1какую бд рекомендуете для хранения базы "словарь слов" - один столбец и миллиард строк каждая длиной до 128 байт и быстрых выборок к ней вида select "слово" from base ?key-value. Тот же Oracle NoSQL DB. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 03:26 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
Alexander Ryndin, а nosql? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 03:28 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
а из бесплатных nosql? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 03:29 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
sqlmiha1какую бд рекомендуете для хранения базы "словарь слов" - один столбец и миллиард строк каждая длиной до 128 байт и быстрых выборок к ней вида select "слово" from base ? Не совсем понял, как это - только одни столбец? Или два столбца вида "слово","значение в 128 байт"? Выбор по слову - только по точному совпадению или по маске/морфологии/и т.п.? Насколько много чтений, насколько много записей, какого вида записи? С чем уже имели дело? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 03:36 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
DPH3, столбец один - слово до 128 байт выбор слов по маске *слово* записей нет только чтения до сотни-тысячи в секунду (может больше) смотри пока mssql / mongodb ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 03:43 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
смотрЮ пока mssql / mongodb ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 03:44 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
sqlmiha1а из бесплатных nosql?Oracle NoSQL Community Edition бесплатная ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 04:30 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
sqlmiha1смотрЮ пока mssql / mongodbПо мне так mongodb - это из пушки по воробьям. Зачем вам документоориентированная база? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 04:32 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
OCZ Z-Drive R4 CloudServ и простой текстовый файл, в котором лежат отсортированные слова. Но один поиск по отсортированному файлу потребуется 9 чтений файла. Соответственно, (IOPS на чтение)=9*(количество запросов в секунду) Никакого кеширования, всё просто и предсказуемо, зато будет гарантированно работать на вашем объёме. Так же, эти ваши 128 гигов можно в памяти разместить. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 08:27 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
То есть, 30 обращений к файлу потребуется. Лучше сразу в память загнать массив. Всё остальное работать не будет. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 08:45 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
120 гигов вполне влезут в оперативку :) ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 11:00 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
sqlmiha1выбор слов по маске *слово* А маска какого вида? Только вида "слово%" или и "%слово%"? Решения будут очень разными. Реально, как правильно говорят, без SSD или загрузки всего объема в память нормально не сделать. Даже если только индекс ветвей B-дерева хранить в памяти, хотя бы один IOPS при чтении потребуется. 1000 IOPS - это уже многовато для обычных дисков. Если маска - простая, я бы сделал бы просто руками (всей работы на день-два, меньше, чем уже ушло на исследования решений). MongoDB тут худший вариант ) MySQL - не знаю, как там с оптимизацией размещения индекса в памяти, но решить точно можно. Если маска - произвольная, то надо смотреть в сторону какого-нибудь elastic search на кластере, но это надолго ) ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 11:04 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
sqlmiha1select "слово" from base Вам же уже сказали в ветке MS SQL, что указанный запрос вернет весь миллиард записей. Вы определитесь, вам каждый раз нужно запрашивать этот миллиард или это получение одной записи зараз? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 12:26 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
уточняю маска вида "слово%" и "%слово%" запрос вида select slovo from base where slovo=""%слово%"" ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 15:25 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
sqlmiha1уточняю маска вида "слово%" и "%слово%" запрос вида select slovo from base where slovo=""%слово%"" Тебе нужен Sphinx или другие системы полнотекстового поиска. Ни одна СУБД не справится. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 15:32 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
sqlmiha1уточняю маска вида "слово%" и "%слово%" запрос вида select slovo from base where slovo=""%слово%""Для ускорения именно таких запросов, и вообще используя регулярные выражения, в СУБД Caché были добавлены индексы iFind . Для Вашего случая достаточно будет типа Basic (о iFind на русском ). ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 15:56 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
sqlmiha1уточняю маска вида "слово%" и "%слово%" запрос вида select slovo from base where slovo=""%слово%"" Тут только полный скан всего миллиарда. Нужно оптимизировать хранение, уменьшив чтения диска или грубая сила типа Hadoop . ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 16:01 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
sqlmiha1уточняю маска вида "слово%" и "%слово%" запрос вида select slovo from base where slovo=""%слово%"" 1) Уточните требования по скорости выборки. 2) Уточните, требуется ли многопользовательская работа или доступ локальный Первоначальное впечатление: %слово% приведет к полному перебору Если без первого процента - какие-то варианты возможны. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 16:08 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
Ну если дополнить словарь огрызками слов, то получим 16 терабайт и 43 обращения к словарю на один поиск. Итого на 100 000 запросов в секунду понадобится массив из 250 мелких SSDшек или примерно пять миллионов рублей. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 16:21 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
Arm79Первоначальное впечатление: %слово% приведет к полному переборуЕвгенийВТут только полный скан всего миллиарда.29 Белых КотиковНу если дополнить словарь огрызками слов, то получим 16 терабайт и 43 обращения к словарю на один поиск. Итого на 100 000 запросов в секунду понадобится массив из 250 мелких SSDшек или примерно пять миллионов рублей.Нет, можно задействовать специальные индексы: 15885843 Сделал тест согласно упражнению на книге "Библия" : 1) без индекса select Id, Para from BookPara where Para like '%огон%' 2) с индексом select Id, Para from BookPara where id %FIND search_index(ParaStemmedI,'*огон*',1) Результат: Количество найденных строкБыстродействие (сек.)Количество обращений к глобаламБез индекса2870.518151845С индексом2870.0091006 Разница налицо. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 17:38 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
servit, Ну если слова на языке, то да, специальные индексы намного лучше. Но так как слов миллиард, скорее всего это что-то вроде уникального идентификатора. А какой размер индекса получился в процентах от таблицы, можете проверить, для интереса? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 17:45 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
29 Белых Котиковservit, Ну если слова на языке, то да, специальные индексы намного лучше. Но так как слов миллиард, скорее всего это что-то вроде уникального идентификатора. А какой размер индекса получился в процентах от таблицы, можете проверить, для интереса? Однозначно в Библии уникальных слов меньше, чем 1 000 000 000. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 18:07 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
Их меньше, даже если найти скрижали всех мёртвых языков. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 18:09 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
29 Белых КотиковА какой размер индекса получился в процентах от таблицы, можете проверить, для интереса?Данные - 8.7 Мб (собственно сам FB2 занимает 6.56 Мб) Индексы - 16 Мб Есть ещё несколько системных индексов (ISC.IF.*):
... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 18:20 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
29 Белых КотиковНу если слова на языке, то да, специальные индексы намного лучше.Для индекса можно указать и не использовать стемминг и декомпозицию, например, заменив Index ParaStemmedI On (Para) As %iFind.Index.RussianBasic(INDEXOPTION = 1, LOWER = 1); на Index ParaStemmedI On (Para) As %iFind.Index.Basic(INDEXOPTION = 0, LOWER = 1); Данные типы запросов прекрасно работают и для английского (по умолчанию) языка: пробовал с английским индексом, но с французским языком в запросе select id,Para from BookPara where id %FIND BookPara_ParaStemmedIFind('*огон*',0,'fr') - результат аналогичный выше. Как видно, данные типы запросов успешно используют индекс, независимо от языка. PS: забыл указать - БД Unicode. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.04.2014, 19:14 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
sqlmiha1уточняю маска вида "слово%" и "%слово%" запрос вида select slovo from base where slovo=""%слово%""Не знаю, что за задача, и какие инструменты вы выберете, но советую обязательно перед запросом сделать проверку, что "слово" состоится минимум из 4-х букв. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.04.2014, 10:52 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
S.G.sqlmiha1уточняю маска вида "слово%" и "%слово%" запрос вида select slovo from base where slovo=""%слово%""Не знаю, что за задача, и какие инструменты вы выберете, но советую обязательно перед запросом сделать проверку, что "слово" состоится минимум из 4-х букв."лес", "дуб", "нос"... ... |
|||
:
Нравится:
Не нравится:
|
|||
16.04.2014, 11:33 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
sphinx_mvS.G.пропущено... Не знаю, что за задача, и какие инструменты вы выберете, но советую обязательно перед запросом сделать проверку, что "слово" состоится минимум из 4-х букв."лес", "дуб", "нос"...ёж, уж ... |
|||
:
Нравится:
Не нравится:
|
|||
16.04.2014, 12:30 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
Dimitry SibiryakovНи одна СУБД не справится. Да ладно, вон в том же Oracle специально для таких запросов придумали Exadata. :) ... |
|||
:
Нравится:
Не нравится:
|
|||
17.04.2014, 16:30 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
Сергей АрсеньевDimitry SibiryakovНи одна СУБД не справится. Да ладно, вон в том же Oracle специально для таких запросов придумали Exadata. :) http://ru.wikipedia.org/wiki/Exadata]В серверы комплексов X3-8, наследующих машины линейки X2-8, устанавливаются десятиядерные процессоры Xeon E7-8870 (2,4 ГГц) и 2 Тбайт оперативной памяти. Цена за комплекс установлена на уровне $1,65 млн[10]. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.04.2014, 17:24 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
SergSupersphinx_mvпропущено... "лес", "дуб", "нос"...ёж, ужда... но такие слова следует искать не по маске %слово% а по прямому совпадению. иначе... интересно, сколько раз в словаре из миллиарда слов встретится подстрока "уж" ;) ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2014, 10:19 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
sqlmiha1какую бд рекомендуете для хранения базы "словарь слов" - один столбец и миллиард строк каждая длиной до 128 байт и быстрых выборок к ней вида select "слово" from base ? Тут вообще не нужна субд. Просто файл, если нужно, с индексом. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2014, 11:52 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
S.G.SergSuperпропущено... ёж, ужда... но такие слова следует искать не по маске %слово% а по прямому совпадению. иначе... интересно, сколько раз в словаре из миллиарда слов встретится подстрока "уж" ;) Выбирать первые N вариантов, найденных по запросу. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2014, 12:12 |
|
какую бд рекомендуете для хранения (один столбец и миллиард строк )
|
|||
---|---|---|---|
#18+
MasterZivsqlmiha1какую бд рекомендуете для хранения базы "словарь слов" - один столбец и миллиард строк каждая длиной до 128 байт и быстрых выборок к ней вида select "слово" from base ? Тут вообще не нужна субд. Просто файл, если нужно, с индексом. Отсортированный файл слов фиксированного размера. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.04.2014, 12:13 |
|
|
start [/forum/topic.php?all=1&fid=35&tid=1552379]: |
0ms |
get settings: |
8ms |
get forum list: |
11ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
168ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
60ms |
get tp. blocked users: |
2ms |
others: | 11ms |
total: | 279ms |
0 / 0 |