|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
Алексей Роза ну строго говоря, самое близкое к моей задаче - это индекс. но это не задача... у меня нет вопросов про то, как индексировать есть только вопрос заданный выше... и ещё один теперь можно обсудить - про полнотекстовый поиск, раз уж его затронули. Я так понимаю, чтобы в "Войне и мир" найти слово "кровь" надо всю войну разложить в столбики по одинаковым словам? Вообще у гугла есть описание, как устроен поиск... там 3.14здецки сложно. Нет. Не надо на столбики раскладывать. Вообще Война и Мир это текстовый файл длиной где-то 5 мегабайт и в нем поиск любого слова идет достаточно быстро для современного процессора и памяти. Ты в текстовом редакторе там найдешь все что надо. Тоесть это - неудачный пример. Может у тебя есть другой источник данных который больше этой книги раз в ..... на 6 порядков? Ведь мы говорили о тера* суффиксе. А это 12 нулей. Мегабайт - порядка 6 нулей. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 14:53 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
maytonМожет у тебя есть другой источник данных который больше этой книги раз в ..... на 6 порядков? Ненуачо, тут не может быть топикстартера, работающего с БАК-ом?.. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 14:58 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
БАК - это та штука которая "разгоняет и сталкивает" частицы? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 15:01 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov maytonМожет у тебя есть другой источник данных который больше этой книги раз в ..... на 6 порядков? Ненуачо, тут не может быть топикстартера, работающего с БАК-ом?.. БАК не порождает строк. :) Поскольку автор явно не разработчик поисковика гугла или яндекса... Вот какая у него может быть задача? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 15:03 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
petravБАК не порождает строк. :) Так и у аффтара не строки, а структуры. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 15:16 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov petravБАК не порождает строк. :) Так и у аффтара не строки, а структуры. А в структурах инты и строки. Он так говорил, если не ошибаюсь. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 15:20 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
Я даже боюсь себе представить что порождает БАК. Характеристики частиц? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 15:20 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
petrav, Аффтар приколист. На третьей странице свернул к бэкапу чтобы байт не потерять. И к полнотекстовому поиску так как мы! его затронули)). ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 15:21 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
petrav Dimitry Sibiryakov пропущено... Так и у аффтара не строки, а структуры. А в структурах инты и строки. Он так говорил, если не ошибаюсь. Структуры физические. Из физики твердого тела. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 15:22 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
mayton Я даже боюсь себе представить что порождает БАК. Характеристики частиц? Огромные таблицы из дробных чисел (не знаю в каком формате: double, float, fixed, может ещё что-то огромной размерности) + флаги режимов работы. Больше ничего. :) ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 15:26 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
Помните числовую оценку? 1Тб диск будет занят полностью нашим вектором если структура == 1байт. Если вы положите туда такую структуру Код: plaintext 1. 2. 3. 4.
То нам понадобиться 4 + 8 = 12 байтная структура. Тоесть 12 терабайтный диск. Иднекс по БД обычно несет в себе оверхед порядка 75% полезного места. Это только для ключей. И для ROW_ID + данных надо посчитать. Но мне щас как-то лень. Проще прикинуть на глаз. Наверное более чем в 2 раза. Вобщем я вангую грубо 24 терабайтное хранилище для Алексеевских экспериментов в случае Index-Organized table. Для раздельного индексирования value и fvalue нам уже понадобиться 3 объекта. Таблица и два индекса. Давайте просто накинем 3 раза. 72 терабайт. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 15:31 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
mayton Помните числовую оценку? 1Тб диск будет занят полностью нашим вектором если структура == 1байт. ... Давайте просто накинем 3 раза. 72 терабайт. Автор уже на первой странице говорит про инты и строки. Так что не 72 ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 15:41 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
Просто любой эксперимент должен иметь какие-то числовые предварительные оценки. Автор ищет алгоритмы и структуры данных. Но должен быть стенд и макет. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 15:48 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
Итого? TC не корректно ставит задачи, вместо того чтобы сразу написать про предметную область вопроса Народ возбудился на скорость обработки запросов от строения индекса-способов поиска и т.д. и т.п.. На самом деле задача решаема, правда если убрать магическое слово вектор Ну и война и мир решаема, было дело - делал такие движки в дос времена... TC конечно же провокатор, но надеюсь добрый ну вы блин даёте (из кинухи) (круглый) ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 15:51 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
Круглый нас это не беспокоит. Sql.ru - это дискуссионный клуб. Мы тут ... как видишь и без автора подискутировали. P.S. Подсудимого не было но суд состоялся. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 15:54 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
mayton, понял, заткнулся :) ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 15:58 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
Да ладно. Пиши. Как там ты Толстого под Досом индексировал... ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 16:00 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
mayton, то пока на горизонте ИТ нет, точнее есть но не под таким соусом. лучше ближе сказки старого озвучу - в прософте делал часть движка объектной бд. нижний слой - без транзакционного но гарантированного ведения индекса+фиксированный формат данных. беркли по скорости сделал, не на много конечно же...ну это и понятно - там транзакционный слой есть. под форточки, файл шаринг. два помойму уровня индекса (объёмы были фиксированные по условию). как то так. чисто по жизни - одна из голубых мечт-задач = когда нить сделать аля AS400 но на базе железа микроконтроллеровского + фпга. там так-же есть где собаку порыть :) - можно не хилый профит по скорости получить, но сначала там на мелкий ниокр тянет.. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 16:11 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
kolobok0, Да. Добрый провокатор) бывший DBA. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 16:14 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
PetroNotC Sharp, задача решается на раз-два распределёнными вычислениями. но не в один вектор конечно же загонять надобно всё. тогда скорость зависит от диспетчеризации плюс поиска в одной банке данных. с нынешними технологиями микросеврисов плюс контейнеризации решается со свистом. если конечно же не пытаться городить монолиты-"микросеврисы" (круглый) ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 16:18 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
kolobok0 mayton, то пока на горизонте ИТ нет, точнее есть но не под таким соусом. лучше ближе сказки старого озвучу - в прософте делал часть движка объектной бд. нижний слой - без транзакционного но гарантированного ведения индекса+фиксированный формат данных. беркли по скорости сделал, не на много конечно же...ну это и понятно - там транзакционный слой есть. под форточки, файл шаринг. два помойму уровня индекса (объёмы были фиксированные по условию). как то так. Кажется в Беркли поддерживал несколько двигателей хранения. Там и дисковая хеш-табличка была и дерево. И вообще я думаю этот беркли создавали в эпоху дискет. Тоесть... не всё могли учесть. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 17:39 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
mayton Вообще Война и Мир это текстовый файл длиной где-то 5 мегабайт и в нем поиск любого слова идет достаточно быстро для современного процессора и памяти. Ты в текстовом редакторе там найдешь все что надо. текстовый редактор в 2мб-файле ищет слово из конца неск.секунд. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 17:50 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
PetroNotC Sharp petrav, Аффтар приколист. На третьей странице свернул к бэкапу чтобы байт не потерять. И к полнотекстовому поиску так как мы! его затронули)). к какому ещё бекапу я свернул, где? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 17:53 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
Алексей Роза mayton Вообще Война и Мир это текстовый файл длиной где-то 5 мегабайт и в нем поиск любого слова идет достаточно быстро для современного процессора и памяти. Ты в текстовом редакторе там найдешь все что надо. текстовый редактор в 2мб-файле ищет слово из конца неск.секунд. Как верно подметили Колобок, используя технологии распределённого поиска, мы можем безо всяких индексов просто подняв копии этого файла в памяти на 20 физических инстанциях искать в 20 раз быстрее. Разумеется файл при этом будет равномерно порезан как колбаса на 20 хеш-чанков. Вот тебе первое коробочное решение проблемы. И если ты искал несколько (сколько? Допустим 5 секунд) то после такого distibuted-search-improovement, я вангую 5 сек / 20 = 1/4 = 0.25 секунды. Хорошее время. Согласно Амдалу в конце этого процесса будет join результатов поиска. Но если этих результатов мало - то и процесс джойна нам ничего не будет стоить. Просто подожём финала 20 процессов. Тут важно чтобы они работали равномерно. И не было среди них 1 доходяги который еще ползет. Как тебе такое решение? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 17:57 |
|
vector на триллион объектов
|
|||
---|---|---|---|
#18+
Алексей Роза . Конечно про x64 речь. А Microsoft в Win64 прямо так разрешает 2^64 байт адресо? Dima T Для x64 нет. В x86 примерно 1.7 Гб потолок. А для "64" потолок - 2^64? https://docs.microsoft.com/en-us/windows/win32/memory/memory-limits-for-windows-releases ... |
|||
:
Нравится:
Не нравится:
|
|||
24.06.2020, 18:27 |
|
|
start [/forum/topic.php?fid=57&msg=39972845&tid=2017354]: |
0ms |
get settings: |
12ms |
get forum list: |
15ms |
check forum access: |
5ms |
check topic access: |
5ms |
track hit: |
151ms |
get topic data: |
7ms |
get forum data: |
2ms |
get page messages: |
65ms |
get tp. blocked users: |
2ms |
others: | 15ms |
total: | 279ms |
0 / 0 |