powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / C++ [игнор отключен] [закрыт для гостей] / vector на триллион объектов
25 сообщений из 332, страница 4 из 14
vector на триллион объектов
    #39972757
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза

ну строго говоря, самое близкое к моей задаче - это индекс.
но это не задача... у меня нет вопросов про то, как индексировать
есть только вопрос заданный выше... и ещё один теперь можно обсудить - про полнотекстовый поиск, раз уж его затронули.
Я так понимаю, чтобы в "Войне и мир" найти слово "кровь" надо всю войну разложить в столбики по одинаковым словам?
Вообще у гугла есть описание, как устроен поиск... там 3.14здецки сложно.

Нет. Не надо на столбики раскладывать.

Вообще Война и Мир это текстовый файл длиной где-то 5 мегабайт и в нем поиск любого слова идет
достаточно быстро для современного процессора и памяти. Ты в текстовом редакторе там найдешь
все что надо.

Тоесть это - неудачный пример.

Может у тебя есть другой источник данных который больше этой книги раз в ..... на 6 порядков?

Ведь мы говорили о тера* суффиксе. А это 12 нулей. Мегабайт - порядка 6 нулей.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972759
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonМожет у тебя есть другой источник данных который больше этой книги раз в ..... на 6 порядков?

Ненуачо, тут не может быть топикстартера, работающего с БАК-ом?..
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972762
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
БАК - это та штука которая "разгоняет и сталкивает" частицы?
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972764
petrav
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakov

maytonМожет у тебя есть другой источник данных который больше этой книги раз в ..... на 6 порядков?

Ненуачо, тут не может быть топикстартера, работающего с БАК-ом?..

БАК не порождает строк. :) Поскольку автор явно не разработчик поисковика гугла или яндекса... Вот какая у него может быть задача?
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972768
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
petravБАК не порождает строк. :)

Так и у аффтара не строки, а структуры.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972771
petrav
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakov

petravБАК не порождает строк. :)

Так и у аффтара не строки, а структуры.

А в структурах инты и строки. Он так говорил, если не ошибаюсь.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972772
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я даже боюсь себе представить что порождает БАК. Характеристики частиц?
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972773
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
petrav,

Аффтар приколист.
На третьей странице свернул к бэкапу чтобы байт не потерять. И к полнотекстовому поиску так как мы! его затронули)).
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972774
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
petrav
Dimitry Sibiryakov

пропущено...

Так и у аффтара не строки, а структуры.

А в структурах инты и строки. Он так говорил, если не ошибаюсь.

Структуры физические. Из физики твердого тела.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972776
petrav
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Я даже боюсь себе представить что порождает БАК. Характеристики частиц?

Огромные таблицы из дробных чисел (не знаю в каком формате: double, float, fixed, может ещё что-то огромной размерности) + флаги режимов работы. Больше ничего. :)
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972780
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Помните числовую оценку?

1Тб диск будет занят полностью нашим вектором если структура == 1байт.

Если вы положите туда такую структуру

Код: plaintext
1.
2.
3.
4.
struct AlexeisFuckenStructure {
   int value; // 4 bytes
   double fvalue;// 8 bytes
}



То нам понадобиться 4 + 8 = 12 байтная структура. Тоесть 12 терабайтный диск.

Иднекс по БД обычно несет в себе оверхед порядка 75% полезного места. Это только для ключей.
И для ROW_ID + данных надо посчитать. Но мне щас как-то лень. Проще прикинуть на глаз.
Наверное более чем в 2 раза.

Вобщем я вангую грубо 24 терабайтное хранилище для Алексеевских экспериментов в случае Index-Organized table.

Для раздельного индексирования value и fvalue нам уже понадобиться 3 объекта. Таблица и два индекса.

Давайте просто накинем 3 раза. 72 терабайт.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972787
petrav
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Помните числовую оценку?

1Тб диск будет занят полностью нашим вектором если структура == 1байт.

...

Давайте просто накинем 3 раза. 72 терабайт.

Автор уже на первой странице говорит про инты и строки. Так что не 72
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972789
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Просто любой эксперимент должен иметь какие-то числовые предварительные оценки.

Автор ищет алгоритмы и структуры данных. Но должен быть стенд и макет.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972791
kolobok0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Итого?

TC не корректно ставит задачи, вместо того чтобы сразу написать про предметную область вопроса Народ возбудился на скорость обработки запросов от строения индекса-способов поиска и т.д. и т.п..

На самом деле задача решаема, правда если убрать магическое слово вектор
Ну и война и мир решаема, было дело - делал такие движки в дос времена...


TC конечно же провокатор, но надеюсь добрый

ну вы блин даёте (из кинухи)
(круглый)
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972792
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Круглый нас это не беспокоит.

Sql.ru - это дискуссионный клуб. Мы тут ... как видишь и без автора подискутировали.

P.S. Подсудимого не было но суд состоялся.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972794
kolobok0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,

понял, заткнулся :)
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972795
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Да ладно. Пиши.

Как там ты Толстого под Досом индексировал...
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972802
kolobok0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,

то пока на горизонте ИТ нет, точнее есть но не под таким соусом.
лучше ближе сказки старого озвучу - в прософте делал часть движка объектной бд. нижний слой - без транзакционного но гарантированного ведения индекса+фиксированный формат данных. беркли по скорости сделал, не на много конечно же...ну это и понятно - там транзакционный слой есть. под форточки, файл шаринг. два помойму уровня индекса (объёмы были фиксированные по условию). как то так.

чисто по жизни - одна из голубых мечт-задач = когда нить сделать аля AS400 но на базе железа микроконтроллеровского + фпга. там так-же есть где собаку порыть :) - можно не хилый профит по скорости получить, но сначала там на мелкий ниокр тянет..
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972803
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
kolobok0,
Да. Добрый провокатор) бывший DBA.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972806
kolobok0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
PetroNotC Sharp,

задача решается на раз-два распределёнными вычислениями. но не в один вектор конечно же загонять надобно всё. тогда скорость зависит от диспетчеризации плюс поиска в одной банке данных. с нынешними технологиями микросеврисов плюс контейнеризации решается со свистом. если конечно же не пытаться городить монолиты-"микросеврисы"

(круглый)
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972832
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
kolobok0
mayton,

то пока на горизонте ИТ нет, точнее есть но не под таким соусом.
лучше ближе сказки старого озвучу - в прософте делал часть движка объектной бд. нижний слой - без транзакционного но гарантированного ведения индекса+фиксированный формат данных. беркли по скорости сделал, не на много конечно же...ну это и понятно - там транзакционный слой есть. под форточки, файл шаринг. два помойму уровня индекса (объёмы были фиксированные по условию). как то так.

Кажется в Беркли поддерживал несколько двигателей хранения. Там и дисковая хеш-табличка была и дерево.
И вообще я думаю этот беркли создавали в эпоху дискет. Тоесть... не всё могли учесть.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972839
mayton
Вообще Война и Мир это текстовый файл длиной где-то 5 мегабайт и в нем поиск любого слова идет достаточно быстро для современного процессора и памяти. Ты в текстовом редакторе там найдешь все что надо.

текстовый редактор в 2мб-файле ищет слово из конца неск.секунд.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972841
PetroNotC Sharp
petrav,

Аффтар приколист.
На третьей странице свернул к бэкапу чтобы байт не потерять. И к полнотекстовому поиску так как мы! его затронули)).

к какому ещё бекапу я свернул, где?
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972845
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
mayton
Вообще Война и Мир это текстовый файл длиной где-то 5 мегабайт и в нем поиск любого слова идет достаточно быстро для современного процессора и памяти. Ты в текстовом редакторе там найдешь все что надо.

текстовый редактор в 2мб-файле ищет слово из конца неск.секунд.

Как верно подметили Колобок, используя технологии распределённого поиска, мы можем безо всяких
индексов просто подняв копии этого файла в памяти на 20 физических инстанциях искать в 20 раз
быстрее. Разумеется файл при этом будет равномерно порезан как колбаса на 20 хеш-чанков.

Вот тебе первое коробочное решение проблемы. И если ты искал несколько (сколько? Допустим 5 секунд)
то после такого distibuted-search-improovement, я вангую 5 сек / 20 = 1/4 = 0.25 секунды.

Хорошее время. Согласно Амдалу в конце этого процесса будет join результатов поиска. Но если
этих результатов мало - то и процесс джойна нам ничего не будет стоить. Просто подожём финала 20 процессов.
Тут важно чтобы они работали равномерно. И не было среди них 1 доходяги который еще ползет.

Как тебе такое решение?
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972854
ъъъъъ
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Алексей Роза
. Конечно про x64 речь.

А Microsoft в Win64 прямо так разрешает 2^64 байт адресо?
Dima T
Для x64 нет. В x86 примерно 1.7 Гб потолок.


А для "64" потолок - 2^64? https://docs.microsoft.com/en-us/windows/win32/memory/memory-limits-for-windows-releases
...
Рейтинг: 0 / 0
25 сообщений из 332, страница 4 из 14
Форумы / C++ [игнор отключен] [закрыт для гостей] / vector на триллион объектов
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]