powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / C++ [игнор отключен] [закрыт для гостей] / vector на триллион объектов
25 сообщений из 332, страница 6 из 14
vector на триллион объектов
    #39972892
mayton
Ну это типа так?

Код: plaintext
1.
2.
3.
4.
struct s2 {
    int i;
    string str; // тут до 15 символов new не будет включаться
};

...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972893
Dima T
Алексей Роза
У меня нет проблем с поиском по триллионному вектору

Это троллинг какой-то. Предлагаю топик закрыть.

предлагаю не искать чёрную кошку там, где её нет
тут все зачем-то бросились искать по вектору, когда такой задачи я даже не ставил.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972894
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
Dimitry Sibiryakov
пропущено...

Полнотекстовый поиск. В векторе. На триллион слов. Понятно. Удачи!

да хосспаде, забудьте уже про вектор. Нету с ним никаких проблем!
и про память уже всё ясно, что риски такие же, как и с диском (а то и меньше).
А вот про поиск в библиотеке тема всплыла, она поинтересней будет...
Но тут лидером был и остаётся гугл, так что лучше него всё равно ничего не родить.

Гугл это не 1-instance приложение. Это грид.

А ты что думал?
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972900
mayton
Я тебе могу рассказать как гугловские работают. Там тоже map-reduce. По полнотекстовому индексу всего интернета.
Но с региональными особенностями.

ну... капельку сложнее . Систему синонимов в map-reduce не впихнёшь.
mayton
Гугл это не 1-instance приложение. Это грид.

ну у него и объёмы другие. Это детали.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972901
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза, а ты всё таки толстый тролище.

Вроде как тема была - не знаю как быть с массивом. Как искать.
А потом - и проблем нет. Мог бы исходник показать да и все. Чего не показал?

Без копирайтов конешно...
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972905
mayton
Вроде как тема была - не знаю как быть с массивом. Как искать.

да не было такой темы "как искать по массиву". По индексу там искать, чё тут думать.
Это вы понабежали со своими RDBMS и давай втюхивать перформанс, у кого быстрее.
Я может и поддался на секунду веянию искать внутри объектов, но вообще-то это не нужно. Нет такой задачи.
Стандартные БД - вот что тут вообще не в тему. нах.. мы их обсуждаем 6 страниц - непонятно.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972912
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
Стандартные БД - вот что тут вообще не в тему. нах.. мы их обсуждаем 6 страниц - непонятно.

Да? А кто это написал
Алексей Роза
вопрос в сохранности, констистенции и скорости обработки...

Какая сохранность в памяти? Одна кривая функция - вызвал и память загажена. Консистенция и вектор вообще понятия из разных областей.

Ты эти умные слова упомянул (подозреваю что сам не понял зачем) и тебе ответили что надо использовать СУБД, т.к. эти слова реализованы в СУБД.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972922
Dima T
Какая сохранность в памяти?

вот эта. Меня вот это интересовало:
Алексей Роза
Что будет через 5 лет нахождения информации в памяти? Каков шанс потерять рандомный байт?

Вот, например, вы знаете, что некоторые SSD если оставить без питания, то через пару недель вы оттуда ничего не считаете?
Для меня это было открытием.
Dima T
Одна кривая функция - вызвал и память загажена.

ну и с файлом так же.
Dima T
и тебе ответили что надо использовать СУБД, т.к. эти слова реализованы в СУБД.

Да нету в СУБД скорости! Я именно это имел ввиду, что вектор взят из-за скорости. А СУБД - это тормозная абстракция для ленивых.

В общем ребят, спасибо всем, кто пытался помочь. Само стремление очень ценю и благодарю.
Пардон, если какое-то недопонимание возникло по моей вине.
В векторе я ищу по индексу, с СУБД работаю более 10 лет и ничего нового по ним вы мне не расскажете.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972925
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
Dima T
Какая сохранность в памяти?

вот эта. Меня вот это интересовало:
Алексей Роза
Что будет через 5 лет нахождения информации в памяти? Каков шанс потерять рандомный байт?

Вот, например, вы знаете, что некоторые SSD если оставить без питания, то через пару недель вы оттуда ничего не считаете?
Для меня это было открытием.

Рандомный байт на диске потерять невозможно, но может случиться такая ситуация что этот байт невозможно прочитать, точнее не прочитать сектор где он расположен, для этого пишется и проверяется контрольная сумма.

Только я не понимаю зачем в кучу мешать: быстрый доступ к массиву и долговременное хранение данных. Это абсолютно разные задачи и решаются они разными средствами.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972926
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Хм.. меня не покидает устойчивое Дежа-Вю. Где-то я уже Льва Толстого видел. Лет 5 назад.
И кажется это был мой топик. С деревьями. Или с бинарными деревьями.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972927
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну вот оно. Скруль не нашёл зато гугл по домену sql.ru находит

https://www.sql.ru/forum/1268236/vtornichnaya-verevka-dlya-lva-nikolaicha
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972935
petrav
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakov

petravДобавление одной строки не приведёт ли к полной перестройке дерева?

Нет, максимум три блока при сплите.

Странно, давно это изучал. Но мне кажется балансировка дерева (в самом худшем случае) может привести к кардинальным изменениям по всему дереву.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972957
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
petravбалансировка дерева (в самом худшем случае) может привести к кардинальным изменениям по
всему дереву.

ЕМНИП это всего лишь перемещение корня, так что тоже три блока. Или даже два если новый
корень не записывать.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972958
деревья вообще разные бывают...
petrav
Но мне кажется балансировка дерева (в самом худшем случае) может привести к кардинальным изменениям по всему дереву.

и такое там тоже есть (NS)
Код: sql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
Деревья в базах данных можно хранить четырьмя основными методами: Adjacency List, Path Enumeration, Nested Set & Closure Table (НФ1-2-3).
Если кратко, то:
AL — когда у нас родитель хранится в колонке типа parent_id: '1'
PE — полный путь до элемента хранится в колонке типа path: '1.2.5' (? не годится, когда ПОДката может быть в нескольких НАДкатах ?). Хорош для "хлебных крошек" и сортировке по иерархии.
NS — пара колонок left и right, хранящие диапазон всех вложенных элементов, например, корень дерева из 9 элементов будет иметь левое значение '1', а правое — '18'
    -- это дичь, когда при insert/delete нужно пересчитать ВСЁ дерево и ВСЕМ узлам по новой раздать parent_id/child_id.
CT - Closure Table (обычная нормализация, причём с FK. 48 слайд в "антипаттернах")
    -- она типа должна требовать O(N**2) строк в НФ, но на практике гораздо меньше.
    -- в НФ надо добавить колонку `depth` и ускорить поиск родителя. А можно попробовать подключить массивы с GIN (PostgreSQL) и пихать родичей туда. Чтобы не строчки плодить, а массив.

NS походу НЕ ГОДИТСЯ, когда ката может находиться в нескольких НАДкатах, потому что ID дублируется, а у NS кол-во right_key = кол-во_ID *2
они также не годятся и для комментариев/тикетов, потому что там в любых точках происходит коммент и всё остальное дерево надо пересчитывать. Если клиентов много, это будет 3.14здец.[/quot]

-- вот тут PDF про антипаттерны, а с 34 про деревья (SQL Antipattern Strike Back)
http://www.r-5.org/files/books/computers/languages/sql/style/Bill_Karwin-SQL_Antipatterns-EN.pdf
https://www.slideshare.net/billkarwin/sql-antipatterns-strike-back/49-Antipattern_Categories_Database_Design_Database -- тут тоже самое, но РКН блочит слайдшару
(оттуда):
Design                  № of Tables     Query child     Query subtree   Modify tree     Referential integrity
Adjacency List          1               Easy            Hard            Easy            +
Path Enumeration        1               Easy            Easy            Hard            -
Nested Sets             1               Hard            Easy            Hard            -
Closure Table           2               Easy            Easy            Easy            +
-- тут ещё описание скорости: https://demiurg.livejournal.com/53125.html?mode=reply
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972959
Dima T
Рандомный байт на диске потерять невозможно

да не на диске. В памяти!
Dima T
Это абсолютно разные задачи и решаются они разными средствами.

ну так как решается долговременное хранение данных в памяти?
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972960
mayton
Ну вот оно. Скруль не нашёл зато гугл по домену sql.ru находит
https://www.sql.ru/forum/1268236/vtornichnaya-verevka-dlya-lva-nikolaicha

есть такая мысль, подойдёт не всем, но, например, магазинам подойдёт...
в магазинах ограниченное кол-во слов, которые ищут. Ну неск. тысяч (в зависимости от магазина)
их можно просто забить в индекс и привязать к ним нужные страницы (т.е. entity = "article", id = 123. Или ent = "goods", id = 123)
по идее, это будет быстрее, чем что-либо...
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972961
petrav
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
деревья вообще разные бывают...
petrav
Но мне кажется балансировка дерева (в самом худшем случае) может привести к кардинальным изменениям по всему дереву.

и такое там тоже есть (NS)

Конечно, деревья разные бывают. Не могу сейчас спорить. Но что-то мне подсказывает, что против природы не попрёшь. Как ни оптимизируй. Ну, возможно, я ошибаюсь.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972981
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Да. Топик не интересный. Троллинг.
Придумывание на ходу задачи "с потолка".
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972985
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
Dima T
Это абсолютно разные задачи и решаются они разными средствами.

ну так как решается долговременное хранение данных в памяти?

Почитай про ECC-память
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39973021
kolobok0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakov
...Или даже два если новый корень не записывать.


ну как бы наихудший вариант по заниманию новых блоков данными при вставке, это обычно когда вы заюзали новый блок под данные и сплитуете индекс по всей глубине (каждую страницу). у вас меняются: список свободных страниц, индекс, данные. многие бд стараются кэшировать страницы при вставке и сопутствующие данные - тем самым смещая нагрузку на диск на паузы работы ну и плюс более правильное упорядочивание.

как то так
(круглый)
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39973025
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза, вот то что ты что ты написал про Adjacency List, Path Enumeration, e.t.c.
это всё относится к разным моделям представленяи деревьев в реляционных таблицах.

Но это не имеет аж никакого отношения к блочным дисковым структурам данных на которых
строится индекс.

Я не знаю зачем ты это написал. Это явно не в тему твоей задачи.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39973087
mayton, у тебя избранная слепота чтоли?
ты частенько пишешь невпопад.
там вообще-то цитата есть
и предыдущие 2 сообщения тоже.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39973092
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
mayton, у тебя избранная слепота чтоли?
ты частенько пишешь невпопад.
там вообще-то цитата есть
и предыдущие 2 сообщения тоже.

Извини мне кажется что у тебя большой большой провал в знаниях в области БД.

И обсуждение ребалансировки дерева идет все еще в контексте индекса БД. Но ты очевидно
подумал что мы обсуждаем абстрактные деревья? Зачем? Где появился информационный повод
обсуждать абстрактные деревья?
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39973105
повод появился при твоём непосредственном участии, mayton
вот тут 22156478
а потом тут они его продолжают 22156828
я бы и рад конечно не обсуждать эти убогие РДБМС, но вы тут на 6 страницах только их и обсуждаете, мне чё тоже слепым стать теперь
mayton
Извини мне кажется что у тебя большой большой провал в знаниях в области БД.
а мне кажется, у тебя язык впереди головы.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39973107
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Давай так. Если у тебя как у владельца топика больше нет вопросов я закрою.
...
Рейтинг: 0 / 0
25 сообщений из 332, страница 6 из 14
Форумы / C++ [игнор отключен] [закрыт для гостей] / vector на триллион объектов
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]