powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / C++ [игнор отключен] [закрыт для гостей] / vector на триллион объектов
25 сообщений из 332, страница 5 из 14
vector на триллион объектов
    #39972858
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
mayton
Вообще Война и Мир это текстовый файл длиной где-то 5 мегабайт и в нем поиск любого слова идет достаточно быстро для современного процессора и памяти. Ты в текстовом редакторе там найдешь все что надо.

текстовый редактор в 2мб-файле ищет слово из конца неск.секунд.

Ну что за бред очередной

Скорость чтения современного паршивенького HDD около 100 мб/сек, т.е. 2 мб читается 0.02 сек, ровно 20 мс надо чтобы найти слово в конце 2 мб. но если HDD спит, читай выключен, то да, 1.98 сек уйдет на его раскрутку перед чтением.

Чтение из закэшированного файла порядка 4-5 Гб/сек, т.е. это скорость работы кэша ОС. Тут на поиск уйдет 0,0005 сек.

Надо быстро с диска читать - SSD NMVe M.2 скорость чтения до 4 Гб/сек может быть.

PS У меня на селеронах 15-летней давности strstr() в 50+ мб ищет за миллисекунды.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972859
mayton
Как тебе такое решение?

0.25 секунды? решение?
Как-то ты далековат от темы хайлоада.
А зачем ты мне про какие-то поиски в текстовых редакторах рассказываешь, когда я фактически тоже самое предлагал - расфасовать все слова?
Это вообще-то побыстрее работает, чем забить 20 ядер поиском по массиву слов...
Ради 0.25 сек
Не, гугловские технологии таки лучше.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972861
Dima T
PS У меня на селеронах 15-летней давности strstr() в 50+ мб ищет за миллисекунды.

какой strstr блин
mayton
Ты в текстовом редакторе там найдешь все что надо.


Dima T
Чтение из закэшированного файла порядка 4-5 Гб/сек, т.е. это скорость работы кэша ОС. Тут на поиск уйдет 0,0005 сек.

ну ок, пускай внутри C++ будет 0.0005, но таких массивов текстов будет несколько. Представь, что по библиотеке надо найти все подходящие книги.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972863
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза

Это вообще-то побыстрее работает, чем забить 20 ядер поиском по массиву слов...
Ради 0.25 сек
Не, гугловские технологии таки лучше.

Я тебе могу рассказать как гугловские работают. Там тоже map-reduce. По полнотекстовому индексу всего интернета.
Но с региональными особенностями.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972865
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
Dima T
PS У меня на селеронах 15-летней давности strstr() в 50+ мб ищет за миллисекунды.

какой strstr блин
mayton
Ты в текстовом редакторе там найдешь все что надо.

Видишь как хорошо. Найтоящий брейншторм. Мы уже твой триллион объектов рассмотрели
в 4 разных способа.

Кстати за тобой должок. Ты так и не рассказал что внутри объектов. А от этого ... как-то обидно.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972867
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
Dima T
PS У меня на селеронах 15-летней давности strstr() в 50+ мб ищет за миллисекунды.

какой strstr блин

тот что по ссылке, а ищет в файле замапленном в память. 10+ лет назад написал, думал надо ускорять, а оно и так летает.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972869
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей РозаКак-то ты далековат от темы хайлоада.

Того хайлоада, который "всё тормозит и мы не можем понять почему"?
Или того, который "зачем оптимизировать наш код, когда можно ужесточить требования к чужому?"
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972870
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
PetroNotC Sharp
petrav,

Аффтар приколист.
На третьей странице свернул к бэкапу чтобы байт не потерять. И к полнотекстовому поиску так как мы! его затронули)).

к какому ещё бекапу я свернул, где?

Ты держа коллекцию или вектор в оперативке боялся потерять байт?
Ну дак расшифруй как это потерять.
Уборщица шваброй резет нажала?
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972871
mayton
Мы уже твой триллион объектов рассмотрели в 4 разных способа.

чо вы рассмотрели то? У меня нет проблем с поиском по триллионному вектору
а в объектах int + short ИЛИ int + string
я это говорил в начале.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972872
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Если все-таки СУБД потребуется - то я бы советовал глянуть в сторону SQLite, она изначально рождена как СУБД работающая на стороне клиента. У нее есть прямой интерфейс для С/С++, это немаловажно, т.к. классические универсальные прокладки аля ADO, ODBC и т.п. жрут достаточно много ресурсов.
Изначально она медленная, т.к. настроена на максимум надежности, но при некотором тюнинге может летать.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972873
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
По поводу исходных данных. Есть такой ресурс. Или был. Называется Флибуста.
Там - библиотека художественной литературы в формате fb2 (это XML внутри).

Ее - можно качнуть в торрентах в виде zip архивов. Там есть полные и есть инкременты.

Так вот. Когда мы еще с Базистом спорили о trie, hash-array и прочих структурах
я предлагал Флибусту использовать в качестве исходных данных для симуляции
правильной нагрузки.

Базист тогда предпочитал парсить ПТ чтобы индексировать его содержимое. Кстати я думаю
он сейчас чуть ли не единственный у кого есть исторический срез ПТ. Где-то по 2015 год я думаю.

Вобщем если кто-то хочет реально показать свою мощь и круть - попробуйте поискать
слова в Флибусте. Я думаю сейчас там гигабайт на 100 потянет. Это примерно 10%
от той постановки которую озвучил Алексей.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972875
PetroNotC Sharp
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
mayton
Мы уже твой триллион объектов рассмотрели в 4 разных способа.

чо вы рассмотрели то? У меня нет проблем с поиском по триллионному вектору
а в объектах int + short ИЛИ int + string
я это говорил в начале.

Еще раз сформулируй проблему. Со знаками препинания.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972876
Dimitry Sibiryakov
Алексей РозаКак-то ты далековат от темы хайлоада.

Того хайлоада, который "всё тормозит и мы не можем понять почему"?
Или того, который "зачем оптимизировать наш код, когда можно ужесточить требования к чужому?"
полнотекстовый поиск по библиотеке книг у нас на повестке - что непонятного?
но вообще это можно и не обсуждать, сам писать не буду, проще либу взять.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972877
Dima T
Если все-таки СУБД потребуется - то я бы советовал глянуть в сторону SQLite, она изначально рождена как СУБД работающая на стороне клиента. У нее есть прямой интерфейс для С/С++, это немаловажно, т.к. классические универсальные прокладки аля ADO, ODBC и т.п. жрут достаточно много ресурсов.
Изначально она медленная, т.к. настроена на максимум надежности, но при некотором тюнинге может летать.

я уже обглядел ВСЕ субд.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972878
mayton
Вобщем если кто-то хочет реально показать свою мощь и круть - попробуйте поискать
слова в Флибусте. Я думаю сейчас там гигабайт на 100 потянет. Это примерно 10% от той постановки которую озвучил Алексей.

да там какой-нибудь эластик всё делает
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972880
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
mayton
Мы уже твой триллион объектов рассмотрели в 4 разных способа.

чо вы рассмотрели то? У меня нет проблем с поиском по триллионному вектору
а в объектах int + short ИЛИ int + string
я это говорил в начале.

А какая средняя длина string?

Или даже не длина а ... например 99% строк не превышают 3 символа. Ну чтото типа такого я хотел услышать.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972881
да также - 4 символа
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972882
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Розаполнотекстовый поиск по библиотеке книг у нас на повестке - что непонятного?

Полнотекстовый поиск. В векторе. На триллион слов. Понятно. Удачи!
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972883
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
mayton
Вобщем если кто-то хочет реально показать свою мощь и круть - попробуйте поискать
слова в Флибусте. Я думаю сейчас там гигабайт на 100 потянет. Это примерно 10% от той постановки которую озвучил Алексей.

да там какой-нибудь эластик всё делает

Под капотом Эластика стоит Lucene. Это текстовый двигатель написанный на Java
и использующий концептуально map-reduce как главный регулятор перформанса.
Тоесть как ты хочешь - так и ускоряешь его.

Единственный нюанс. Эластик плохо работает с арифметикой. Тоесть он на заточен
например под WHERE month between 'JAN' and 'JUL'. Он в принципе не делает арифметику.
Он - по точному совпадению. Хотя может его уже доделали.

Я не следил где-то с 2018 года.

Кроме того Эластик - не для транзакций а для исторических данных. Типа логи. Тоесть если
файл дописываетя в хвостик - то эластик будет хорош.

А если у вас есть типизированная табличка типа dbm/dbf/stuctures C++ то здесь эластик зафейлит.
Он не сможет отслеживать изменение в центре таблицы. Ему надо как-то отдельно сообщать и подписывать
его на изменения. И то они будут eventual consistent.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972885
угу, я тоже за postgres FTS.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972886
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
да также - 4 символа


Ну это типа так?

Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
struct struct1 {
 int i1;
 short s1;
}

struct struct2 {
 int i1 {
 char c[4]; // типа строка но ограниченная всегда до 4 символов. Или можно 5 поставить. Чтоб ASCIIZ.
}
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972887
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
Dima T
Если все-таки СУБД потребуется - то я бы советовал глянуть в сторону SQLite, она изначально рождена как СУБД работающая на стороне клиента. У нее есть прямой интерфейс для С/С++, это немаловажно, т.к. классические универсальные прокладки аля ADO, ODBC и т.п. жрут достаточно много ресурсов.
Изначально она медленная, т.к. настроена на максимум надежности, но при некотором тюнинге может летать.

я уже обглядел ВСЕ субд.

Кстати Дима хороший вариант предлагал. СКЛайт умеет полнотекстовый индекс тоже строить.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972888
Dima T
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
У меня нет проблем с поиском по триллионному вектору

Это троллинг какой-то. Предлагаю топик закрыть.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972889
Dimitry Sibiryakov
Алексей Розаполнотекстовый поиск по библиотеке книг у нас на повестке - что непонятного?

Полнотекстовый поиск. В векторе. На триллион слов. Понятно. Удачи!
да хосспаде, забудьте уже про вектор. Нету с ним никаких проблем!
и про память уже всё ясно, что риски такие же, как и с диском (а то и меньше).
А вот про поиск в библиотеке тема всплыла, она поинтересней будет...
Но тут лидером был и остаётся гугл, так что лучше него всё равно ничего не родить.
...
Рейтинг: 0 / 0
vector на триллион объектов
    #39972890
petrav
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dima T
Алексей Роза
У меня нет проблем с поиском по триллионному вектору

Это троллинг какой-то. Предлагаю топик закрыть.

Да вообще не тема, а песец.
...
Рейтинг: 0 / 0
25 сообщений из 332, страница 5 из 14
Форумы / C++ [игнор отключен] [закрыт для гостей] / vector на триллион объектов
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]