|
|
|
Сортировка сотен миллионов строк с удалением дублей
|
|||
|---|---|---|---|
|
#18+
Дегтярев Евгений> Все 24 лп не напрягались, ощущение что уперлось во что-то другое, возможно память. NUMA? Да ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.07.2019, 09:33 |
|
||
|
Сортировка сотен миллионов строк с удалением дублей
|
|||
|---|---|---|---|
|
#18+
X-CiteДегтярев Евгений> Все 24 лп не напрягались, ощущение что уперлось во что-то другое, возможно память. NUMA? Да Вроде бы Тема о сортировке большых(?) объёмах данных? На клиенте? А вы тут... PUMA зачем-то... Вы бы ещё IBM & Cray Corp вспомнили... SAS мозгололомоы разбежались по конторам по тематике... ___ Собственно вопрос. Кто в состоянии обработать 100 миллионов строк (а завтра и 100 миллиардов)? Тут нужен сервис ленивый (а ля LazyReader/LazyWriter) Клиенту-то это зачем? Распределённая сеть с распределёнными транзакциями ради тупой сортировки(?) неизвестно чего(ТС?)??? Да ещё на Дельфи? Не верю! Клиент пусть берёт нужную выборку из своего OLAP и сортирует, как жопса скажет нужные ему поля в нужном ему порядке ______________ ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.07.2019, 00:23 |
|
||
|
Сортировка сотен миллионов строк с удалением дублей
|
|||
|---|---|---|---|
|
#18+
GatorА вы тут... PUMA зачем-то... whaat? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.07.2019, 07:34 |
|
||
|
Сортировка сотен миллионов строк с удалением дублей
|
|||
|---|---|---|---|
|
#18+
Дегтярев Евгений, Pardon, NUMA ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.07.2019, 11:23 |
|
||
|
Сортировка сотен миллионов строк с удалением дублей
|
|||
|---|---|---|---|
|
#18+
Gator, В первом сообщении был затронут общий вопрос сортировки, неважно где. Меня же клиентские машины вообще не интересуют, у нас вся логика в бэкэнде на сервисах. Поэтому и рассматриваю этот вопрос исключительно на серверной части. К тому же в своих тестах привел кейс для своей машины, считай клиентской, и для двух разных серверов. Моя выиграла из-за того что частота CPU выше, хотя я пробовал на физическом сервере с такой же частотой и он все равно медленнее оказался. Виртуальные серверы понятно, что проиграли. А вопрос про NUMA возник из-за того, что меня удивило, что 24 ЛП не напрягались, и как я понял это может быть причиной, когда данные оказались в памяти не того сокета, куда прикреплен процессор. Никакие распределенные сети не нужны. Нужно чтобы TArray.Sort<T> работал быстро неважно где и использовал все возможности машины на которой выполняется код. P.S. Создал в QC 3 таски: Одна на multithreading сортировку в TArray.Sort<T> - добавить возможность включения Одна на поддержку NUMA в менеджере памяти - актуально для бэкенда (на гитхабе нашел коммент в FastMM на поддержку, но он так и остался комментом [planned: support for multiple per-NUMA-node allocators]) Одна на поддержку NUMA в TThredPool - актуально для бэкенда ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.07.2019, 15:15 |
|
||
|
|

start [/forum/topic.php?fid=58&msg=39834877&tid=2039285]: |
0ms |
get settings: |
7ms |
get forum list: |
16ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
163ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
33ms |
get tp. blocked users: |
1ms |
| others: | 204ms |
| total: | 443ms |

| 0 / 0 |
