А оно нам надо: выравнивание данных? / C++

ReSQL.ru

2.0.61

Полная версия Контакт Правила FAQ Помощь

Гость

Войти | Профиль | Очистить

Нов. | Гор. | Избр.

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Действия ...

Доб. в избранное
Игнор. тему
Прикреп. тему
Пометить прочит. / непрочит.
Фильтр:
Сообщения автора темы
Сообщение содержит вложения
Сообщение содержит картинки
Сообщение содержит видеоклипы
Сообщение содержит аудиоклипы
Сообщение содержит картинки или видео 18+

Форумы / C++ [игнор отключен] [закрыт для гостей] / А оно нам надо: выравнивание данных? / 25 сообщений из 46, страница 1 из 2

все

18.02.2018, 17:04

#39603703

AlekseySQL

Гость

А оно нам надо: выравнивание данных?

Прочитал удвительную статью , в которой говорится, что для уменьшения обращений к памяти желательно работать с выровненными данными:

Автор статьиДля выделения выравненной памяти на С/С++ в куче используется функция:
void* _mm_malloc(int size, int base)
Для переменных на стэке используется атрибут __declspec:
__declspec(align(base)) <var>
Автор комментарияВ 2015 году было бы неплохо хотя бы упомянуть о alignas . Вместо всяких declspec компиляторозависимых

Что- то я в чужих программах не видел никаких громоздких конструкций при объявлении переменных. Действительно ли нужно выполнять выравнивание данных в памяти или компилятор это делает сам под текущую архитектуру? Если надо, то по какой базе выравниваться для современных x64 процессоров: 32 бита или 64 бит?

Что насчет new ? Этот оператор создает объекты выровненными или нужно использовать какие-то его аналоги, чтобы объекты создавались по выровненному адресу?

Молодой падаван будет рад подсказкам.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 17:10

#39603704

Dimitry Sibiryakov

Участник

Сообщения: 54 521
Рейтинг: 0 / 0

А оно нам надо: выравнивание данных?

Забей. Это очень специальные случаи до которым молодым падаванам ещё надо дорасти.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 17:12

#39603705

AlekseySQL

Гость

А оно нам надо: выравнивание данных?

Dimitry SibiryakovЗабей. Это очень специальные случаи до которым молодым падаванам ещё надо дорасти.

В приведеной статье пишут, что для векторизации нужно.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 17:16

#39603706

Dimitry Sibiryakov

Участник

Сообщения: 54 521
Рейтинг: 0 / 0

А оно нам надо: выравнивание данных?

AlekseySQLВ приведеной статье пишут, что для векторизации нужно.

Да. А векторизация это и есть специальный случай до которой падаванам расти и расти. И
даже когда дорастут, компилятор, скорее всего, всё сделает за них.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 18:01

#39603715

Dima T

Участник

Сообщения: 15 530
Рейтинг: 0 / 0

А оно нам надо: выравнивание данных?

Затести и с нами поделись результатами.

Я в плане выравнивания другое мерил: попадание в кэш-линию проца , на ровном месте можно словить тормоз в 5-7 раз.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 20:06

#39603742

AlekseySQL

Гость

А оно нам надо: выравнивание данных?

Хорошо, напишу мою ситуацию, чтобы меня можно было более конкретно успокаивать.

1. У меня очень большой массив структур (>1 000 000 элементов), который располагается в памяти, выделенной с помощью malloc.

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

struct MyData
{
        uint32_t a1;
        uint32_t a2;
        uint32_t a3;
        uint32_t a4;
        float a5;
        int8_t a6;
        int8_t a7;
}

sizeof(MyData) = 24

Не получится ли медленный доступ к элементам моего массива (отдельным структурам), если изначально кусок памяти выделен невыровненно (адрес первого бита не кратен машинному слову)? Надо ли применять дополнительное выравнивание ВНУТРИ структуры, чтобы получить более быстрый доступ к полям? Если да, "то по какой базе выравниваться для современных x64 процессоров: 32 бита или 64 бит?"

2. Так как массив очень большой, то он может выместить небольшие (но часто- используемые!) переменные из кеша, которые в свою очередь могут быть невыровненны в памяти. Получится ситуация частого чтения невыровненных данных из памяти, что скажется на производительности.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 20:19

#39603746

Dimitry Sibiryakov

Участник

Сообщения: 54 521
Рейтинг: 0 / 0

А оно нам надо: выравнивание данных?

1. Не парься, компилятор о тебе позаботится.
2. Не парься, массив такого размера гарантированно вытеснит из всех кэшей всё остальное.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 20:37

#39603752

Вася Уткин

Гость

А оно нам надо: выравнивание данных?

Если нет многопоточного доступа и не обращаешься через SSE>=3 и AVX, то ничего выравнивать не надо, с выравниванием только памяти больше съешь.

Но если хочется поиграться, то:

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.

#include <stdlib.h>
#include <stdalign.h>
#include <stdio.h>

// cache-line size on x86_64 using C++17
//#define ALIGN_NUM std::hardware_destructive_interference_size
#define ALIGN_NUM 64

struct alignas(ALIGN_NUM) MyData
{
        uint32_t a1;
        uint32_t a2;
        uint32_t a3;
        uint32_t a4;
        float a5;
        int8_t a6;
        int8_t a7;
};

MyData *p = aligned_alloc(ALIGN_NUM, 1024*sizeof(MyData));

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 20:42

#39603756

Вася Уткин

Гость

А оно нам надо: выравнивание данных?

http://coliru.stacked-crooked.com/a/0fae7bf03210fdd1

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 20:55

#39603759

AlekseySQL

Гость

А оно нам надо: выравнивание данных?

Dimitry Sibiryakov1. Не парься, компилятор о тебе позаботится.
2. Не парься, массив такого размера гарантированно вытеснит из всех кэшей всё остальное.

1. Хочешь сказать, что компилятор сам производит выравнивание адресов в памяти?
2. Если часто- используемые переменные будут вытеснены из кеша и при этом будут невыровнены, то получится снижение производительности. Чего мне не хочется. Может мелкие переменные, созданные в стеке, тоже стоит выравнивать с помощью alignas?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 21:06

#39603763

Dimitry Sibiryakov

Участник

Сообщения: 54 521
Рейтинг: 0 / 0

А оно нам надо: выравнивание данных?

1. Да.
2. Ты как-то бредишь о кэше и выравнивании, которые, в общем случае, никак не связаны.
Разгреби кашу в голове.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 21:09

#39603764

AlekseySQL

Гость

А оно нам надо: выравнивание данных?

Вася УткинЕсли нет многопоточного доступа и не обращаешься через SSE>=3 и AVX, то ничего выравнивать не надо, с выравниванием только памяти больше съешь.

1. Честно говоря, не понял при чем тут многопоточный доступ. Разве что предположить, что по выровненным данным работа идет быстрее и взаимные ожидания потоков будут меньше. Но тогда не понятно: если скорость быстрее, то почему не применить это ускорение для однопоточного доступа?
2. Насколько я понял SSE и AVX критичны к выравниванию в регистрах процессора (с помощью которых производятся векторные операции). Другими словами, в случае векторных операций у нас два места хранения данных: память и регистры процессора, и ключевое значение для скорости векторных операций имеет выровненность в регистрах (а выровненность в памяти влияет также как и при обычных невекторных операциях).

Спасибо, за пример!

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 21:13

#39603768

AlekseySQL

Гость

А оно нам надо: выравнивание данных?

Dimitry Sibiryakov1. Да.
2. Ты как-то бредишь о кэше и выравнивании, которые, в общем случае, никак не связаны.
Разгреби кашу в голове.

2. Поясню: если переменная будет вымещенна из кеша, то при повторном обращении к ней её придется снова получать из памяти. А если она в памяти не выровненна, то это будет более трудоемкая операция. Таким образом получаем вероятную картину: маленькая невыровненная переменная много раз читается из памяти и тормозит всю программу.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 21:17

#39603772

MasterZiv

Участник

Откуда: Питер
Сообщения: 32 427
Рейтинг: 0 / 0

А оно нам надо: выравнивание данных?

AlekseySQL,

Это всё не нужно.
Включи оптимизацию в компиляторе и наслаждайся.

Я полагаю, статья если не устаревшая, то как минимум для очень специального случая.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 21:18

#39603773

AlekseySQL

Гость

А оно нам надо: выравнивание данных?

Dimitry Sibiryakov1. Да.
2. Ты как-то бредишь о кэше и выравнивании, которые, в общем случае, никак не связаны.
Разгреби кашу в голове.

1. GCC у меня действительно выравнивает поля в структуре (поэтому мне пришлось слегка попереставлять свои поля, чтобы добиться ее минимального размера). Но относится ли это к выделяемой памяти с помощью malloc и переменным на стеке?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 21:19

#39603774

AlekseySQL

Гость

А оно нам надо: выравнивание данных?

MasterZivAlekseySQL,

Это всё не нужно.
Включи оптимизацию в компиляторе и наслаждайся.

Я полагаю, статья если не устаревшая, то как минимум для очень специального случая.

Можно подробнее: что это за оптимизация?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 21:27

#39603779

MasterZiv

Участник

Откуда: Питер
Сообщения: 32 427
Рейтинг: 0 / 0

А оно нам надо: выравнивание данных?

AlekseySQLMasterZivAlekseySQL,

Это всё не нужно.
Включи оптимизацию в компиляторе и наслаждайся.

Я полагаю, статья если не устаревшая, то как минимум для очень специального случая.

Можно подробнее: что это за оптимизация?

Код: plaintext

g++  -O3 ....

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 21:51

#39603797

AlekseySQL

Гость

А оно нам надо: выравнивание данных?

MasterZivg++ -O3 ....

Честно говоря, не нашел в опциях компилятора выравнивания данных (искал по подстроке "alig"). Для O2 есть только:

Код: plaintext

-falign-functions  -falign-jumps 
-falign-loops  -falign-labels

, но это скорее относится к инструкциям, чем к данным программы.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 22:22

#39603820

Dimitry Sibiryakov

Участник

Сообщения: 54 521
Рейтинг: 0 / 0

А оно нам надо: выравнивание данных?

AlekseySQLпри повторном обращении к ней её придется снова получать из памяти. А если она в памяти не
выровненна, то это будет более трудоемкая операция. Таким образом получаем вероятную
картину: маленькая невыровненная переменная много раз читается из памяти и тормозит всю
программу.

Опять же бредишь. Процессор не кэширует отдельные переменные. Он кэширует куски памяти.
Скорость чтения куска совершенно не зависит от того в каком его месте находится твоя
переменная.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 22:43

#39603829

AlekseySQL

Гость

А оно нам надо: выравнивание данных?

Dimitry SibiryakovОпять же бредишь. Процессор не кэширует отдельные переменные. Он кэширует куски памяти.
Скорость чтения куска совершенно не зависит от того в каком его месте находится твоя
переменная.

Честно говоря, не знаю как происходит процедура кеширования. Процессор читает из памяти машинными словами, и если что-то попадется лишнего, то будет оно отброшено или также закешируется- не знаю. Но как это меняет ситуацию?

Предположим моя переменная лежит невыровненно, т.е для ее получения надо считать лишний кусок памяти. Какая разница как переменная поделена между этими кусками? Все равно придется считывать лишний кусок, как бы она там не лежала.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 22:46

#39603830

Dimitry Sibiryakov

Участник

Сообщения: 54 521
Рейтинг: 0 / 0

А оно нам надо: выравнивание данных?

AlekseySQLЧестно говоря, не знаю как происходит процедура кеширования.

Вот поэтому - забей. То, чего ты не знаешь, ты не можешь контролировать. Не созрел ты ещё
для низкоуровневой оптимизации, тебе надо азы изучить типа вынесения инвариантов из цикла.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

18.02.2018, 22:51

#39603834

AlekseySQL

Гость

А оно нам надо: выравнивание данных?

Dimitry SibiryakovВот поэтому - забей. То, чего ты не знаешь, ты не можешь контролировать. Не созрел ты ещё
для низкоуровневой оптимизации, тебе надо азы изучить типа вынесения инвариантов из цикла.

Спасибо , за совет! :)

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

19.02.2018, 00:14

#39603858

Вася Уткин

Гость

А оно нам надо: выравнивание данных?

AlekseySQLВася УткинЕсли нет многопоточного доступа и не обращаешься через SSE>=3 и AVX, то ничего выравнивать не надо, с выравниванием только памяти больше съешь.

1. Честно говоря, не понял при чем тут многопоточный доступ. Разве что предположить, что по выровненным данным работа идет быстрее и взаимные ожидания потоков будут меньше. Но тогда не понятно: если скорость быстрее, то почему не применить это ускорение для однопоточного доступа?
2. Насколько я понял SSE и AVX критичны к выравниванию в регистрах процессора (с помощью которых производятся векторные операции). Другими словами, в случае векторных операций у нас два места хранения данных: память и регистры процессора, и ключевое значение для скорости векторных операций имеет выровненность в регистрах (а выровненность в памяти влияет также как и при обычных невекторных операциях).

Спасибо, за пример!
1. При многопоточном доступе код оптимизируют, чтобы потоки работали с разными элементами массива, а чтобы эта оптимизация сработала, нужна ещё одна оптимизация - эти разные элементы массива должны быть в разных кэш-линиях, чтобы избежать false-sharing.
2. На данных не выравненных в памяти инструкции SSE/AVX сохраняющие или загружающие данные из памяти: некоторые будут работать медленно, некоторые быстро, а некоторые совсем откажутся работать :
https://software.intel.com/en-us/forums/intel-isa-extensions/topic/752392 Load 256-bits (composed of 4 packed double-precision (64-bit) floating-point elements) from memory into dst. mem_addr must be aligned on a 32-byte boundary or a general-protection exception may be generated .
https://en.wikipedia.org/wiki/SSE4 With SSE4a the misaligned SSE feature was also introduced which meant unaligned load instructions were as fast as aligned versions on aligned addresses. It also allowed disabling the alignment check on non-load SSE operations accessing memory.[4] Intel later introduced similar speed improvements to unaligned SSE in their Nehalem processors, but did not introduce misaligned access by non-load SSE instructions until AVX.[5]

Вот сколько инструкций загружающих данные из памяти: https://software.intel.com/sites/landingpage/IntrinsicsGuide/#techs=SSE,SSE2,SSE3,SSSE3,SSE4_1,AVX,AVX2,AVX_512,KNC&expand=3585&cats=Load

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

19.02.2018, 00:47

#39603863

mayton

Участник

Откуда: loopback
Сообщения: 53 422
Рейтинг: 2 / 0

А оно нам надо: выравнивание данных?

AlekseySQL1. У меня очень большой массив структур (>1 000 000 элементов), который располагается в памяти, выделенной с помощью malloc.

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

struct MyData
{
        uint32_t a1;
        uint32_t a2;
        uint32_t a3;
        uint32_t a4;
        float a5;
        int8_t a6;
        int8_t a7;
}

Выше в топике инженеры надавли тебе советов в принципе полезных. И плюсую. Я добавлю.

Есть ли пути для оптимизации самой постановки? У тебя более миллиона элементов по 224 байта.
Грубо говоря более 224 * 1 000 000 = 213Mb . Wow-wow! Это более чем кеш L3. Дружище. Тебе
нужно беспокоитьтся не только о выравнивании но и об общем объеме данных с которыми ты работаешь.

Собственно я предлагаю рассмотреть два пути.

1) Минимизация самих данных которые образуют hot-spot в системе. Если к примеру
в задаче идет интенсивная работа с полем a1 и a5 то разумно создать копию
структуры данных вида

Код: plaintext

1.
2.
3.
4.
5.

struct MyData
{
        uint32_t a1;
        float a5;
}

и поработать с этой структурой отдельно. По завершении - снова создать копию обратно
или десериализацию и т.п.

2) Можно развернуть структуру данных на 90 градусов. Т.н. vertical arrays.
Для многих вендоров DBMS потребовались десятилетия чтобы переосмыслить что
построчное хранение данных (rows) не всегда эффективно для аналитики и иногда
эффективно работать с колоночным (column-oriented). Здесь имеется в виду
не OLTP а именно аналитика.

Имплементация пунктов (1) и (2) не меняет порядка обхода твоего массива по индексу.
Но позволит улучшить когерентность данных по отношению к кешу. Горячие индексы
остаются горячими но находятся физически ближе.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

19.02.2018, 08:48

#39603923

Dima T

Участник

Сообщения: 15 530
Рейтинг: 0 / 0

А оно нам надо: выравнивание данных?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

все

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=57&tablet=1&tid=2017967]:	0ms
get settings:	8ms
get forum list:	21ms
check forum access:	3ms
check topic access:	3ms
track hit:	183ms
get topic data:	10ms
get forum data:	2ms
get page messages:	65ms
get tp. blocked users:	1ms
others:	212ms

total:	508ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы