CUDA: shared memory / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / CUDA: shared memory

6 сообщений из 6, страница 1 из 1

CUDA: shared memory

#40054395

RubinDm

Участник

Откуда: SPb

Сообщения: 457

Рейтинг: 0 / 0

На хабре есть статься (https://habr.com/ru/post/55461/) о том, как надо (как было бы хорошо и полезно) применять shared memory cuda-устройства. Почитал, осознал, вдохновился, скопипастил, собрал, запустил и... обломался. Ну никак не удается заставить cuda-устройство (GTX850M) работать с применением shared-memory быстрее, нежели без применения таковой. Наоборот, с применением shared-memory производительность падает практически в два раза, причем на разных конфигурациях сетки и блоков. В чем может быть дело?

зы: хотел задать вопрос на хабре под самой статьей, но статья старая и как бы нельзя.

...

Рейтинг:

0 / 0

17.03.2021, 01:37:06

| Ответить | Цитировать | Написать

CUDA: shared memory

#40054396

RubinDm

Участник

Откуда: SPb

Сообщения: 457

Рейтинг: 0 / 0

в догонку.. уже имеется обсуждение подобного вопроса на stackoverflow. не все из сказанного там мне понятно, но некий Tom (сотрудник NVIDIA) где-то в середине обсуждения указывает на то, что (цитата): Tom (сотрудник NVIDIA)Совместно используемая память также может быть полезна для преобразования неэффективного шаблона доступа в хорошо согласованный шаблон, например, для операции транспонирования - Том 22 апр. Представляется, что это должно непосредственно коррелировать с примером реализации алгоритма, приведенного в статье на хабре.
Однако, по факту алгоритм транспонирования матрицы с применением shared-memory не показывает выдающихся результатов.
Хотелось бы понять, почему...
Кроме того, хотелось бы понять, что именно Tom (сотрудник NVIDIA) подразумевает под такими терминами, как "неэффективный шаблон доступа" и "хорошо согласованный шаблон". Каковы критерии отнесения шаблона доступа к памяти к той или иной категории?

...

Рейтинг:

0 / 0

17.03.2021, 01:48:31

| Ответить | Цитировать | Написать

CUDA: shared memory

#40054407

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

RubinDm

Ну никак не удается заставить cuda-устройство (GTX850M) работать с применением shared-memory быстрее, нежели без применения таковой. Наоборот, с применением shared-memory производительность падает практически в два раза, причем на разных конфигурациях сетки и блоков. В чем может быть дело?

На основании чего ожидается ускорение?

Ты создал узкое место, которое требует синхронизации доступа, как следствие процессоры обращающиеся к shared-memory вынуждены простаивать в очереди, ожидая чтения/записи туда.

Архитектуру процессоров на видеокарте я не изучал, но думаю что у каждого ядра есть свой кэш, как и основного проца. В таких случаях при записи одним ядром в shared-memory она автоматически становится невалидной в кэшах других ядер и они вынуждены ее перечитывать из кэша ниже или основной памяти, что тоже скорости не добавляет. Для кэша используется более быстрая память, поэтому чтение из памяти раз в 5 медленнее чем из кэша.

Закон Амдала не обманешь. Там где можешь заставить потоки алгоритма работать независимо - надо это делать.

...

Рейтинг:

0 / 0

17.03.2021, 07:35:44

| Ответить | Цитировать | Написать

CUDA: shared memory

#40054504

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

В 2000х я находил статью, где предлагалось на headless unix серверах оснащенных современной видяшкой
использовать видеопамять как /tmp диск. В самом деле. Если консоль - только in text mode, тогда банки видео-памяти
не юзаются и ее можно как-то подключить как блочное устройство. Благо драйвер был написан. И намапить файловоую
систему на блочное устройство было делом утилитарным.

Это пожалуй было полезно как-раз для 2000х когда диски были еще только магнитные.

...

Рейтинг:

0 / 0

17.03.2021, 12:11:38

| Ответить | Цитировать | Написать

CUDA: shared memory

#40054655

RubinDm

Участник

Откуда: SPb

Сообщения: 457

Рейтинг: 0 / 0

mayton, как интересно. Жаль только, что в решении поставленных вопросов неприменимо.

...

Рейтинг:

0 / 0

17.03.2021, 16:47:59

| Ответить | Цитировать | Написать

CUDA: shared memory

#40056545

kealon(Ruslan)

Участник

Откуда: Нижневартовск

Сообщения: 4 020

Рейтинг: 0 / 0

RubinDm,

авторКак видно, GPU версия с разделяемой памятью выполняется почти в 20 раз быстрее, чем версия на CPU.
логично, что GPU со своей памятью управляется быстрее
но это если не таскать данные CPU-GPU
авторКоличество перемещений данных между CPU и GPU по-возможности необходимо свести к минимуму.
а вы, что делать-то пытались?

...

Рейтинг:

0 / 0

24.03.2021, 08:45:51

| Ответить | Цитировать | Написать

6 сообщений из 6, страница 1 из 1

Форумы / Программирование [игнор отключен] [закрыт для гостей] / CUDA: shared memory

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&msg=40054655&tid=1339680]:	0ms
get settings:	9ms
get forum list:	15ms
check forum access:	3ms
check topic access:	3ms
track hit:	89ms
get topic data:	10ms
get forum data:	2ms
get page messages:	55ms
get tp. blocked users:	1ms
others:	225ms

total:	412ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы