|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
Привет. С празниками всех! Недавно сгорела моя пассивная NVidia GeForce GT1030(2Gb) . Заменил ее на геймерскую Gigabyte Radeon RX570 (4G) . Не стал-бы покупать но просто подвернулся случай. Кризис. Скидки. И несчастные плачущие геймеры отдают за ништяки все "шо нажито непосильным...". В игры я не играю. Но стало интересно что я потерял для разработки. NVidia продвигала свою библиотеку CUDA для поддержки параллельных расчетов на графических процессорах. А что продвигает Radeon? ... |
|||
:
Нравится:
Не нравится:
|
|||
09.05.2020, 20:48 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
mayton А что продвигает Radeon? ... |
|||
:
Нравится:
Не нравится:
|
|||
09.05.2020, 22:29 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
miksoft, OpenCL разрабатывает Khronos и в nvidia есть OpenCL по умолчанию. Моя карта за 22 доллара поддерживает в общем то всё, кроме лучей Ну и в добавок, карты от nvidia очень мощные, чем можно представить. Можно запустить тест бублика загрузив карту на 100% и при этом на ютюбе включить видеоролик в 4КА и он не будет тормозить обрабатывая декодирование на карте. Это говорит что нас всех обманывают!.))) ... |
|||
:
Нравится:
Не нравится:
|
|||
10.05.2020, 02:35 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
значит не на 100% загружен проц чудес не бывает. твоя карта за $22 покажет меньше попугаев, чем какой-нибудь 6Гб DDR6 с 4ю миллиардами транзисторов (вся мощь в кол-ве транзисторов, Люк) но даже эта твоя карта прекрасно покажет современные игры а при такой цене их и в дуал легко поставить ... |
|||
:
Нравится:
Не нравится:
|
|||
10.05.2020, 03:22 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
Да. Мне уже нравится OpenCl. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.05.2020, 08:04 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
ВсеРазумный miksoft, OpenCL разрабатывает Khronos и в nvidia есть OpenCL по умолчанию. Моя карта за 22 доллара поддерживает в общем то всё, кроме лучей Ну и в добавок, карты от nvidia очень мощные, чем можно представить. Можно запустить тест бублика загрузив карту на 100% и при этом на ютюбе включить видеоролик в 4КА и он не будет тормозить обрабатывая декодирование на карте. Это говорит что нас всех обманывают!.))) видео декодер и энкодер, если есть, это отдельное ASIC устройство на карточке. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.05.2020, 12:57 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
Пока сам для себя тут напишу. lshw Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.
glxinfo | egrep -i 'device|memory' Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22.
И еще хотелось бы узнать как видит конфигурацию OpenCL. Насколько я понял идеологию. OpenCL рассматривает любое железо как такую совокупность абстракций. Код: plaintext 1. 2. 3. 4. 5.
И позволяет исполнять на этом железе кастомную логику написанную на неком диалекте С/C++ (*.cl) с ограничениями на память (не вся память видна а только фрагмент localmemory) на устройстве. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.05.2020, 14:29 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
Интересно. Можно-ли преобразование Хафа закодить на этой штуке? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.05.2020, 11:53 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
Сначала AMD Radeon поддерживал OpenCL, но потом перешли на HiP (клон CUDA). Кто-то ещё пробует Ocelot (запуск CUDA-программ на AMD-GPU без рекомпиляции). - OpenCL плох тем, что его разрабатывают куча компаний AMD, Apple, Intel, Altera ..., и даже если ты реализовал очень крутую фичу в железе, то без одобрения большинства компаний невозможно добавить её в OpenCL (а большинство крутых фич в AMD Radeon невозможно или ненужно в Intel CPU / Apple iPhone SOC / ...). - HiP плох тем, что у AMD недостаточно денег, чтобы даже сделать клон CUDA - Ocelot плох тем, что похоже лет 5 не разрабатывался: https://github.com/gtcasl/gpuocelot - CUDA для кого то плох, что это не Open Source проект Сравнение команд CUDA, OpenCL, HIP, ... https://github.com/ROCm-Developer-Tools/HIP/blob/master/docs/markdown/hip_terms.md Большинство фреймворков Machine learning / Deep learning поддерживают CUDA, но не поддерживают OpenCL, а даже там где поддерживается - OpenCL работает в 5 раз медленнее: https://en.wikipedia.org/wiki/Comparison_of_deep-learning_software You are here: Home / Analysis / Run CUDA without Recompilation on x86, AMD GPUs, and Intel Xeon Phi with gpuOcelot Run CUDA without Recompilation on x86, AMD GPUs, and Intel Xeon Phi with gpuOcelot: http://www.techenablement.com/run-cuda-without-recompilation-on-x86-amd-gpus-and-intel-xeon-phi-with-gpuocelot/ ... |
|||
:
Нравится:
Не нравится:
|
|||
25.05.2020, 21:55 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
ChronSQL Большинство фреймворков Machine learning / Deep learning поддерживают CUDA, но не поддерживают OpenCL, а даже там где поддерживается - OpenCL работает в 5 раз медленнее: https://en.wikipedia.org/wiki/Comparison_of_deep-learning_software для нейронок уже ведь не нужны эти извращения теперь там свои специальные процессоры ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2020, 04:05 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
ChronSQL Сначала AMD Radeon поддерживал OpenCL, но потом перешли на HiP (клон CUDA). Кто-то ещё пробует Ocelot (запуск CUDA-программ на AMD-GPU без рекомпиляции). - OpenCL плох тем, что его разрабатывают куча компаний AMD, Apple, Intel, Altera ..., и даже если ты реализовал очень крутую фичу в железе, то без одобрения большинства компаний невозможно добавить её в OpenCL (а большинство крутых фич в AMD Radeon невозможно или ненужно в Intel CPU / Apple iPhone SOC / ...). - HiP плох тем, что у AMD недостаточно денег, чтобы даже сделать клон CUDA - Ocelot плох тем, что похоже лет 5 не разрабатывался: https://github.com/gtcasl/gpuocelot - CUDA для кого то плох, что это не Open Source проект Сравнение команд CUDA, OpenCL, HIP, ... https://github.com/ROCm-Developer-Tools/HIP/blob/master/docs/markdown/hip_terms.md Большинство фреймворков Machine learning / Deep learning поддерживают CUDA, но не поддерживают OpenCL, а даже там где поддерживается - OpenCL работает в 5 раз медленнее: https://en.wikipedia.org/wiki/Comparison_of_deep-learning_software You are here: Home / Analysis / Run CUDA without Recompilation on x86, AMD GPUs, and Intel Xeon Phi with gpuOcelot Run CUDA without Recompilation on x86, AMD GPUs, and Intel Xeon Phi with gpuOcelot: http://www.techenablement.com/run-cuda-without-recompilation-on-x86-amd-gpus-and-intel-xeon-phi-with-gpuocelot/ Спасибо за развернутый анализ. А какие условия использования CUDA? Нужно ли покупать лицензии и когда? ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2020, 10:50 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
Та сравнительная табличка в wiki - просто ужасна. Тоесть она показывает ужасное покрытие по OpenCL. Зато вы мне напомнили про OpenMP - спасибо. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2020, 11:41 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
mayton Та сравнительная табличка в wiki - просто ужасна. Тоесть она показывает ужасное покрытие по OpenCL. Зато вы мне напомнили про OpenMP - спасибо. CUDA басплатна, и распространение её библиотек бесплатно в составе своего софта: https://nvidia.custhelp.com/app/answers/detail/a_id/2134/~/how-much-does-cuda-cost? OpenMP - крайне ограничен функционал, преимущественно только для CPU и циклов, за редким исключением. Алексей Роза ChronSQL Большинство фреймворков Machine learning / Deep learning поддерживают CUDA, но не поддерживают OpenCL, а даже там где поддерживается - OpenCL работает в 5 раз медленнее: https://en.wikipedia.org/wiki/Comparison_of_deep-learning_software для нейронок уже ведь не нужны эти извращения теперь там свои специальные процессоры Специальные процессора для нейронок это VPU/TPU. Для нейронок есть nVidia GPU и VPU/TPU: 1. GPU: - nVidia V100 - 125 TOPS-16bit - nVidia A100 - 312 TOPS-16bit / 624 TOPS-8bit A100 wiki 2. TPU: - Google TPU - 90 TOPS-16bit (только TensorFlow framework) - Huawei Ascend - 256 TOPS-16bit (только MindSpore framework) - Tesla-motors TPU - 4x36=144 TOPS- 8bit (только Pytorch framework) - Intel Myriad X - 1 TOPS-16bit (только OpenCV/OpenVINO framework) Как видно nVidia GPU примерно в 1.5х - 4.3х раза мощнее, чем TPU. nVidia GPU работает на всех фреймворках машинного обучения, в то время как каждый TPU поддерживает только 1 фреймворк. Было предположение, что FLOPS у TPU мало, но зато они как-то лучше поддерживают специальные операции, буд-то SE, Grouped / Depthwise convolutional, ..., а оказалось нет , о чем сами и заявили: https://ai.googleblog.com/2019/08/efficientnet-edgetpu-creating.html ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2020, 21:57 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
ChronSQL 2. TPU: - Google TPU - 90 TOPS-16bit (только TensorFlow framework) - Huawei Ascend - 256 TOPS-16bit (только MindSpore framework) - Tesla-motors TPU - 4x36=144 TOPS- 8bit (только Pytorch framework) - Intel Myriad X - 1 TOPS-16bit (только OpenCV/OpenVINO framework) Как видно nVidia GPU примерно в 1.5х - 4.3х раза мощнее, чем TPU. nVidia GPU работает на всех фреймворках машинного обучения, в то время как каждый TPU поддерживает только 1 фреймворк. Непонятно, как вообще можно сравнивать тензорные процессоры и класические Фон-Неймановские? Разве что по потребляемой мощности? Это нужно поставить им одну единую задачу. А как ее поставить если у последних критерий выхода - нечеткий? Или четкий? ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2020, 23:02 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
mayton ChronSQL 2. TPU: - Google TPU - 90 TOPS-16bit (только TensorFlow framework) - Huawei Ascend - 256 TOPS-16bit (только MindSpore framework) - Tesla-motors TPU - 4x36=144 TOPS- 8bit (только Pytorch framework) - Intel Myriad X - 1 TOPS-16bit (только OpenCV/OpenVINO framework) Как видно nVidia GPU примерно в 1.5х - 4.3х раза мощнее, чем TPU. nVidia GPU работает на всех фреймворках машинного обучения, в то время как каждый TPU поддерживает только 1 фреймворк. Непонятно, как вообще можно сравнивать тензорные процессоры и класические Фон-Неймановские? Разве что по потребляемой мощности? Это нужно поставить им одну единую задачу. А как ее поставить если у последних критерий выхода - нечеткий? Или четкий? TPU это обычные ASIC которые быстро делают перемножение матриц GEMM из Linpack: - Float 32bit/16bit, Int 8bit, и бинарные операции 1bit - Математические функции над массивом В GPU (Volta, Turing, Ampere) встроены те же TPU - называются там Tensor Cores. Ничего там нечеткого ещё не придумали, в Hardware далеко не ушли. Это в software далеко ушли - в machine-learning хороший рывок точности за счет deep-learning. DPM - это лучший не нейроновский алгоритм, все остальные это deep-learning алгоритмы: https://arxiv.org/pdf/1905.05055v2.pdf ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2020, 23:28 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
Я не понял. На первом графике - что отложено по оси икс? И что такое TOPS? Tera-Operations? ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2020, 23:35 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
mayton Я не понял. На первом графике - что отложено по оси икс? И что такое TOPS? Tera-Operations? По оси x - год разработки алгоритма. По оси y (на первом графике) - mAP - mean average precision: mAP По оси y (на втором графике) - Top5 classification accuracy - https://stackoverflow.com/a/37670482/1558037 TOPS - Tera-Operations per second и затем указываются операции (сложение и умножение) с какими именно числами Float 32bit ... int 8bit. Для Float 64/32/16bit ещё бывает применяют аббревиатуру TFLOPS. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2020, 23:57 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
ChronSQL Специальные процессора для нейронок это VPU/TPU. не только, там их несколько, общее название - NPU Нейроморфные процессоры, Тензорные процессоры, Процессоры машинного зрения. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 07:00 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
Алексей Роза ChronSQL Специальные процессора для нейронок это VPU/TPU. не только, там их несколько, общее название - NPU Нейроморфные процессоры, Тензорные процессоры, Процессоры машинного зрения. NPU/VPU/TPU - это просто маркетинговые названия, и все из них содержат Tensor Cores. Единственный выделяется нейроморфный чип IBM True North. Сравнение производительности остальных чипов на GEMM: - GPU nVidia A100 - 312 TOPS float-16bit / 624 TOPS int-8bit A100 - Mobileye EyeQ5 - 24 TOPS float-16bit - IBM TrueNorth - 0.046 TOPS int-10bit (нейроморфный, экспериментальный, медленный) - Cerebras Wafer Scale Engine - (экспериментальный, нет возможности использовать) - Qualcomm cloud AI 100 - 350 TOPS ( анонсирован, но не вышел ) https://habrastorage.org/webt/vm/__/u4/vm__u4da0mcfd7dtyjixwrjuacg.jpeg - Intel Nervana NNP - проект закрыт, в пользу Habana Labs GOYA - Habana Labs GOYA - ~250 TOPS float-16bit - Для поддержки GOYA нужен отдельный бэкенд GLOW https://github.com/pytorch/glow/pull/2638?fbclid=IwAR20kAPhhgy1VaySHHGNh53mnsKo9xmmBmFNfJwUt4fUQYzml2JUqzokh4c эта поддержка пока экспериментальная и все равно GOYA медленнее, чем GPU A100. Анонсированные недавно Qualcomm cloud AI 100 и Habana Labs GOYA наиболее интересны с точки зрения маркетинга, т.к. показывают высокую производительность на бумаге и обещают поддержку фреймворков: Pytorch, MXNet, TensorFlow, ONNX. А все эти нейроморфные/квантовые/... - пока только экспериментальные/медленные/ничего не поддерживающие. Т.е. из вышедших (а не анонсированных) NPU/VPU/TPU нет ни одного быстрее, чем nVidia GPU A100. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 16:34 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
я читал про Cerebras как раз, там 400000 ядер Cerebras Systems представила компьютер с самым большим в мире процессором 22×22 сантиметра авторВ августе 2019 года компания Cerebras Systems и её производственный партнер TSMC анонсировали крупнейшую микросхему в истории компьютерной техники. С площадью 46 225 мм² и 1,2 триллиона транзисторов микросхема Wafer Scale Engine (WSE) примерно в 56,7 раз больше, чем самый большой GPU (21,1 млрд транзисторов, 815 мм²) . +wiki в 56.7 раз больше, а работает медленнее? и использовать его таки можно: авторПохоже, инженерам Cerebras Systems и TSMC удалось решить эти проблемы. 18 ноября 2019 года на конференции Supercomputing 2019 они официально представили CS-1 — «самый быстрый в мире компьютер для расчётов в области машинного обучения и искусственного интеллекта». Первые экземпляры CS-1 уже отправлены заказчикам. Один из них установлен в Аргоннской национальной лаборатории министерства энергетики США, той самой, в которой скоро начнётся сборка самого мощного в США суперкомпьютера из модулей Aurora на новой архитектуре GPU от Intel. Другим заказчиком стала Ливерморская национальная лаборатория. ну и кроме того, GPU же решает другие задачи, там большой упор на распараллеливание мелких задач и обработку графики а в этих процах упор на ИИ именно, на нейронные связи авторОбучение больших нейронных сетей может занимать недели на стандартном компьютере. Установка CS-1 с процессорным чипом из 400 000 ядер и 1,2 триллиона транзисторов выполняет эту задачу за минуты или даже секунды, пишет IEEE Spectrum. Однако Cerebras не представила реальные результаты тестов, чтобы проверить заявления о высокой производительности, например, тесты MLPerf. Вместо этого компания напрямую установила контакты с потенциальными клиентами — и позволила обучать собственные модели нейронных сетей на CS-1. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 20:45 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
Алексей Роза я читал про Cerebras как раз, там 400000 ядер Cerebras Systems представила компьютер с самым большим в мире процессором 22×22 сантиметра авторВ августе 2019 года компания Cerebras Systems и её производственный партнер TSMC анонсировали крупнейшую микросхему в истории компьютерной техники. С площадью 46 225 мм² и 1,2 триллиона транзисторов микросхема Wafer Scale Engine (WSE) примерно в 56,7 раз больше, чем самый большой GPU (21,1 млрд транзисторов, 815 мм²) . +wiki в 56.7 раз больше, а работает медленнее? и использовать его таки можно: авторПохоже, инженерам Cerebras Systems и TSMC удалось решить эти проблемы. 18 ноября 2019 года на конференции Supercomputing 2019 они официально представили CS-1 — «самый быстрый в мире компьютер для расчётов в области машинного обучения и искусственного интеллекта». Первые экземпляры CS-1 уже отправлены заказчикам. Один из них установлен в Аргоннской национальной лаборатории министерства энергетики США, той самой, в которой скоро начнётся сборка самого мощного в США суперкомпьютера из модулей Aurora на новой архитектуре GPU от Intel. Другим заказчиком стала Ливерморская национальная лаборатория. Как попробуете сами использовать - пишите. Это экспериментальные мелкотиражные чипы для нескольких суперкомпьютеров в мире, с потреблением 17 кВт на 1 чип, 17 тысяч Ватт на 1 кристалл. Их будут использовать 2 человека на всю планету и производительность там наверняка ниже, чем на множестве GPU с общим TDP 17 кВт. Алексей Роза ну и кроме того, GPU же решает другие задачи, там большой упор на распараллеливание мелких задач и обработку графики а в этих процах упор на ИИ именно, на нейронные связи авторОбучение больших нейронных сетей может занимать недели на стандартном компьютере. Установка CS-1 с процессорным чипом из 400 000 ядер и 1,2 триллиона транзисторов выполняет эту задачу за минуты или даже секунды, пишет IEEE Spectrum. Однако Cerebras не представила реальные результаты тестов, чтобы проверить заявления о высокой производительности, например, тесты MLPerf. Вместо этого компания напрямую установила контакты с потенциальными клиентами — и позволила обучать собственные модели нейронных сетей на CS-1. Уже 3 года как в nVidia GPU встраивают Tensor Cores для ИИ и затачивают GPU именно под ИИ, а только во вторую очередь под графику, об этом говорит и встроенные Tensor Cores, и реальная производительность GPU на ИИ, и те достоинства которые в первую очередь описывают: https://developer.nvidia.com/discover/artificial-neural-network Тензорные ядра третьего поколения Впервые реализованная в архитектуре NVIDIA Volta™ технология тензорных ядер NVIDIA значительно ускоряет инференс и позволяет обучить алгоритмы ИИ за несколько часов, а не недель. https://www.nvidia.com/ru-ru/data-center/a100/ Ускорение важнейших задач современности GPU NVIDIA A100 с тензорными ядрами обеспечивает непревзойденное ускорение для ИИ, анализа данных и высокопроизводительных вычислений (HPC) для решения самых сложных вычислительных задач. ... Тренировка алгоритмов глубокого обучения ... Инференс глубокого обучения ... ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 23:56 |
|
Nvidia/CUDA vs. Radeon/?
|
|||
---|---|---|---|
#18+
ну если уже есть GPU, которые за несколько часов могут обучить сеть, это уже интереснее жаль будет, если эта хрень на 400000 так и не взлетит... но всё же весь этот металлолом опять ничто, по-сравнению с малюсенькой клеточкой, которую мы ещё в прошлом веке в микроскоп толком разглядеть не могли они фору дадут любой нейросети ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2020, 00:25 |
|
|
start [/forum/topic.php?fid=57&msg=39961892&tid=2017413]: |
0ms |
get settings: |
11ms |
get forum list: |
13ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
33ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
54ms |
get tp. blocked users: |
1ms |
others: | 15ms |
total: | 146ms |
0 / 0 |