superPrac2 (mpi openmp, mpi cuda) (1186064), страница 3

Файл №1186064 superPrac2 (mpi openmp, mpi cuda) (Практикум) 3 страницаsuperPrac2 (mpi openmp, mpi cuda) (1186064) страница 32020-08-252020-08-25СтудИзба

Практикум

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Эффективность (ускорение) показывает, что OpenMP даёт больший прирост производительности, нежели использование дополнительных процессоров. Это вполне ожидаемо, т.к. нити openmp используют разделяемую память и им не приходится обмениваться данными через MPI вызовы.

Эффективность для технологии CUDA при малом размере задачи растёт крайне нелинейно, это связано с тем, что при увеличении количества вычислительных узлов, количество пересылок возрастает, в то время как количество вычислений на каждый узел – падает, это приводит к падению эффективности, так как существенная часть времени уходит на пересылки данных.

Данный эффект может наблюдаться для совершенно любых задач, однако для высокопроизводительной cuda и исследуемого размера задачи оно достигается уже на малом количестве узлов (так – оптимальная эффективность достигается для сетки 1000x1000 на 7-ми узлах)

График зависимости времени выполнения (в мс) от количества процессов для выполнения на разных архитектурах, разных матриц, с разными технологиями, при отключённых оптимизациях компилятора (без флага «-O3»)

Объединённый рисунок:

Визуализация 4-х самых быстрых составов (аппаратура - размер матрицы – использованная технология):

Стоит отметить, что BlueGene/P отличается крайне высокой стабильностью времени вычисления (выяснено практическим путём).

Точное решение диф. уравнения

Точное решение дифференциального уравнения совпадает с функцией граничного условия.

Достаточно подставить u(x,y) = ln(1+x*y)

Графическое изображение функции, погрешности вычислений

Графическое изображение точного аналитического решения и вычисленного решения дифференциального уравнения

Рисунок приближённого решения для сетки размером 2000x2000 (визуально изображение совпадает при использовании любых, из приведённых выше технологий):

Рисунок точного решения (100x100 точек):

Графическое изображение абсолютной погрешности

Для всех архитектур (NVIDIA Tesla X2070, Lomonosov Intel Xeon X5570, BlueGene/P PowerPC 450) графические изображения визуально не отличаются.

Сравнивались изображения для решений, вычисленных со следующими конфигурациями:

Ломоносов (nvidia tesla и intel xeon) – 32 процесса, матрица 1000x1000
BlueGene/P (PowerPC) – 128 процессов, матрица 1000x1000

(количество процессов, для данной оценки не имеет значения)

Графическое изображение абсолютной погрешности:

Заметим, что несмотря на то, что рассчёты велись пока шаг итерации не изменит значение функции менее, чем на 0.0001, само итоговое решение имеет погрешность гораздо большую (на 2 порядка).

Конфигурация	Макс. значение абс. погрешности	Мин. значение абс. погрешности
Lomonosov, p=32, n=1000	0.00652979267574	-0.0155494946188
Lomonosov (cuda), p=32, n=1000	0.0065297931977	-0.015549494123
BlueGene/P, p=128, n=1000	0.00652979267574	-0.0155494946188

Из значений видно, что процессора nvidia считают числа с плавающей точкой, с другой точностью. Однако возможно это связано с тем, что некоторые операции видеокарта Tesla X2070 не может делать над числом типа double, преобразуя их в float (например, операция взятия логарифма).

Графическое изображение относительной погрешности

Конфигурации, для которых вычислялась относительная погрешность, полностью совпадают с конфигурациями, использованными для вычисления абсолютной погрешности.

Аналогично, разница в графическом представлении неотличима для различных конфигураций.

Графическое изображение относительной погрешности (граничные точки обрезаны, так как функция принимает в этих точках значение ноль):

Конфигурация	Макс. значение отн. погрешности	Мин. значение отн. погрешности
Lomonosov, p=32, n=1000	0.0783527310899	0.0
Lomonosov (cuda), p=32, n=1000	0.0783527298442	2.02627890593e-11
BlueGene/P, p=128, n=1000	0.0783527310899	0.0

В данном случае для архитектуры nvidia и её точности справедливы аналогичные рассуждения, как и в параграфе оценки абсолютной погрешности.

Графическое изображение скорости сходимости.

После каждой итерации выполнения алгоритма, рассчитывалась квадратичная норма разности приближённой функции и точного решения дифференциального уравнения.

В следствие чего были нарисованы графики сходимости при выполнении программы для разных конфигураций с использованием разных технологий.

Графический вид сходимости для конфигураций (BlueGene/P, p=128, n=1000) и (Lomonosov, p=32, n=1000) – совпадает:

Графическое изображение сходимости для конфигурации, соответствующее вычислениям на графической карте (Lomonosov (cuda), p=1, n=1000), также ничем не отличается:

Профилирование и анализ работы с графическим ускорителем

Профилирование проводилось для разбиения сетки 5000x5000, одной gpu карты NVIDIA Tesla X2070 на Lomonosov и первых 3-х итераций алгоритма.

Общий вид загрузки графического ускорителя:

Следующие 3 изображения иллюстрируют асинхронную работу графического ускорителя (как параллельное копирование данных, так и выполнение ядер):

По результатам профилирования можно отметить, что все задачи разделяются на 2 категории:

очень большие (рассчёты, которые ведутся на всей внутренней области сетки)
очень маленькие (рассчёты, которые ведутся для краёв разбиения (краёв сетки))

Между большими операциями во многих местах есть задержка в выполнении примерно до 0,5 миллисекунд, - это связано с тем, что между различными этапами расчётов, у меня производится cudaAllStreamsSynchronize, чтобы дождаться выполнения данного этапа, и уже дальше начать подготовку к следующему этапу (например, рассчёт размера грида), и уже последующий запуск дальнейших вычислений на графическом ускорителе.

Однако внутри одного этапа, не зависящие друг от друга задачи успешно вычисляются в асинхронном режиме (как это проиллюстрировано на картинках выше).

При вычислении скалярного произведения (stream1), ядра выполняются без описанной выше задержки (потому что там отсутствует работа cpu между вызовами ядер, просто подряд запускаются gpu ядра).

Работа с памятью почти полностью отсутствует, так как почти все вычисления в моей программе производятся на gpu и данные туда/оттуда почти не пересылаются.

В stream21 можно видеть выполнение очень короткой задачи counting_5star_nxm_corners. Она хорошо показывает, что после старта задачи в stream12 counting_5star_insides, cpu продолжает свою работу (там в частности происходит небольшая работа с mpi (небольшая, т.к. профилирование происходило для 1 процесса, и поэтому там холостые waitall, а также несколько проверок, которые не пошлют данные соседним процессам (так как их нету))), и уже после того, как cpu отработает часть своих задач, оно запустит на выполнение короткую задачу, которая выполнится параллельно основной долгой задаче.

Как случилось, что задача смогла вклиниться в параллельное выполнение с другой задачей, прямо в середину этой другой задачи: это связано с тем, что задача очень мала и умещается буквально в несколько варпов, в то время как большая задача из-за своих размеров не пользует абсолютно все варпы (это связано с распределением между мультипроцессорами, которое было описано в параграфе с особенностями использования технологий (подпараграф про cuda) (т.к. по сути, можно попытаться перетащить несколько задач с загруженных нитей на пустые варпы (на дополнительный блок), но мы не сможем разгрузить все нити ровно на 1 задачу, чтобы они одновременно закончили своё выполнение на один шаг раньше, а разгружать не все нити - не имеет смысла, т.к. ядро будет ждать выполнения всех нитей))

В завершении вычислений присутствует одна долгая операция копирования памяти с устройства на хост - это для дальнейшего вывода вычисленной функции в файл (в начале также есть часть вычислений отвечающая за инициализацию) - это не повторяющиеся многократно операции и по времени выполнения сравнимы с одной итерацией алгоритма, так что их скорость выполнения - не очень важна.

Характеристики

Тип файла

Документ

Размер

3,44 Mb

Материал

Практикум

Тип материала

Лекции

Предмет

Суперкомпьютерное моделирование и технологии

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов лекций

praktikum.rar

Практикум

20xx Задание cg

assignment.pdf

cg.c

generator_spd.cpp

make_petsc.

petsc_linsol.c

20xx Задание gauss_elimination

assignment.pdf

gauss_elimination.c

generator_relax.cpp

make_petsc.

petsc_linsol.c

20xx Задание jacobi

assignment.pdf

generator_relax.cpp

jacobi.c

make_petsc.

petsc_linsol.c

2010 Практикум

REPORT.doc

report.xls

report_newPetsc.xls

2016 Практикум (Дирихле, Пуассон)

дз 2. 2-й и 3-й поток

cuda profile

cuda_profile.log

Полное содержание архива

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.

superPrac2 (mpi openmp, mpi cuda) (1186064), страница 3

Текст из файла (страница 3)

Точное решение диф. уравнения

Графическое изображение функции, погрешности вычислений

Графическое изображение точного аналитического решения и вычисленного решения дифференциального уравнения

Графическое изображение абсолютной погрешности

Графическое изображение относительной погрешности

Графическое изображение скорости сходимости.

Профилирование и анализ работы с графическим ускорителем

Характеристики

Список файлов лекций