superPrac2 (mpi openmp, mpi cuda) (1186065), страница 3

Файл №1186065 superPrac2 (mpi openmp, mpi cuda) (Практикум) 3 страницаsuperPrac2 (mpi openmp, mpi cuda) (1186065) страница 32020-08-252020-08-25СтудИзба

Практикум

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Точное решение диф. уравненияТочное решение дифференциального уравнения совпадает с функцией граничного условия.Достаточно подставить u(x,y) = ln(1+x*y)8. Графическое изображение функции, погрешности вычислений8.1.Графическое изображение точного аналитического решения и вычисленногорешения дифференциального уравненияРисунок приближённого решения для сетки размером 2000x2000 (визуально изображение совпадает прииспользовании любых, из приведённых выше технологий):Рисунок точного решения (100x100 точек):138.2.Графическое изображение абсолютной погрешностиДля всех архитектур (NVIDIA Tesla X2070, Lomonosov Intel Xeon X5570, BlueGene/P PowerPC 450)графические изображения визуально не отличаются.Сравнивались изображения для решений, вычисленных со следующими конфигурациями: Ломоносов (nvidia tesla и intel xeon) – 32 процесса, матрица 1000x1000 BlueGene/P (PowerPC) – 128 процессов, матрица 1000x1000(количество процессов, для данной оценки не имеет значения)Графическое изображение абсолютной погрешности:Заметим, что несмотря на то, что рассчёты велись пока шаг итерации не изменит значение функции менее,чем на 0.0001, само итоговое решение имеет погрешность гораздо большую (на 2 порядка).КонфигурацияLomonosov, p=32, n=1000Lomonosov (cuda), p=32, n=1000BlueGene/P, p=128, n=1000Макс.значениепогрешности0.006529792675740.00652979319770.00652979267574абс.

Мин. значение абс. погрешности-0.0155494946188-0.015549494123-0.0155494946188Из значений видно, что процессора nvidia считают числа с плавающей точкой, с другой точностью.Однако возможно это связано с тем, что некоторые операции видеокарта Tesla X2070 не может делатьнад числом типа double, преобразуя их в float (например, операция взятия логарифма).8.3.Графическое изображение относительной погрешностиКонфигурации, для которых вычислялась относительная погрешность, полностью совпадают сконфигурациями, использованными для вычисления абсолютной погрешности.Аналогично, разница в графическом представлении неотличима для различных конфигураций.Графическое изображение относительной погрешности (граничные точки обрезаны, так как функцияпринимает в этих точках значение ноль):14КонфигурацияLomonosov, p=32, n=1000Lomonosov (cuda), p=32, n=1000BlueGene/P, p=128, n=1000Макс.значениепогрешности0.07835273108990.07835272984420.0783527310899отн.

Мин. значение отн. погрешности0.02.02627890593e-110.0В данном случае для архитектуры nvidia и её точности справедливы аналогичные рассуждения, как и впараграфе оценки абсолютной погрешности.8.4.Графическое изображение скорости сходимости.После каждой итерации выполнения алгоритма, рассчитывалась квадратичная норма разностиприближённой функции и точного решения дифференциального уравнения.В следствие чего были нарисованы графики сходимости при выполнении программы для разныхконфигураций с использованием разных технологий.Графический вид сходимости для конфигураций (BlueGene/P, p=128, n=1000) и (Lomonosov, p=32,n=1000) – совпадает:15Графическое изображение сходимости для конфигурации, соответствующее вычислениям награфической карте (Lomonosov (cuda), p=1, n=1000), также ничем не отличается:169.

Профилирование и анализ работы с графическим ускорителемПрофилирование проводилось для разбиения сетки 5000x5000, одной gpu карты NVIDIA Tesla X2070 наLomonosov и первых 3-х итераций алгоритма.Общий вид загрузки графического ускорителя:Следующие 3 изображения иллюстрируют асинхронную работу графического ускорителя (какпараллельное копирование данных, так и выполнение ядер):17По результатам профилирования можно отметить, что все задачи разделяются на 2 категории: очень большие (рассчёты, которые ведутся на всей внутренней области сетки) очень маленькие (рассчёты, которые ведутся для краёв разбиения (краёв сетки))Между большими операциями во многих местах есть задержка в выполнении примерно до 0,5миллисекунд, - это связано с тем, что между различными этапами расчётов, у меня производитсяcudaAllStreamsSynchronize, чтобы дождаться выполнения данного этапа, и уже дальше начать подготовкук следующему этапу (например, рассчёт размера грида), и уже последующий запуск дальнейшихвычислений на графическом ускорителе.18Однако внутри одного этапа, не зависящие друг от друга задачи успешно вычисляются в асинхронномрежиме (как это проиллюстрировано на картинках выше).При вычислении скалярного произведения (stream1), ядра выполняются без описанной выше задержки(потому что там отсутствует работа cpu между вызовами ядер, просто подряд запускаются gpu ядра).Работа с памятью почти полностью отсутствует, так как почти все вычисления в моей программепроизводятся на gpu и данные туда/оттуда почти не пересылаются.В stream21 можно видеть выполнение очень короткой задачи counting_5star_nxm_corners.

Она хорошопоказывает, что после старта задачи в stream12 counting_5star_insides, cpu продолжает свою работу (тамв частности происходит небольшая работа с mpi (небольшая, т.к. профилирование происходило для 1процесса, и поэтому там холостые waitall, а также несколько проверок, которые не пошлют данныесоседним процессам (так как их нету))), и уже после того, как cpu отработает часть своих задач, онозапустит на выполнение короткую задачу, которая выполнится параллельно основной долгой задаче.Как случилось, что задача смогла вклиниться в параллельное выполнение с другой задачей, прямо всередину этой другой задачи: это связано с тем, что задача очень мала и умещается буквально в нескольковарпов, в то время как большая задача из-за своих размеров не пользует абсолютно все варпы (это связанос распределением между мультипроцессорами, которое было описано в параграфе с особенностямииспользования технологий (подпараграф про cuda) (т.к.

по сути, можно попытаться перетащитьнесколько задач с загруженных нитей на пустые варпы (на дополнительный блок), но мы не сможемразгрузить все нити ровно на 1 задачу, чтобы они одновременно закончили своё выполнение на один шаграньше, а разгружать не все нити - не имеет смысла, т.к. ядро будет ждать выполнения всех нитей))В завершении вычислений присутствует одна долгая операция копирования памяти с устройства на хост- это для дальнейшего вывода вычисленной функции в файл (в начале также есть часть вычисленийотвечающая за инициализацию) - это не повторяющиеся многократно операции и по времени выполнениясравнимы с одной итерацией алгоритма, так что их скорость выполнения - не очень важна.19.

Характеристики

Тип файла

PDF-файл

Размер

2,01 Mb

Материал

Практикум

Тип материала

Лекции

Предмет

Суперкомпьютерное моделирование и технологии

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов лекций

praktikum.rar

Практикум

20xx Задание cg

assignment.pdf

cg.c

generator_spd.cpp

make_petsc.

petsc_linsol.c

20xx Задание gauss_elimination

assignment.pdf

gauss_elimination.c

generator_relax.cpp

make_petsc.

petsc_linsol.c

20xx Задание jacobi

assignment.pdf

generator_relax.cpp

jacobi.c

make_petsc.

petsc_linsol.c

2010 Практикум

REPORT.doc

report.xls

report_newPetsc.xls

2016 Практикум (Дирихле, Пуассон)

дз 2. 2-й и 3-й поток

cuda profile

cuda_profile.log

Полное содержание архива

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.