Параллельное программирование на языке Fortran DVM (1158280), страница 5
Текст из файла (страница 5)
Все характеристики записываются в текстовом виде в указанный файл. Для каждого интервала выдается следующая информация:
-
имя файла с исходным текстом DVM-программы и номер первого оператора интервала в нем (SOURCE, LINE);
-
тип интервала – вся программа, параллельный цикл (PAR), последовательный цикл (SEQ) или выделенная пользователем последовательность операторов (USER);
-
номер уровня вложенности (LEVEL);
-
количество входов (и выходов) в интервал (EXE_COUNT);
-
значение выражения, заданного при описании интервала средствами языка (EXPR);
-
основные характеристики выполнения и их компоненты (Main characteristics);
-
минимальные, максимальные и средние значения характеристик выполнения программы на каждом процессоре (Comparative characteristics);
-
характеристики выполнения программы на каждом процессоре (Execution characteristics on processors).
При выдаче характеристик их компоненты располагаются в той же строке (справа в скобках), либо в следующей строке (справа от символов “*” или “-”).
Компоненты некоторых характеристик, связанных с выполнением коллективных операций, выдаются в виде столбцов таблицы, где строки соответствуют типу коллективной операции, а столбцы - характеристикам. Один из столбцов (Nop) этой таблицы содержит количества операций каждого типа, которые являются характеристиками, не зависящими от числа процессоров, используемых для выполнения программы.
Информация о минимальных, максимальных и средних значениях таких характеристик оформлена в таблицу аналогичным образом. Некоторые характеристики вообще не выдаются в том случае, если их значения равны нулю.
4.3.2.4Рекомендации по анализу характеристик
Главным критерием является коэффициент эффективности распараллеливания. Если коэффициент эффективности невысокий, то необходимо анализировать потерянное время и его компоненты.
Сначала следует оценить три компоненты потерянного времени для основного интервала (как правило, в качестве такого интервала выделяется итерационный цикл в программе). Наиболее вероятно, что основная доля потерянного времени приходится на одну из первых двух компонент (недостаточный параллелизм или коммуникации).
В случае если причиной оказался недостаточный параллелизм, необходимо уточнить, на каких участках он обнаружен – последовательных или параллельных. В последнем случае причина может быть очень простой – неверное задание матрицы процессоров при запуске программы или неверное распределение данных и вычислений. Если же недостаточный параллелизм обнаружен на последовательных участках, то причиной этого, скорее всего, является наличие последовательного цикла, выполняющего большой объем вычислений. Устранение этой причины может потребовать больших усилий.
В том же случае, если основной причиной потерь являются коммуникации, тонеобходимо, прежде всего, обратить внимание на реальные потери из-за рассинхронизации (Real synchronization). Если ее значение близко к размерам потерь из-за коммуникаций, то необходимо рассмотреть потенциальные потери из-за разбалансировки (Load_Imbalance), поскольку именно разбалансировка вычислений в параллельном цикле является наиболее вероятной причиной рассинхронизации и больших потерь на коммуникациях. Если величинаразбалансировки намного меньше величины потенциальных потерь из-засинхронизации (Synchronization) , то необходимо обратить внимание на величину потенциальных потерь из-за разброса времен (Time_variation) коллективных операций. Если рассинхронизация не является следствием разброса времен завершения коллективных операций, то ее возможной причиной могут быть разбалансировки некоторых параллельных циклов, которые на рассматриваемом интервале выполнения программы могли взаимно компенсироваться. Поэтому имеет смысл перейти к рассмотрению характеристик разбалансировки на интервалах более низкого уровня.
Второй вероятной причиной больших потерь из-за рассинхронизации может быть рассинхронизация процессоров, которая возникает при выдаче операций ввода-вывода. Это происходит из-за того, что основная работа (обращение к функциям ввода-вывода операционной системы) производится на процессоре ввода-вывода, а остальные процессоры в это время ждут получения от него данных или информации о завершении коллективной операции. Эту причину потерь легко обнаружить, обратив внимание на соответствующую компоненту характеристики коммуникации – потери из-за коммуникаций при вводе-выводе.
Основной причиной потерь из-за коммуникаций может быть и просто большое количество операций редукции или загрузки требуемых данных с других процессоров (обновление теневых граней или удаленный доступ). В этом случае необходимо проверить спецификации удаленных данных. Наличие лишних спецификаций – одна из причин потерь из-за коммуникаций.
Возможен и другой подход к анализу характеристик, когда сначала анализируются коэффициенты эффективности и потерянное время на различных интервалах первого уровня, затем второго уровня, и т.д. В результате определяется критический участок программы. При этом необходимо иметь в виду, что причиной потерь на данном интервале из-за рассинхронизации и простоев могут быть разбалансировки и разбросы времен не только на этом интервале, но и на других, выполнявшихся до него интервалах.
Замечание. Поскольку при переходе от последовательного выполнения программы к ее параллельному выполнению на одном процессоре возможны потери эффективности, то рекомендуется скомпилировать последовательную программу с вызовами функций сбора информации для оценки производительности и пропустить полученную последовательную программу на одном процессоре. Для этого необходимо выполнить команду компиляции:
dvm f -s <имя DVM-программы>
и команду запуска программы:
dvm run 1 <имя DVM-программы>
Далее необходимо сравнить полученную статистику со статистикой параллельного выполнения на одном процессоре.
Подробнее с отладкой эффективности DVM-программ можно познакомиться в документе [4].
5 Пример задачи на Fortran DVM
Алгоритм Якоби
PROGRAM JACOB
PARAMETER (K=8, ITMAX=20)
REAL A(K,K), B(K,K), EPS, MAXEPS
CDVM$ DISTRIBUTE A ( BLOCK, BLOCK)
CDVM$ ALIGN B( I, J ) WITH A( I, J )
C массивы A и B распределяются блоками
PRINT *, '********** TEST_JACOBI **********'
MAXEPS = 0.5E - 7
CDVM$ PARALLEL (J,I) ON A(I, J)
C гнездо из двух параллельных циклов, итерация (i,j) выполняется,
C на том процессоре, где размещен элемент A(i,j)
DO 1 J = 1, K
DO 1 I = 1, K
A(I, J) = 0.
IF(I.EQ.1 .OR. J.EQ.1 .OR. I.EQ.K .OR. J.EQ.K) THEN
B(I, J) = 0.
ELSE
B(I, J) = ( 1. + I + J )
ENDIF
1 CONTINUE
DO 2 IT = 1, ITMAX
EPS = 0.
CDVM$ PARALLEL (J, I) ON A(I, J), REDUCTION ( MAX( EPS ))
C переменная EPS используется для вычисления максимального значения
DO 21 J = 2, K-1
DO 21 I = 2, K-1
EPS = MAX ( EPS, ABS( B( I, J) - A( I, J)))
A(I, J) = B(I, J)
21 CONTINUE
CDVM$ PARALLEL (J, I) ON B(I, J), SHADOW_RENEW (A)
C копирование теневых элементов массива A
C с соседних процессоров перед выполнением цикла
DO 22 J = 2, K-1
DO 22 I = 2, K-1
B(I, J) = (A( I-1, J ) + A( I, J-1 ) + A( I+1, J) + A( I, J+1 )) / 4
22 CONTINUE
PRINT *, 'IT = ', IT, ' EPS = ', EPS
IF ( EPS . LT . MAXEPS ) GO TO 3
2 CONTINUE
3 OPEN (3, FILE='JACOBI.DAT', FORM='FORMATTED')
WRITE (3,*) B
CLOSE (3)
END
6. Литература
Вся указанная литература содержится на сайте www.keldysh.ru/dvm и доступна локально по директивам dvm doc ur, dvm doc sr
-
Описание языка Fortran DVM.
-
Компиляция программ на языке Fortran DVM.
-
Запуск и отладка DVM-программ.
4. Отладка производительности DVM-программ.
5. Lib-DVM - детальный дизайн
Приложение 1. Синтаксис директив Fortran DVM
directive-line | is CDVM$ dvm-directive |
or *DVM$ dvm-directive |
dvm-directive | is specification-directive |
or executable-directive |
specification-directive | is align-directive |
or distribute-directive | |
or template-directive | |
or shadow-directive | |
or inherit-directive | |
or asyncid-directive |
executable-directive | is parallel-directive |
or remote-access-directive | |
or f90-directive | |
or asynchronous-directive | |
or end-asynchronous-directive | |
or asyncwait-directive |
Ограничения:
-
Cпецкомментарий directive-line подчиняется правилам написания комментария в фиксированной форме.
-
Директивы спецификации должны находиться в разделе спецификаций.
-
Исполняемые директивы должны находиться среди исполняемых операторов.
-
Любое выражение, входящее в директиву спецификации, должно быть выражением спецификации.
Выражение спецификации – это выражение, в котором каждое первичное должно быть одной из следующих форм:
-
константа,
-
переменная, которая является формальным аргументом,
-
переменная из COMMON блока,
-
ссылка на встроенную функцию, где каждый аргумент является выражением спецификации,
-
выражение спецификации, заключенное в скобки.
Директива DISTRIBUTE
distribute-directive | is DISTRIBUTE distributee dist-directive-stuff |
dist-directive-stuff | is dist-format-list |
distributee | is array-name |
or template-name |
dist-format | is BLOCK |
or * |
Ограничения:
-
Длина списка dist-format-list должна быть равна количеству измерений массива. Т.е. для каждого измерения должен быть задан формат распределения.
Директива ALIGN
align-directive | is ALIGN alignee align-directive-stuff |
align-directive-stuff | is ( align-source-list ) align-with-clause |
alignee | is array-name |
align-source | is * |
or align-dummy |
align-dummy | is scalar-int-variable |
align-with-clause | is WITH align-spec |
align-spec | is align-target ( align-subscript-list ) |
align-target | is array-name |
or template-name |
align-subscript | is int-expr |
or align-dummy-use | |
or * |
align-dummy-use | is [ primary-expr * ] align‑dummy [ add-op primary-expr ] |
primary-expr | is int-constant |
or int-variable | |
or ( int-expr ) | |
add-op | is + |
or - |
Ограничение:
-
Длина списка align-source-list должна быть равна количеству измерений выравниваемого массива.
Директива TEMPLATE
template-directive | is TEMPLATE template-decl-list |
template-decl | is template-name [ ( explicit-shape-spec-list ) ] |
Распределение витков цикла. Директива PARALLEL
parallel-directive | is PARALLEL ( do-variable-list ) ON iteration-align-spec [ , reduction-clause] [ , shadow-renew-clause] [ , remote-access-clause ] [ , across-clause ] |
iteration-align-spec | is align-target ( iteration-align-subscript-list ) |