cdvmLDr (1158335), страница 6
Текст из файла (страница 6)
Если удаленная ссылка задается как имя массива без списка индексов, то все ссылки на этот массив в параллельном цикле (операторе) являются удаленными ссылками типа REMOTE.
6.3.2Синхронная спецификация удаленных ссылок типа REMOTE
Если в директиве REMOTE_ACCESS не указано имя группы (remote-group-name), то выполнение такой директивы происходит в синхронном режиме. В пределах нижестоящего оператора или параллельного цикла компилятор заменяет все вхождения удаленной ссылки ссылкой на буфер. Пересылка удаленных данных производится перед выполнением оператора или цикла.
Пример 6.5. Синхронная спецификация удаленных ссылок типа REMOTE.
DVM(DISTRIBUTE [][BLOCK]) float A[100][100], B[100][100];
. . .
DVM(REMOTE_ACCESS A[50][50]) X = A[50][50];
. . .
DVM(REMOTE_ACCESS B[100][100]) A[1][1] = B[100][100];
. . .
DVM(PARALLEL[I][J] ON A[I][J]; REMOTE_ACCESS B[][N])
FOR(I, 100)
FOR(J, 100)
A[I][J] = B[I][J] + B[I][N];
Первые две директивы REMOTE_ACCESS специфицируют удаленные ссылки для отдельных операторов. REMOTE_ACCESS в параллельном цикле специфицирует удаленные данные (столбец матрицы) для всех процессоров, на которые распределен массив А.
6.3.3 Асинхронная спецификация удаленных ссылок типа REMOTE
Если в директиве REMOTE_ACCESS указано имя группы (remote-group-name), то выполнение директивы происходит в асинхронном режиме. Для спецификации этого режима необходимы следующие дополнительные директивы.
Описание имени группы.
remote-group-directive | ::= REMOTE_GROUP |
Идентификатор, определенный этой директивой, может использоваться только в директивах REMOTE_ACCESS, PREFETCH и RESET.
prefetch-directive | ::= PREFETCH group-name |
reset-directive | ::= RESET group-name |
Рассмотрим следующую типовую последовательность асинхронной спецификации удаленных ссылок типа REMOTE.
DVM(REMOTE_GROUP) void * RS;
. . .
DVM(PREFETCH RS);
. . .
DVM(PARALLEL . . . ; REMOTE_ACCESS RS : r1)
. . .
DVM(PARALLEL . . . ; REMOTE_ACCESS RS : rn)
. . .
При первом прохождении указанной последовательности операторов директива PREFETCH не выполняется. Директивы REMOTE_ACCESS выполняется в обычном синхронном режиме. При этом происходит накопление ссылок в переменной RS. После выполнения всей последовательности директив REMOTE_ACCESS значение переменной RS равно объединению подгрупп удаленных ссылок ri ... rn.
При втором и последующих прохождениях директива PREFETCH осуществляет упреждающую пересылку удаленных данных для всех ссылок, составляющих значение переменной RS. После директивы PREFETCH и до первой директивы REMOTE_ACCESS с тем же именем группы можно выполнять другие вычисления, которые перекрывают ожидание обработки удаленных ссылок. При этом директивы REMOTE_ACCESS никакой пересылки данных уже не вызывают.
Ограничения.
-
Повторное выполнение директивы PREFETCH является корректным только в том случае, когда характеристики группы удаленных ссылок (параметры циклов, распределения массивов и значения индексных выражений в удаленных ссылках) не меняются.
-
Директиву PREFETCH можно выполнять для нескольких циклов (нескольких директив REMOTE_ACCESS), если между этими циклами не существует зависимости по данным для распределенных массивов, указанных в директивах REMOTE_ACCESS.
Если характеристики группы удаленных ссылок изменились, то необходимо присвоить неопределенное значение группе удаленных ссылок с помощью директивы RESET, после чего будет происходить новое накопление группы удаленных ссылок.
Рассмотрим следующий фрагмент многообластной задачи. Область моделирования разделена на 3 подобласти, как показано на рис.6.3.
M | |||||
N1 | A1 | ||||
D | |||||
N2 | A2 | A3 | |||
M1 | M2 | ||||
Рис.6.3. Разделение области моделирования.
Пример 6.6. Использование группы регулярных удаленных ссылок.
DVM (DISTRIBUTE [BLOCK][BLOCK])
float A1[M][N1+1], A2[M1+1][[N2+1], A3[M2+1][N2+1];
DVM (REMOTE_GROUP) void *RS;
DO(ITER,1, MIT,1)
{
. . .
/* edge exchange by split line D */
DVM (PREFETCH RS);
. . .
DVM ( PARALLEL[i] ON A1[i][N1]; REMOTE_ACCESS RS: A2[i][1])
DO(i,0, M1-1,1)
A1[i][N1] = A2[i][1];
DVM (PARALLEL[i] ON A1[i][N1]; REMOTE_ACCESS RS: A3[i-M1][1])
DO(i,M1, M-1,1)
A1[i][N1] = A3[i-M1][1];
DVM (PARALLEL[i] ON A2[i][0]; REMOTE_ACCESS RS: A1[I][N1-1])
DO(i,0, M1-1,1)
A2[i][0] = A1[i][N1-1];
DVM(PARALLEL[i] ON A3[i][0]; REMOTE_ACCESS RS: A1[I+M1][N1-1])
DO (i,0, M2-1,1) A3[i][0] = A1[i+M1][N1-1];
. . .
if (NOBLN) {
/*array redistribution to balance loading */
. . .
DVM (RESET RS);
}
. . .
} /*DO ITER*/
6.4Удаленные ссылки типа REDUCTION
6.4.1Синхронная спецификация удаленных ссылок типа REDUCTION
Если спецификация REDUCTION в параллельном цикле указана без имени группы, то она является синхронной спецификацией и выполняется в два этапа:
-
Вычисление локальной редукции: в процессе выполнения цикла на каждом процессоре вычисляется локальное значение редукции для той части данных, которые распределены на процессоре.
-
Вычисление глобальной редукции: после окончания выполнения цикла вычисляется межпроцессорная редукция локальных значений. Полученное значение присваивается редукционной переменной на каждом процессоре.
6.4.2Асинхронная спецификация удаленных ссылок типа REDUCTION
Асинхронная спецификация позволяет:
-
объединять в одну группу редукционные переменные, вычисляемые в разных циклах;
-
совмещать выполнение глобальной групповой редукции с другими вычислениями.
Для асинхронной спецификации, кроме директивы REDUCTION (с именем группы), необходимы следующие дополнительные директивы.
reduction-start-directive | ::= REDUCTION_START reduction-group-name |
reduction-wait-directive | ::= REDUCTION_WAIT reduction-group-name |
Ограничения.
-
До выполнения директивы REDUCTION_START включенные в группу редукционные переменные могут использоваться только в редукционных операторах параллельных циклов.
-
Директива REDUCTION_START и REDUCTION_WAIT должны выполняться после окончания цикла (циклов), где вычислялись локальные значения редукционных переменных. Между этими операторами могут выполняться только те операторы, в которых не используются значения редукционных переменных.
-
Директива REDUCTION_WAIT уничтожает группу редукционных операций.
Пример 6.7. Асинхронная спецификация типа REDUCTION.
DVM(REDUCTION_GROUP) void *RG;
. . .
S = 0;
X = A[1];
Y = A[1];
MINI = 1;
DVM(PARALLEL[I] ON A[I]; REDUCTION RG: SUM(S), MAX(X), MINLOC(Y,MIMI))
FOR(I, N)
{ S = S + A[I];
X =max(X, A[I]);
if(A[I] < Y) THEN { Y = A[I]; MINI = I;}
}
DVM(REDUCTION_START RG);
DVM(PARALLEL[I] ON B[I])
FOR( I, N)
B[I] = C[I] + A[I];
DVM(REDUCTION_WAIT RG);
printf("%f %f %f %d\n", S, X, Y, MINI);
На фоне выполнения групповой редукции будут вычисляться значения элементов массива B.
7Параллелизм задач
Модель параллелизма DVM объединяет параллелизм по данным и параллелизм задач.
Параллелизм задач реализуется независимыми вычислениями на секциях массива процессоров.
Определим множество виртуальных процессоров, на которых выполняется процедура, как текущую систему виртуальных процессоров. Для главной процедуры текущая система состоит из полного множества виртуальных процессоров.
Отдельная группа задач определяется следующими директивами:
-
Описание массива задач (директива TASK).
-
Отображение массива задач на секции массива процессоров (директива MAP).
-
Создание массивов данных и их распределение по задачам и, тем самым, по секциям массива процессоров (оператор malloc и директивы REDISTRIBUTE и REALIGN).
-
Распределение вычислений (блоков операторов или витков параллельного цикла) по задачам (конструкция TASK_REGION).
В процедуре может быть описано несколько массивов задач. Вложенность задач не разрешается.
7.1Описание массива задач
Массив задач описывается следующей директивой:
task-directive | ::= TASK |
Описание задач определяет одномерный массив задач, которые затем будут отображены на секции массива процессоров.
7.2Отображение задач на процессоры. Директива MAP
Отображение задачи на секцию массива процессоров выполняется директивой MAP
map-directive | ::= MAP task-name [ task-index ] |
ONTO processors-name [ section-subscript ]… |
На одну и ту же секцию могут быть отображены несколько задач, но разные секции не могут иметь общих процессоров.
7.3Распределение массивов по задачам
Распределение массивов по задачам осуществляется директивой REDISTRIBUTE со следующим расширением:
dist-target | ::= . . . |
| task-name [ task-index ] |
Массив распределяется на секцию массива процессоров, на которую уже была отображена задача.
7.4Распределение вычислений. Директива TASK_REGION
Распределение блоков операторов по задачам описывается конструкцией TASK_REGION:
block-task-region | ::= DVM( task-region-directive ) { on-block... } |
task-region-directive | ::= TASK_REGION task-name |
[ ; reduction-clause ] | |
on-block | ::= DVM( on-directive ) statement |
on-directive | ::= ON task-name [ task-index ] |
Область задач и каждый on-block являются последовательностями операторов с одним входом (первый оператор) и одним выходом (после последнего оператора). Для блоков операторов конструкция TASK_REGION по семантике эквивалентна конструкции параллельных секций для систем с общей памятью. Отличием является то, что блок операторов может выполняться на нескольких процессорах в модели параллелизма по данным.
Распределение витков параллельного цикла по задачам осуществляется следующей конструкцией:
loop-task-region | ::= DVM( task-region-directive ) { |
parallel-task-loop | |
} | |
parallel-task-loop | ::= DVM( parallel-task-loop-directive ) |
do-loop | |
parallel-task-loop-directive | ::= PARALLEL [ do-variable ] |
Единицей распределенных вычислений является виток одномерного параллельного цикла. Отличием от обычного параллельного цикла является распределение витка на секцию массива процессоров. При этом секция определяется ссылкой на элемент массива задач.
Спецификация reduction-clause имеет ту же семантику, что и для параллельного цикла. Значение редукционной переменной должно быть вычислено в каждой задаче. После окончания задач в случае синхронной спецификации автоматически выполняется редукция над значениями редукционной переменной по всем задачам. В случае асинхронной спецификации запуск редукции осуществляется директивой REDUCTION_START.
7.5Локализация данных в задачах
Задачей является on-block или виток цикла. Задачи одной группы имеют следующие ограничения по данным
-
нет зависимостей по данным;
-
все используемые и вычисляемые данные размещены (локализованы) на секции массива процессоров данной задачи;
-
после окончания задачи каждый массив должен иметь точно такое же распределение, какое существовало до запуска задачи. Если в задаче изменяется распределение массива, то оно должно быть восстановлено перед окончанием задачи;
-
нет ввода-вывода;
-
задача может изменять только значения массивов, распределенных на эту секцию, и значения приватных переменных.
7.6Фрагмент статической многообластной задачи
Ниже приведен фрагмент программы, описывающей реализацию 3-х областной задачи (рис. 6.2.) в модели параллелизма по данным.
DVM(PROCESSORS) void *P[NUMBER_OF_PROCESSORS()];
/* arrays A1,А2,А3 - the values on the previous iteration */