Параллельное программирование на языке C-DVM (1158283), страница 5
Текст из файла (страница 5)
Для получения величины реальных потери из-за рассинхронизации необходимо задать параметр IsSynchrTime=1.
-
Представление программы в виде иерархии интервалов. Выполнение со сбором статистики
Выполнение всей программы целиком рассматривается как интервал самого высокого (нулевого) уровня. Этот интервал может включать в себя несколько интервалов следующего (первого) уровня. Такими интервалами могут быть параллельные циклы, последовательные циклы, а также любые отмеченные программистом последовательности операторов, выполнение которых всегда начинается с выполнения первого оператора, а заканчивается выполнением последнего. Интервалы первого уровня могут в свою очередь включать в себя интервалы второго уровня, и т.д.
Все описанные выше характеристики вычисляются не только для всей программы, но и для каждого ее интервала. В языке C-DVM интервал задается следующим образом:
DVM (INTERVAL [целочисленное выражение]) <оператор>
Выделив, например, тело цикла как интервал и задав в качестве целочисленного выражения индексную переменную цикла, можно оформить каждый виток цикла отдельным интервалом. Подобным образом можно получить характеристики четных и нечетных витков цикла, либо характеристики выполнения процедуры при заданных значениях ее параметров.
После окончания выполнения со сбором статистики в текущей директории должен создаться файл статистики с именем sts.gz+ (или просто sts, или <имя задачи>. sts.gz+). Если при сборе данных были обнаружены ошибки, то файл все равно может создаться, а сообщение об ошибке будет выведено на экран или в файл. Список сообщений приведен в приложении 4.
-
Запуск анализатора производительности. Представление характеристик задачи по интервалам
Для получения временных характеристик по интервалам следует выполнить команду:
dvm pa <имя файла статистики> < имя файла с характеристиками>
Все характеристики записываются в текстовом виде в указанный файл. Для каждого интервала выдается следующая информация:
-
имя файла с исходным текстом DVM-программы и номер первого оператора интервала в нем (SOURCE, LINE);
-
тип интервала – вся программа, параллельный цикл (PAR), последовательный цикл (SEQ) или выделенная пользователем последовательность операторов (USER);
-
номер уровня вложенности (LEVEL);
-
количество входов (и выходов) в интервал (EXE_COUNT);
-
значение выражения, заданного при описании интервала средствами языка (EXPR);
-
основные характеристики выполнения и их компоненты (Main characteristics);
-
минимальные, максимальные и средние значения характеристик выполнения программы на каждом процессоре (Comparative characteristics);
-
характеристики выполнения программы на каждом процессоре (Execution characteristics on processors).
При выдаче характеристик их компоненты располагаются в той же строке (справа в скобках), либо в следующей строке (справа от символов “*” или “-”).
Компоненты некоторых характеристик, связанных с выполнением коллективных операций, выдаются в виде столбцов таблицы, где строки соответствуют типу коллективной операции, а столбцы - характеристикам. Один из столбцов (Nop) этой таблицы содержит количества операций каждого типа, которые являются характеристиками, не зависящими от числа процессоров, используемых для выполнения программы.
Информация о минимальных, максимальных и средних значениях таких характеристик оформлена в таблицу аналогичным образом. Некоторые характеристики вообще не выдаются в том случае, если их значения равны нулю.
-
Рекомендации по анализу характеристик
Главным критерием является коэффициент эффективности распараллеливания. Если коэффициент эффективности невысокий, то необходимо анализировать потерянное время и его компоненты.
Сначала следует оценить три компоненты потерянного времени для основного интервала (как правило, в качестве такого интервала выделяется итерационный цикл в программе). Наиболее вероятно, что основная доля потерянного времени приходится на одну из первых двух компонент (недостаточный параллелизм или коммуникации).
В случае если причиной оказался недостаточный параллелизм, необходимо уточнить, на каких участках он обнаружен – последовательных или параллельных. В последнем случае причина может быть очень простой – неверное задание матрицы процессоров при запуске программы или неверное распределение данных и вычислений. Если же недостаточный параллелизм обнаружен на последовательных участках, то причиной этого, скорее всего, является наличие последовательного цикла, выполняющего большой объем вычислений. Устранение этой причины может потребовать больших усилий.
В том же случае, если основной причиной потерь являются коммуникации, тонеобходимо, прежде всего, обратить внимание на реальные потери из-за рассинхронизации (Real synchronization). Если ее значение близко к размерам потерь из-за коммуникаций, то необходимо рассмотреть потенциальные потери из-за разбалансировки (Load_Imbalance), поскольку именно разбалансировка вычислений в параллельном цикле является наиболее вероятной причиной рассинхронизации и больших потерь на коммуникациях. Если величинаразбалансировки намного меньше величины потенциальных потерь из-засинхронизации (Synchronization) , то необходимо обратить внимание на величину потенциальных потерь из-за разброса времен (Time_variation) коллективных операций. Если рассинхронизация не является следствием разброса времен завершения коллективных операций, то ее возможной причиной могут быть разбалансировки некоторых параллельных циклов, которые на рассматриваемом интервале выполнения программы могли взаимно компенсироваться. Поэтому имеет смысл перейти к рассмотрению характеристик разбалансировки на интервалах более низкого уровня.
Второй вероятной причиной больших потерь из-за рассинхронизации может быть рассинхронизация процессоров, которая возникает при выдаче операций ввода-вывода. Это происходит из-за того, что основная работа (обращение к функциям ввода-вывода операционной системы) производится на процессоре ввода-вывода, а остальные процессоры в это время ждут получения от него данных или информации о завершении коллективной операции. Эту причину потерь легко обнаружить, обратив внимание на соответствующую компоненту характеристики коммуникации – потери из-за коммуникаций при вводе-выводе.
Основной причиной потерь из-за коммуникаций может быть и просто большое количество операций редукции или загрузки требуемых данных с других процессоров (обновление теневых граней или удаленный доступ). В этом случае необходимо проверить спецификации удаленных данных. Наличие лишних спецификаций – одна из причин потерь из-за коммуникаций.
Возможен и другой подход к анализу характеристик, когда сначала анализируются коэффициенты эффективности и потерянное время на различных интервалах первого уровня, затем второго уровня, и т.д. В результате определяется критический участок программы. При этом необходимо иметь в виду, что причиной потерь на данном интервале из-за рассинхронизации и простоев могут быть разбалансировки и разбросы времен не только на этом интервале, но и на других, выполнявшихся до него интервалах.
Замечание. Поскольку при переходе от последовательного выполнения программы к ее параллельному выполнению на одном процессоре возможны потери эффективности, то рекомендуется скомпилировать последовательную программу с вызовами функций сбора информации для оценки производительности и пропустить полученную последовательную программу на одном процессоре. Для этого необходимо выполнить команду компиляции:
dvm c -s <имя DVM-программы>
и команду запуска программы:
dvm run 1 <имя DVM-программы>
Далее необходимо сравнить полученную статистику со статистикой параллельного выполнения на одном процессоре.
Подробнее с отладкой эффективности DVM-программ можно познакомиться в документе [4].
5 Пример задачи на C-DVM
Алгоритм Якоби
/* JACOBI program */
#include <math.h>
#include <stdlib.h>
#include <stdio.h>
#define Max(a,b) ((a)>(b)?(a): (b))
#define DVM(dvmdir)
#define DO(v,l,h,s) for(v=l; v<=h; v+=s)
#define L 8
#define ITMAX 20
int i,j,it,k;
double eps;
double MAXEPS = 0.5;
FILE *f;
/* 2D arrays block distributed along 2 dimensions */
DVM(DISTRIBUTE [BLOCK][BLOCK]) double A[L][L];
DVM(ALIGN[i][j] WITH A[i][j]) double B[L][L];
int main(int argn, char **args)
{
/* 2D loop with base array A */
DVM(PARALLEL [i][j] ON A[i][j])
DO(i,0,L-1,1)
DO(j,0,L-1,1)
{A[i][j]=0.;
B[i][j]=1.+i+j;
}
/****** iteration loop *************************/
DVM(INTERVAL 1)
{
DO(it,1,ITMAX,1)
{
eps= 0.;
/* Parallel loop with base array A */
/* calculating maximum in variable eps */
DVM(PARALLEL [i][j] ON A[i][j]; REDUCTION MAX(eps))
DO(i,1,L-2,1)
DO(j,1,L-2,1)
{eps = Max(fabs(B[i][j]-A[i][j]),eps);
A[i][j] = B[i][j];
}
/* Parallel loop with base array B and */
/* with prior updating shadow elements of array A */
DVM(PARALLEL[i][j] ON B[i][j]; SHADOW_RENEW A)
DO(i,1,L-2,1)
DO(j,1,L-2,1)
B[i][j] = (A[i-1][j]+A[i+1][j]+A[i][j-1]+A[i][j+1])/4.;
printf(“it=%4i eps=%3.3E\n”, it,eps);
if (eps < MAXEPS) break;
}/*DO it*/
} /* end of INTERVAL 1 */
f=fopen("jacobi.dat","wb");
fwrite(B,sizeof(double),L*L,f);
return 0;
}
6. Литература
Вся необходимая литература содержится на сайте www.keldysh.ru/dvm и доступна локально по командам dvm doc ur, dvm doc sr
-
Описание языка Fortran DVM.
-
Компиляция программ на языке Fortran DVM.
-
Запуск и отладка DVM-программ.
4. Отладка производительности DVM-программ.
5. Lib-DVM - детальный дизайн
Приложение 1. Синтаксис директив C-DVM
directive | ::= DVM ( DVM-directive [ ; DVM-directive ] ) | |||||
DVM-directive | ::= specification-directive | |||||
| executable-directive | ||||||
specification-directive | ::= align-directive | |||||
| distribute-directive | ||||||
| template-directive | ||||||
| shadow-directive | ||||||
executable-directive | ::= realign-directive | |||||
| redistribute-directive | ||||||
| parallel-directive | ||||||
| remote-access-directive | ||||||
distribute-directive | ::= DISTRIBUTE [ dist-directive-stuff ] | |||||
redistribute-directive | ::= REDISTRIBUTE | |||||
dist-directive-stuff | ::= dist-format... | |||||
distributee | ::= array-name | |||||
dist-format | ::= [BLOCK] | |||||
| [ ] | ||||||
dist-target | ::= processors-name [ section-subscript ]… | |||||
align-directive | ::= ALIGN [ align-directive-stuff ] | |||||
realign-directive | ::= REALIGN | |||||
align-directive-stuff | ::= align-source... align-with-clause | |||||
alignee | ::= array-name | |||||
align-source | ::= [ ] | |||||
| [ align-dummy ] | ||||||
align-dummy | ::= scalar-int-variable | |||||
align-with-clause | ::= WITH align-spec | |||||
align-spec | ::= align-target [ align-subscript ]… | |||||
align-target | ::= array-name | |||||
| template-name | ||||||
align-subscript | ::= [ int-expr ] | |||||
| [ align-subscript-use ] | ||||||
| [ ] | ||||||
align-subscript-use | ::= [ primary-expr * ] align‑dummy | |||||
primary-expr | ::= int-constant | |||||
| int-variable | ||||||
| ( int-expr ) | ||||||
add-op | ::= + | |||||
| - | ||||||
parallel-directive | ::= PARALLEL loop-variable... | |||||
iteration-align-spec | ::= align-target iteration-align-subscript... | |||||
iteration-align-subscript | ::= [ int-expr ] | |||||
| [ do-variable-use ] | ||||||
| [ ] | ||||||
loop-variable | ::= [ do-variable ] | |||||
do-variable-use | ::= [ primary-expr * ] do-variable | |||||
reduction-clause | ::= REDUCTION reduction-op... | |||||
reduction-op | ::= reduction-op-name ( reduction-variable ) | |||||
| reduction-loc-name ( reduction-variable, loc-variable ) | ||||||
reduction-variable | ::= array-name | |||||
| scalar-variable-name | ||||||
reduction-op-name | ::= SUM | |||||
| PRODUCT | ||||||
| MAX | ||||||
| MIN | ||||||
| AND | ||||||
| OR | ||||||
across-clause | ::= ACROSS dependent-array... | |||||
dependent-array | ::= dist-array-name dependence... | |||||
dependence | ::= [ flow-dep-length : anti-dep-length ] | |||||
flow-dep-length | ::= int-constant | |||||
anti-dep-length | ::= int-constant | |||||
shadow-directive | ::= SHADOW shadow-array... | |||||
shadow-array | ::= array-name shadow-edge... | |||||
shadow-edge | ::= [ width ] | |||||
| [ low-width : high-width ] | ||||||
width | ::= int-expr | |||||
low-width | ::= int-expr | |||||
high-width | ::= int-expr | |||||
shadow-renew-clause | ::= SHADOW_RENEW renewee... | |||||
renewee | ::= dist-array-name [ shadow-edge ]… | |||||
remote-access-directive | ::= REMOTE_ACCESS regular-reference... | |||||
regular-reference | ::= dist-array-name [ regular-subscript ]… | |||||
regular-subscript | ::= [ int-expr ] | |||||
| [ do-variable-use ] | ||||||
| [ ] | ||||||
remote-access-clause | ::= remote-access-directive | |||||
copy-flag-directive | ::= COPY_FLAG | |||||
copy-start-directive | ::= COPY_START flag_addr | |||||
copy-wait-directive | ::= COPY_WAIT flag_addr | |||||
copy-directive | ::= COPY |
Приложение 2. Сообщения компилятора C-DVM
1 . Фатальные ошибки
При фатальных ошибках выполнение прекращается. К ним относятся:
-
ошибки в параметрах командной строки;
-
ошибки открытия необходимых файлов – проверьте, что файл существует и доступен, и есть права на запись выходных файлов;
-
переполнение системных таблиц – попробуйте увеличить размер (опция -x).
2 . Диагностики сканнера и парсера
Сканнер останавливается с сообщением при:
-
незакрытой символьной или строковой константе;
-
незакрытом комментарии;
Недопустимые символы и “/*” внутри комментария пропускаются с соответствующим сообщением.