В.А. Фисун - Прикладное программирование в задачах математической физики. Архитектурные принципы построения ЭВМ (pdf) (1127762), страница 11
Текст из файла (страница 11)
RAW – чтение после записи (ЧПЗ), реальная зависимость.2. WAR – запись после чтения (ЗПЧ), антизависимость.3. WAW – запись после записи (ЗПЗ), выходная зависимость.Реальная зависимость - ”чтение после записи” (RAW конфликт) возникает, когда команде для её выполнения требуется результат работы предыдущей команды. Приведенный выше пример иллюстрирует конфликт данного вида и способ его разрешения. Реализация такой схемы производится спомощью аппаратуры внутренних блокировок конвейера (pipeline interlook).Другим аппаратным способом разрешения таких конфликтов является техника продвижения данных (data forwarding). Логика этой техники состоит впередаче результата операции непосредственно на вход конвейера параллельно с записью результата в память.
При этом сокращается число пропущенных рабочих тактов, что повышает производительность вычислителя. Внекоторых системах результат арифметических операций всегда записывается в один из буферов на входе в АЛУ сразу после его получения.Антизависимость - “запись после чтения” (WAR конфликт) возникаетпри нарушении последовательности выполнения команд, когда последующая команда записывает результат в операнд-источник ещё до того, как предыдущая команда прочитала этот результат. Такая ситуация может возникнуть при аппаратной оптимизации вычислений.Пример данной коллизии /H.G. Cragon/.
Пусть процессор умеет выдавать на исполнение команды вне очереди и он исполняет следующий фрагмент программы.i А2 = А1 + А8j А9 = А4 + А2k А4 = А7 + А8Между командами i и j имеет место взаимозависимость типа RAW попеременной А2 и выполнение команды j будет приостановлено. Команда kне имеет взаимозависимостей своих операндов и может быть выполнена внеочереди. Но она может завершиться и записать результат в А4 еще до того,как “старое ”значение А4 будет востребовано командой j, и тогда значениеА9 будет некорректным – WAR конфликт.Пособие 17.09.0940Взаимозависимость можно предотвратить путем буферизации операндов-источников в регистрах.А4 -> В1i А2 = В2 = А1 + А8j А9 = В1 + В2k А4 = А7 + А8Буферизация входных данных для команды j устраняет взаимозависимости, теперь команда k может свободно записывать в А4.
Управление порядком записи/чтения в регистры производится при помощи управляющихбитов. Такое использование буферов на входах АЛУ является частным случаем общего аппарата, называемого “переименование регистров”.Выходная зависимость - “запись после записи” (WAW конфликт) возникает тогда, когда команды осуществляют запись в тот же приемник и однаиз этих команд выполняется также без очереди. Пусть при выполнениифрагмента программы:i А2 = А1 + А8j А2 = А4 + А2k А4 = А2 + А8имеются взаимозависимости, приостанавливающие выполнение команды i,тогда возможен такой порядок фактического выполнения программы.j А2 = А4 + А2i А2 = А1 + А8k А4 = А2 + А8При этом команда К получит неправильный операнд в А2.
Для разрешения конфликта такого рода можно использовать буферизацию.i А2 = В1 = А1 + А8j А2 = В2 = А4 + А2k А4 = В2 + А8Для разрешения конвейерных конфликтов внутри АЛУ используетсятехника, направленная, в первую очередь, на обеспечение корректности вычислений, а для минимизации времени простоев конвейера используютсяметоды динамической оптимизации, основанные на изменении порядка вычислений. Методы оптимизации вычислений (out-of-order – неупорядоченное выполнение, out-of-order issue – неупорядоченная выдача) путем изменения порядка вычислений и механизмы обеспечения внеочередного выполнения команд для сглаживания конфликтов в АЛУ, разделяются на статические и динамические методы.Статическим преобразованием программ на уровне трансляции – изменением порядка арифметических вычислений в программе в ряде случаевможно избежать конвейерных конфликтов.
Преобразование последовательности вычислений из предыдущего раздела к виду:A1 = B1+C1A3 = B3+C3 A3 = B3+C3A4 = B4+C4 A4 = B4+C4Пособие 17.09.0941A2 = A1+C2 A2 = (B1+C1)+ C2позволит проводить эти вычисления без пропуска рабочих тактов АЛУ.Преобразования такого вида могут производиться соответствующимиблоками трансляторов, однако статическая оптимизация не может исключить все случаи конвейерных конфликтов.
Так, оператор L: А2=А1+С2 уженельзя переносить на другое место, для таких фрагментов программы с помеченными операторами статические методы изменения порядка вычислений на работают. Оптимизационные преобразования последовательностивычислений могут проводиться динамически, аппаратурой микропроцессоров, путем анализа динамической цепочки выполняемых операторов. Однако область динамического анализа ограничена фрагментом программы, который помещается в буфер команд, статические же методы преобразованияпрограмм мощнее, они могут проводить даже межпроцедурный анализ текстов программ.4.3. Векторно-конвейерные вычисленияВремя выполнения отдельной (скалярной) арифметической операции наконвейерном вычислителе (конвейеризованном АЛУ) равно Т = S + t, где t время работы, за которое конвейер выдает очередной результат, а S - времязапуска конвейера, время заполнения конвейера, которое (без учета времениподготовки операндов) равно S = t*(m-1), где m - число ступеней конвейера.Производительность конвейерного вычислителя на скалярных операциях(число результатов, выдаваемых за единицу времени) равна: R = 1/(S + t).Время выполнения массовой – векторной - операции на конвейерном вычислителе равно Т = S + t*n, где n – длина вектора, а S – время на дополнительные, служебные издержки организации векторной операции.
Производительность конвейерного вычислителя при векторной работе (число результатов, выдаваемых за единицу времени) равна R = n/(S + t*n), это значение производительности при бесконечном увеличении длины вектора равноRб = 1/t. Эта величина – “максимальная” или “асимптотическая” производительность – есть один из двух характеристических параметров первого порядка оценки производительности ЭВМ. Скорость выполнения операций дляАЛУ с плавающей точкой измеряется в Мфлопс.
(миллион операций с плавающей точкой в секунду). Например, при t = 10 нс, Rб = 108 результатов/сек, т.е. 100 мегафлопсов.Графики достижения асимптотической производительности при увеличении длины вектора показывают их зависимость также от S. На графикахдля S = 100 нс и S= 1000 нс видно, что они имеют различный характер достижения асимптоты, так при S = 100 нс конвейерный вычислитель показывает более высокую производительность при работе с короткими векторами. Для оценки этого эффекта используется величина N/2 - “длина полупроизводительности”, определяемая как длина вектора, при вычислении которого достигается половина максимальной производительности оборудования.
Этот параметр был введен Р. Хокни (R. W. Hockney) для оценки эффек-Пособие 17.09.0942тивности векторных операций, он является вторым характеристическим параметром оценки производительности ЭВМ. Для приведенного выше примера N/2 = 100 для S =1000 и N/2 = 10 для S = 100. При работе с короткимивекторами параметр N/2 является важным фактором, влияющий на производительность вычислителей.Другой характеристикой конвейерных вычислителей является граничная длина - Nc (длина вектора), для которой скорость работы с векторамисовпадает с темпом обработкой скаляров (Для ЭВМ с векторной и со скалярной арифметикой). Пусть скалярная арифметика выполняется со скоростью 10 мегафлопсов, а векторная - 100.
Тогда при S = 1000 можно определить Nc = 12. Для векторов, длина которых меньше 12, векторная арифметика медленнее скалярной арифметики. Вычислено, что при S = 100 значение Nc = 2. Для 5 мегафлопсной скалярной арифметики: Nc = 6 для S=1000и Nc = 1 при S = 100.Для достижения максимальной производительности конвейерныхарифметических вычислителей (и ЭВМ в целом) необходимо обеспечиватьдля них загрузку очередных операндов на каждом такте работы оборудования. Такой стиль перебора аргументов характерен для массовых, векторныхопераций, реализуемых командами цикла, например, такого:DO L = 1,NA(I) = B(I)+C(I)ENDDOДля подобных циклов с регулярной структурой обработки данных накладные расходы и препятствие опережающему просмотру при реализациикоманд организации цикла (счетчик и переход) на традиционных ЭВМявились причиной появления специализированного векторно-конвейерноговычислительного оборудования, ранее называемого матричными процессорами.
Если вместо приведенного выше цикла использовать запись этого алгоритма в виде векторной команды сложения вида: VADD(B,C,A,N), тогдаконвейерное арифметическое устройство, выполняющее такие команды, будет работать как векторный вычислитель и может вырабатывать результатывычислений Аi на каждом такте своей работы. Так как класс задач с регулярной обработкой данных достаточно широкий, то для них созданы специальные вычислители, дополняющие обычные скалярные ЭВМ.В таком вычислителе имеется конвейерный процессор, выполняющийвекторные команды путем засылки элементов обрабатываемых векторов варифметический конвейер с интервалом, равным длительности прохожденияодной стадии обработки. В векторных процессорах операндами и результатами операций могут служить векторные регистры или сверхоперативнаяпамять, в которые следует предварительно загрузить данные из ОЗУ, а данные из векторов с результатами вычислений переписываются в ОЗУ отдельной командой.