В.А. Фисун - Прикладное программирование в задачах математической физики. Архитектурные принципы построения ЭВМ (doc) (1127760), страница 8
Текст из файла (страница 8)
Выходная зависимость - “запись после записи” (WAW конфликт) возникает тогда, когда команды осуществляют запись в тот же приемник и одна из этих команд выполняется также без очереди. Пусть при выполнении фрагмента программы:
i А2 = А1 + А8
j А2 = А4 + А2
k А4 = А2 + А8
имеются взаимозависимости, приостанавливающие выполнение команды i, тогда возможен такой порядок фактического выполнения программы.
j А2 = А4 + А2
i А2 = А1 + А8
k А4 = А2 + А8
При этом команда К получит неправильный операнд в А2. Для разрешения конфликта такого рода можно использовать буферизацию.
i А2 = В1 = А1 + А8
j А2 = В2 = А4 + А2
k А4 = В2 + А8
Для разрешения конвейерных конфликтов внутри АЛУ используется техника, направленная, в первую очередь, на обеспечение корректности вычислений, а для минимизации времени простоев конвейера используются методы динамической оптимизации, основанные на изменении порядка вычислений. Методы оптимизации вычислений (out-of-order – неупорядоченное выполнение, out-of-order issue – неупорядоченная выдача) путем изменения порядка вычислений и механизмы обеспечения внеочередного выполнения команд для сглаживания конфликтов в АЛУ, разделяются на статические и динамические методы.
Статическим преобразованием программ на уровне трансляции – изменением порядка арифметических вычислений в программе в ряде случаев можно избежать конвейерных конфликтов. Преобразование последовательности вычислений из предыдущего раздела к виду:
A1 = B1+C1
A3 = B3+C3 A3 = B3+C3
A4 = B4+C4 A4 = B4+C4
A2 = A1+C2 A2 = (B1+C1)+ C2
позволит проводить эти вычисления без пропуска рабочих тактов АЛУ.
Преобразования такого вида могут производиться соответствующими блоками трансляторов, однако статическая оптимизация не может исключить все случаи конвейерных конфликтов. Так, оператор L: А2=А1+С2 уже нельзя переносить на другое место, для таких фрагментов программы с помеченными операторами статические методы изменения порядка вычислений на работают. Оптимизационные преобразования последовательности вычислений могут проводиться динамически, аппаратурой микропроцессоров, путем анализа динамической цепочки выполняемых операторов. Однако область динамического анализа ограничена фрагментом программы, который помещается в буфер команд, статические же методы преобразования программ мощнее, они могут проводить даже межпроцедурный анализ текстов программ.
4.3. Векторно-конвейерные вычисления
Время выполнения отдельной (скалярной) арифметической операции на конвейерном вычислителе (конвейеризованном АЛУ) равно Т = S + t, где t - время работы, за которое конвейер выдает очередной результат, а S - время запуска конвейера, время заполнения конвейера, которое (без учета времени подготовки операндов) равно S = t*(m-1), где m - число ступеней конвейера. Производительность конвейерного вычислителя на скалярных операциях (число результатов, выдаваемых за единицу времени) равна: R = 1/(S + t). Время выполнения массовой – векторной - операции на конвейерном вычислителе равно Т = S + t*n, где n – длина вектора, а S – время на дополнительные, служебные издержки организации векторной операции. Производительность конвейерного вычислителя при векторной работе (число результатов, выдаваемых за единицу времени) равна R = n/(S + t*n), это значение производительности при бесконечном увеличении длины вектора равно Rб = 1/t. Эта величина – “максимальная” или “асимптотическая” производительность – есть один из двух характеристических параметров первого порядка оценки производительности ЭВМ. Скорость выполнения операций для АЛУ с плавающей точкой измеряется в Мфлопс. (миллион операций с плавающей точкой в секунду). Например, при t = 10 нс, Rб = 108 результатов/сек, т.е. 100 мегафлопсов.
Графики достижения асимптотической производительности при увеличении длины вектора показывают их зависимость также от S. На графиках для S = 100 нс и S= 1000 нс видно, что они имеют различный характер достижения асимптоты, так при S = 100 нс конвейерный вычислитель показывает более высокую производительность при работе с короткими векторами. Для оценки этого эффекта используется величина N/2 - “длина полупроизводительности”, определяемая как длина вектора, при вычислении которого достигается половина максимальной производительности оборудования. Этот параметр был введен Р. Хокни (R. W. Hockney) для оценки эффективности векторных операций, он является вторым характеристическим параметром оценки производительности ЭВМ. Для приведенного выше примера N/2 = 100 для S =1000 и N/2 = 10 для S = 100. При работе с короткими векторами параметр N/2 является важным фактором, влияющий на производительность вычислителей.
Другой характеристикой конвейерных вычислителей является граничная длина - Nc (длина вектора), для которой скорость работы с векторами совпадает с темпом обработкой скаляров (Для ЭВМ с векторной и со скалярной арифметикой). Пусть скалярная арифметика выполняется со скоростью 10 мегафлопсов, а векторная - 100. Тогда при S = 1000 можно определить Nc = 12. Для векторов, длина которых меньше 12, векторная арифметика медленнее скалярной арифметики. Вычислено, что при S = 100 значение Nc = 2. Для 5 мегафлопсной скалярной арифметики: Nc = 6 для S=1000 и Nc = 1 при S = 100.
Для достижения максимальной производительности конвейерных арифметических вычислителей (и ЭВМ в целом) необходимо обеспечивать для них загрузку очередных операндов на каждом такте работы оборудования. Такой стиль перебора аргументов характерен для массовых, векторных операций, реализуемых командами цикла, например, такого:
DO L = 1,N
A(I) = B(I)+C(I)
ENDDO
Для подобных циклов с регулярной структурой обработки данных накладные расходы и препятствие опережающему просмотру при реализации команд организации цикла (счетчик и переход) на традиционных ЭВМ явились причиной появления специализированного векторно-конвейерного вычислительного оборудования, ранее называемого матричными процессорами. Если вместо приведенного выше цикла использовать запись этого алгоритма в виде векторной команды сложения вида: VADD(B,C,A,N), тогда конвейерное арифметическое устройство, выполняющее такие команды, будет работать как векторный вычислитель и может вырабатывать результаты вычислений Аi на каждом такте своей работы. Так как класс задач с регулярной обработкой данных достаточно широкий, то для них созданы специальные вычислители, дополняющие обычные скалярные ЭВМ.
В таком вычислителе имеется конвейерный процессор, выполняющий векторные команды путем засылки элементов обрабатываемых векторов в арифметический конвейер с интервалом, равным длительности прохождения одной стадии обработки. В векторных процессорах операндами и результатами операций могут служить векторные регистры или сверхоперативная память, в которые следует предварительно загрузить данные из ОЗУ, а данные из векторов с результатами вычислений переписываются в ОЗУ отдельной командой. Обработка длинных векторов при этом производится квантами, сообразно размеру векторных конвейеров. Вычислительный векторный блок ЭВМ может содержать несколько конвейеров.
Для их совместной работы используется “принцип зацепления конвейеров”, когда выход одного из них является входом для другого. В вычислениях зацепление операций производится методом образования цепочек из последовательных арифметических операций.
Примером одной из первой векторно–конвейерной ЭВМ может служить “матричный процессор” АР-120В фирмы Floating Point System, выпущенный в 1976 г. (отечественный аналог – ЕС 2706, Изот). Так как он был в десять раз медленнее и в пятнадцать раз дешевле машины Cray-1, то получил прозвище “Cray для бедных”. Этот процессор имел большой коммерческий успех, к 1980 г было установлено 1000 машин. Данная ЭВМ имела двух - стадийный конвейер для сложения и трех - стадийный конвейер для умножения чисел с плавающей запятой. ЭВМ подключалась к главной – хост-машине - как периферийное оборудование и использовалась для выполнения программ с массовыми векторными операциями. Её производительность равна 12 Мегафлопс, что по тем временам было недоступно универсальным ЭВМ. Одной из особенностей этого процессора была система команд – это была VLIW машина. Для неё было создано разнообразное программное обеспечение: автокод, транслятор с Фортрана, векторная библиотека.
Некоторое время на принципах матричного сателлита использовались векторные ускорители для ПК, например, плата RORTEX.
Векторными блоками дополнялось оборудование традиционных, скалярных ЭВМ. Программы таких ЭВМ могли содержать как скалярные, так и векторные команды (С-120, ЕС-1095, ПС-3000).
В 1976 г. начала работать ЭВМ Cray-1 (конструктор Саймур Крей) с революционной для того времени векторной архитектурой. Вычислители данного класса (PVP, parallel vector processing) в настоящее время являются основой мультипроцессорных систем, характеристики которых неоднократно находились на вершине рейтинга супер-ЭВМ.
Основой Cray архитектуры являются две идеи:
- функциональные устройства (ФУ, АЛУ) являются специализированными однофункциональными векторными конвейерами;
- аргументами вычислений являются специальные векторные регистры, хранящих массивы (векторы) данных.
ЭВМ Крей-1 имеет 12 ФУ, восемь из которых могут работать в режиме зацепления конвейеров и кроме, обычных регистров, имеет восемь 64-разрядных V регистра по 64 слова. Память содержит 1 млн. 64 разрядных слов, расслоение по 16 банкам. Время такта ЭВМ 12.5 нс., цикл памяти – 50 нс. Производительность ЭВМ 20 – 60 млн. операций в секунду.
В настоящее время только на вычислителях этой архитектуры можно добиваться сверхвысокую производительность векторных программ, работы в данном направлении проводятся в фирмах Cray и NEC. Архитектура NEC SX-6 (35.86 Тflop) интересна тем, что одна модель этой системы некоторое время возглавляла рейтинг самых высокопроизводительных вычислительных систем - ТОР500.
Данная ЭВМ - Earth Simulator состоит из 640 процессорных узлов, которые соединены между собой переключателем (12.3 Gв/s * 2). Процессорный узел состоит из 8 арифметических процессоров и оперативной памяти объемом в 16 Гбайт, разделенной на 2048 банков (SMP-архитектура). Арифметический процессор (производительность 8 Гфлопс) имеет суперскалярный вычислитель с кэш-памятью 2*64 Кбайт и 8 векторных вычислителей. Каждый векторный вычислитель имеет 72 векторных регистра по 256 элементов каждый и 6 конвейерных устройств (для сложения, умножения, деления, логических операций, операций маскирования, чтения/записи). Форматы чисел с плавающей запятой 32, 64, 128 (только для скалярного процессора) бит. Система имеет дисковые массивы на 250 Тбайт и ленточную библиотеку на 1.5 Пбайт (1 Пбайт = 1015 байт).
По такой же архитектуре выполнена супер-ЭВМ SX-8, которая на октябрь 2004 г. являлась самой мощной ЭВМ в мире. Ее производительность – 65 триллионов операций в секунду (Тflops).
Достоинствами векторно-конвейерных вычислителей является высокая и сверхвысокая производительность, однако эта производительность достигается только на регулярных вычислениях, так как эти вычислители есть специализированные машины.
4.4. Конвейеризация команд
В конвейерных архитектурах ЭВМ устройство обработки команд УУ является таким же конвейером, как и другие функциональные устройства. Работа устройства управления, так же как и АЛУ, разбивается на независимые этапы выполнения. Грубая схема разделения процесса выполнения команды на независимые конвейерные этапы такова.
1. Выборка команды.
2. Декодирование и выборка аргументов команды.
3. Исполнение команды.
4. Запись результатов.
В такой схеме при отсутствии конвейерных конфликтов время исполнения программы будет ускорено в четыре раза относительно одноэтапного УУ.
Большинство конвейеров выполняет работу каждого этапа за минимальное время, причем одинаковое на всех этапах оборудования, обычно за машинный такт синхронизации. Однако замечено, что выполнение некоторых конвейерных операций занимает менее половины машинного такта. Тогда при удвоении частоты внутренних тактовых импульсов можно было бы выполнить две работы за один машинный такт. Такая схема конвейера называется “суперконвейерной” (superpipelined), примером её реализации может служить микропроцессор MIPS R4000. Конвейеры процессоров с суперконвейерной архитектурой имеют еще большее число ступеней, что позволяет упростить каждую из них и, следовательно, сократить время пребывания в них инструкций. Считается, что в таком оборудовании каждый этап конвейера разбивается еще на внутренние микроэтапы, Каждый микроэтап исполняется за время этих внутриэтапных временных интервалов. Так как время конвейерной работы должно быть одинаково на всех этапах конвейера, включая и микроэтапы, то тогда все этапы конвейера должны содержать одинаковое число микроэтапов и, следовательно, можно принять внутиэтапную частоты за единую меру. Когда предлагается в суперконвейерной схеме сохранить две тактовой частоты: машинный такт и внутриэтапный такт, то это напоминает преодоление пропасти двумя прыжками. Эту не очень убедительную схему (а почему бы не выставить в единую конвейерную цепочку и микроэтапы?) часто показывают в схемах конвейеров векторных машин. Длина конвейера команд различна и определяется архитектурой ЭВМ. В процессоре Pentium 4 применена так называемая “гиперконвейерная” архитектура: конвейер, по которому проходят инструкции от момента считывания кода инструкции из памяти до ее завершения, состоит из очень большого числа ступеней. Гиперконвейер Pentium 4 состоит из 20 ступеней; для сравнения – “суперконвейер” процессоров P6 имеет 10 ступеней, а конвейер Pentium - всего 5. Здесь "супер" и "гипер" - определения, используемые фирмой изготовителя оборудования. Наверное, следует называть гиперконвейерной архитектурой мега-конвейер всего мультипроцессора - сумму всех исполняемых при выполнении программы ступеней УУ и АЛУ. А термин “суперконвейерная архитектура” оставить только для обозначения микропроцессоров с умножением частоты работы внутри конвейерных этапов.
Увеличение числа ступеней – этапов конвейера команд приводит к увеличению числа конвейерных конфликтов. Конвейерные конфликты УУ имеют те же свойства, что и для АЛУ, и они разрешаются одинаковыми методами, например, исполнением с изменением последовательности инструкций (out-of-order execution). Однако имеется и ряд особенностей. Например, при конвейерной обработке команд код операции декодируется на второй (по крайней мере, не на первой) стадии, поэтому команда безусловного перехода будет идентифицирована после того, как на первую стадию конвейера будет выбрана команда, текстуально следующая после команды перехода.