Курс лекций (Аппаратное обеспечение), страница 2
Описание файла
Документ из архива "Курс лекций (Аппаратное обеспечение)", который расположен в категории "". Всё это находится в предмете "аппаратное обеспечение" из 8 семестр, которые можно найти в файловом архиве РТУ МИРЭА. Не смотря на прямую связь этого архива с РТУ МИРЭА, его также можно найти и в других разделах. Архив можно найти в разделе "лекции и семинары", в предмете "аппаратное обеспечение" в общих файлах.
Онлайн просмотр документа "Курс лекций (Аппаратное обеспечение)"
Текст 2 страницы из документа "Курс лекций (Аппаратное обеспечение)"
С-ма может ориентировать на процессор целую ветку команд или отлавливать готовые к исполнению команды и отправляет их на процессор.
Структура процессора.
Б У – блок управления, ФУ = АЛУ.
Достоинства:
1. Векторная обработка позволяет по 1-ой команде выполнять операцию над одномерным массивов.
2. Независимые устройства позволяют // - но обработать вектора, вещественные числа, числа с фиксированной точкой и целые числа.
3. В с-ме задействовано много //-ных процессоров, которые так же могут работать одновременно при условии, что это допускает алгоритм т.е. есть соответствующее число // - ных ветвей алгоритма.
С-ма MIMD.
Процессоры с массовым параллелизмом класса MIMD. Основное отличие от SIMD: теперь есть много потоков команд. ВС реализует многозадачность. В качестве ПЭ всегда берут стандартный МП (микропроцессор) Intel (не очень хороший т.к. не предусмотрены связи с другими процессорами), Alpha фирмы DEC, фирмы Sun – Ultra SPARC.
Они дополняются памятью и процессорами, реализующими связные ф-ции и затем получившиеся вычислительные модули связывают между собой различными способами (но не кольцо). Любая передача данных запускает подпрограмму передачи (поиск процессора, передача данных, проверка правильности передачи) и сильные связи по данным практически «останавливают» такие с-мы.
Gray T3E (продавались в 90-х годах).
И спользовались процессоры Alpha 21164 – RISC процессор, супер скалярный (т.е. имел нес-ко АЛУ независимых друг от друга и в результате за один такт выполнялось 4 команды), двух уровневую КЭШ память (1-ый уровень на процессоре 8К для команд и 8К для данных. А рядом с процессором был отдельный чип со 100 КБ общей памяти плюс модуль ОП до 1 ГБ). Максимально мог содержать до 1000 процессоров Alpha. ППД – процессор передачи данных.
Достоинство:
1) Можно набирая нужное число вычислительных узлов получить конкретное значение производительности.
2) С-му можно загружать разными задачами.
Недостатки:
1) Не универсальная с-ма, т.е. предназначена для задач с хорошо распараллеленным алгоритмом.
2) Нестандартная, сложная и дорогая сеть (дуплексный 3-х мерный ТОР).
Кластерные с-мы.
Создавать с-мы супер компьютерного класса из составных частей массового производства (для снижения стоимости). Кластер состоит из десятков системных блоков, объединённых стандартными сетевыми платами. Кластер – система дешевле, но уступает в быстродействии. Кластерные с-мы рассматриваются в будущем, как большие машины. Различают централизованный и децентрализованный кластер.
Централизованный кластер – в одном помещении и длина связи между блоками порядка метров.
Децентрализованный кластер – организуется из мнимых компьютеров находящихся в здании (несколько зданий) и расстояние между блоками до 100м. Кластером можно рассматривать как компьютеры связанные через Internet. Коммуникационная с-ма – набор сети. В качестве сетей используются стандартные средства образующие сети, типа: Fast Ethernet и Gigabit Ethernet.
Каждая сеть характеризуется:
1. Латентность – время начальной задержки сети при посылки сообщения.
2. Пропускная способность – число бит информации, передаваемой в единицу времени.
В кластере большая латентность, поэтому придумали другие сети: Myrinet и сетевая структура SCI (Scalable Coiherent Interface) – масштабируемый когерентный интерфейс.
Примеры кластера.
Кластеры МВС-100 и МВС-1000. МСЦ (межведомственный компьютерный центр www.jscc.ru).
Все сети стандартные. Вычислительные блоки построены на вычислителях. Состав вычислителя Alpha (500-700 МГц) показан на рисунке.
Некоторые принципы построения коммуникационных сетей.
1. Fast Ethernet: латентность λ ~ 160-180 мкс; пропускная способность 100 Мб/с.
2. Gigabit Ethernet: λ ~ 100 мкс; 1 Гбит/с.
3. SCI – некая комбинация шины и локальной сети. Плюс – малая латентность (Dolphin) λ ~ 2 мкс; 600 Мб/с.
В стандартных сетях при обращении к удалённой памяти формируется пакет на программном уровне, а в SCI сети и соответствующих коммутаторах все реализовано аппаратно, следовательно меньше задержка, но протокол и ПО более сложное чем в стандартных сетях. На этот интерфейс есть стандарт IEEE Std 1596 (92 г.). Данная сеть имеет драйвера для работы в Wind NT, 2000, XP, Unix (Linux, Solaris). Кластер Sequent (IBM).
Сеть Myrinet с 94 г. компания Myricom.
Работа сети поддерживается коммутаторами и ПО от этой компании. До 10 метров. Сеть ориентирована на централизованный кластер λ ~ 4 мкс; пропускная способность 2 Гб/с. Программно коммутаторы поддерживаются драйверами под Linux, Solaris, Tru64. На физическом уровне поддерживаются SAN, LAN и оптоволокно (как основной).
Сеть Myrinet: коммутаторы (до 128 портов), к которым присоединяются вычислительные узлы.
Мультипроцессоры.
С-ма у которой много процессоров и одна память. Память характеризуется единым адресным пространством.
U MA (Uniform Memory Ac…) с-ма – т.е. с-ма с единым доступом к памяти.
Плюсы: Т.к. эта с-ма с единой ОП, то не надо думать как распределять задачи между узлами, т.е. такая с-ма не требует дополнительного ПО и работает со всеми стандартными ОС.
Минусы: При одновременном обращении нес-ких ЦП к памяти возникает ситуация – память занята → ОС выстраивает очередь, что приводит к простою процессоров, поэтому такая с-ма жестко ограничивает число процессоров (2-4 проца, редко 8).
Типовые решение для разгрузки памяти.
1 . Дать каждому процессору свой КЭШ, обмен с ОП будет производится блоками (а не словами), который за одно обращение перекачивается из ОП в КЭШ. По этой с-ме строятся современные сервера.
2. ОП делают в виде банков, допускающих параллельное обращение. Возникает проблема непротиворечивости или когерентности КЭШа, т.е. все данные во всех КЭШах должны быть одинаковой свежести. Самое простое решение: сквозное кэширование, так называемый протокол, сквозного кэширования позволяет обеспечить когерентность КЭШ.
Любое изменение, приходящее в какой-либо КЭШ памяти должно проходить через основную память и может быть доступно другим процессорам только в обновлённом виде.
Протокол MESI.
Имеет метку.
1. Invalid – говорит, что элемент КЭШ памяти имеет недействительные данные.
2. Shared – элемент данных содержится в нес-ких КЭШах и в основной памяти, содержится в обновлённом виде.
3. Exclusive – элемент данных содержится только в одном КЭШ и в основной памяти содержится правильный код.
4 . Modified – элемент памяти в КЭШ действителен, но основная память не обновлена.
При загрузке процессора состояние КЭШ памяти случайное. При первом чтении нужный элемент помещается в КЭШ и обозначается как Exclusive, при последующей работе он их использует, но ни куда не передаёт. Если он вызывается другим процессором, то он помечается как Shared, а при изменении другим процессором (где есть метка Shared) он объявляет данные как Modified. Т.е. все остальные должны выкинуть старые версии, а ОП должна быть обновлена.
3. Каждому ЦП добавляют локальную ОП.
Куски локальной памяти могут иметь сквозную адресацию, а основной ОП может не быть. NUMA неоднородный доступ к памяти. Данный способ позволяет иметь до нес-ких десятков ЦП. CC-NUMA (Coherent Cache) – т.е. когерентный КЭШ.
П ример CC-NUMA с-мы. На примере серверов разработки HP Superdome (HPS). Выполняется на процессорах РА-8600 (HP - разработчик). Рабочая частота ~ 1ГГц и имеет 2-64 процессоров и 256 Гб памяти со связной адресацией. С-ма в max варианте комплектуется в 2 стойки, в каждой стойке 2 коммутатора. К портам коммутатора по 4 ячейки. Каждая ячейка – 4 процессора и 2 модуля памяти, которые объединяются контроллерами ячейки, который имеет 2 порта (1 – коммутаторный, 2 – к контроллеру в/в, т.е. прежде всего на дисковую с-му). Общей памяти нет, т.к. память имеет сквозную адресацию.
3 варианта доступа к памяти: 1 – в свою память; 2 – у соседней ячейки; 3 – у ячейки в другом коммутаторе.
Лекция 4.
Оценка производительности и зависимость производительности от числа процессоров.
Е диница измерения MFLOPS – миллионы операций с плавающей запятой в единицу времени. Ливер….ие тесты. Т = Тпослед + Тпараллел. + Тперед. ;
(1-h) – вероятность того, что l в КЭШ памяти; V – общее число операций в задании; P – доля операций выполняемых последовательно; q – число тактов среднее на выполнение 1-ой операции; Тц – длительность такта процесса; С – среднее число обращений в память на одну операцию; Ткэш – время обращения в КЭШ память; h – частота попадания в КЭШ при обращении в память. . L – показатель латентности коммуникационной с-мы; R – длительность фрагмента микропроцессорного обмена в командах; К – коэффициент обмена учитывающий топологию в сети связи; q – затраты на выполнение одной операции; М – число операций за единицу времени. .
Если пользователя устраивает число процессоров не <8 то имеет смысл устраивать СМП с-мы или мультипроцессорные с-мы, если больше процессоров, то это мульти компьютер.
Концепция GRID вычислений.
Некоторый распределённый кластер; когда ночью компьютеры простаивают, то появилась идея для использования ночных ресурсов для вычислительных задач, т.е. рассмотрим с-му в виде много компьютеров в какое-то время не задействованных и подключенных к Интернету – мета компьютер. Способ вычисления – мета компьютинг.
Проблемы GRID вычислений:
1. Такой мета компьютер – является распределённым, т.е. компоненты могут быть удалены друг от друга (100 км), что вызывает задержки в передачи данных и в управлении, что сказывается на производительности и оперативности.
2. Такой мета компьютер будет динамически менять конфигурацию, одни отключаются другие подключаются.
3. Мета компьютер не однороден, используются разные ОС (Windows, Linux и т.д.) для того, чтобы организовать вычисления, надо учитывать особенность всех ОС с-м.
при организации такого компьютера надо:
- распределение и дискретизация
- безопасность ,надёжность и сохранность данных вычислений и промежуточных результатов.
- общий язык и среда поддерживаемая всеми компьютерами.
SETI поиск сигналов от внеземных цивилизаций.
Обзор технологий //-го программирования.
Средства реализации:
1. Должны находить веточки или фрагменты вычислений, которые можно выполнять //-но.
2. Распределять данные во всех задачах по модулям локальной памяти процессора, так чтобы процессоры были загружены работой.