2006 Ответы на экзаменационные вопросы по ПОД (Lilalbrother), страница 5
Описание файла
PDF-файл из архива "2006 Ответы на экзаменационные вопросы по ПОД (Lilalbrother)", который расположен в категории "". Всё это находится в предмете "суперкомпьютерное моделирование и технологии" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 5 страницы из PDF
Причины уменьшения быстродействия компьютера Hewlett-PackardSuperdomeВ заключение, как и в предыдущем параграфе, выделим те особенности вычислительныхсистем с общей памятью, которые снижают их производительность на реальныхпрограммах. Закон Амдала носит универсальный характер, поэтому он упоминается вместе со всеми параллельными системами.
Не являются исключением и компьютеры собщей памятью. Если в программе 20% всех операций должны выполняться строгопоследовательно, то ускорения больше 5 получить нельзя вне зависимости от числаиспользованных процессоров (влияние кэшпамяти сейчас не рассматривается). Этонужно учитывать и перед адаптацией старой последовательной программы к такойархитектуре, и в процессе проектирования нового параллельного кода.Для компьютеров с общей памятью дополнительно следует принять в расчет и такиесоображения. Наличие физической общей памяти стимулирует к использованию моделейпараллельных программ также с общей памятью.
Это вполне естественно и оправданно.Однако в этом случае возникают дополнительные участки последовательного кода,связанные с синхронизацией доступа к общим данным, например, критические секции.Относительно подобных конструкций в описании соответствующей технологии программирования может и не быть никакого предостережения, однако реально эти фрагментыбудут последовательными участками кода.Работа с памятью является очень тонким местом в системах данного класса. Одну изпричин снижения производительности — неоднородность доступа к памяти, мы ужеобсуждали.
Степень неоднородности на уровне 5—10% серьезных проблем не создаст.Однако разница во времени доступа к локальной и удаленной памяти в несколько разпотребует от пользователя очень аккуратного программирования. В этом случае емупридется решать вопросы, аналогичные распределению данных для систем сраспределенной памятью. Другую причину — конфликты при обращении к памяти —мы детально не разбирали, но она также характерна для многих SMP-систем.Наличие кэш-памяти у каждого процессора тоже привносит свои дополнительныеособенности. Наиболее существенная из них состоит в необходимости обеспечениясогласованности содержимого кэш-памяти. Отсюда появились и первые две буквы ваббревиатуре ccNUMA.
Чем реже вовлекается аппаратура в решение этой проблемы, темменьше накладных расходов сопровождает выполнение программы. По этой же причинево многих системах с общей памятью существует режим выполнения параллельнойпрограммы с привязкой процессов к процессорам.Сбалансированность вычислительной нагрузки также характерна для параллельныхсистем, как и закон Амдала. В случае систем с общей памятью ситуация упрощается тем,что практически всегда системы являются однородными.
Они содержат одинаковыепроцессоры, поэтому о сложной стратегии распределения работы речь, как правило, неидет.Любой современный процессор имеет сложную архитектуру, объединяющую и несколькоуровней памяти, и множество функциональных устройств. Реальнаяпроизводительность отдельного процессора может отличаться от его же пиковой вдесятки раз. Чем выше степень использования возможностей каждого процессора, темвыше общая производительность вычислительной системы.БИЛЕТ 13. Общая структура компьютера CRAY T3E: вычислительные узлы ипроцессорные элементы.Компьютер CRAY T3D - это массивно-параллельный компьютер с распределеннойпамятью, объединяющий от 32 до 2048 процессоров.
Распределенность памяти означаетто, что каждый процессор имеет непосредственный доступ только к своей локальнойпамяти, а доступ к данным, расположенным в памяти других процессоров, выполняетсядругими, более сложными способами.CRAY T3D подключается к хост-компьютеру (главному или ведущему), роль которого, вчастности, может исполнять CRAY Y-MP C90. Вся предварительная обработка иподготовка программ, выполняемых на CRAY T3D, проходит на хосте (например,компиляция). Связь хост-машины и T3D идет через высокоскоростной канал передачиданных с производительностью 200 Mбайт/с.Массивно-параллельный компьютер CRAY T3D работает на тактовой частоте 150MHz иимеет в своем составе три основные компоненты: сеть межпроцессорного взаимодействия(или по-другому коммуникационную сеть), вычислительные узлы и узлы ввода/вывода.Вычислительный узел состоит из двух процессорных элементов (ПЭ), сетевогоинтерфейса, контроллера блочных передач.
Оба процессорных элемента, входящие всостав вычислительного узла, идентичны и могут работать независимо друг от друга.Процессорный элемент. Каждый ПЭ содержит микропроцессор, локальную память инекоторые вспомогательные схемы.Микропроцессор - это 64-х разрядный RISC (Reduced Instruction Set Computer) процессорALPHA фирмы DEC, работающий на тактовой частоте 150 MHz. Микропроцессор имеетвнутреннюю кэш-память команд и кэш-память данных.Объем локальной памяти ПЭ - 8 Mслов. Локальная память каждого процессорногоэлемента является частью физически распределенной, но логически разделяемой (илиобщей), памяти всего компьютера.
В самом деле, память физически распределена, так каккаждый ПЭ содержит свою локальную память. В тоже время, память разделяется всемиПЭ, так как каждый ПЭ может обращаться к памяти любого другого ПЭ, не прерывая егоработы.Обращение к памяти другого ПЭ лишь в 6 раз медленнее, чем обращение к своейсобственной локальной памяти.Сетевой интерфейс формирует передачи перед посылкой через коммуникационную сетьдругим вычислительным узлам или узлам ввода/вывода, а также принимает приходящиесообщения и распределяет их между двумя процессорными элементами узла.Контроллер блочных передач - это контроллер асинхронного прямого доступа в память,который помогает перераспределять данные, расположенные в локальной памяти разныхПЭ компьютера CRAY T3D, без прерывания работы самих ПЭ.БИЛЕТ 14. Общая структура компьютера CRAY T3E: коммуникационная сеть.Коммуникационная сетьКоммуникационная сеть обеспечиваетпередачу информации междувычислительными узлами и узламиввода/вывода с максимальной скоростью в140M байт/с.
Сеть образует трехмернуюрешетку, соединяя сетевые маршрутизаторыузлов в направлениях X, Y, Z. Каждаяэлементарная связь между двумя узлами - этодва однонаправленных канала передачиданных, что допускает одновременный обменданными в противоположных направлениях.Топология сети, чередованиевычислительных узловКоммуникационная сеть компьютераCRAY T3D организована в видедвунаправленного трехмерного тора, чтоимеет свои преимущества перед другимиспособами организации связи:быстрая связь граничных узлов и небольшое среднее число перемещений по тору привзаимодействии разных ПЭ: максимальное расстояние в сети для конфигурации из 128 ПЭравно 6, а для 2048 ПЭ равно 12;возможность выбора другого маршрута для обхода поврежденных связей.Все узлы в коммуникационной сети в размерностях X и Z расположены с чередованием,что позволяет минимизировать длину максимального физического соединениямежду ПЭ.Маршрутизация в сети и сетевые маршрутизаторы.При выборе маршрута для обмена данными между двумя узлами сетевые маршрутизаторывсегда сначала выполняют смещение по размерности X, затем по Y, а в конце по Z.
Так каксмещение может быть как положительным, так и отрицательным, то этот механизмпомогает минимизировать число перемещений по сети и обойти поврежденные связи.Сетевые маршрутизаторы каждого вычислительного узла определяют путь перемещениякаждого пакета и могут осуществлять параллельный транзит данных по каждому из трехизмерений X, Y, Z.Нумерация вычислительных узлов.Каждому ПЭ в системе присвоен уникальный физический номер, определяющий егофизическое расположение, который и используется непосредственно аппаратурой.Не обязательно все физические ПЭ принимают участие в формировании логическойконфигурации компьютера. Например, 512-процессорная конфигурация компьютераCRAY T3D реально содержит 520 физических ПЭ, 8 из которых находятся в резерве.Каждому физическому ПЭ присваиваится логический номер, определяющий егорасположение в логической конфигурации компьютера, которая уже и образуеттрехмерный тор.Каждой программе пользователя из трехмерной решетки вычислительных узловвыделяется отдельный раздел, имеющий форму прямоугольного параллелепипеда, накотором работает только данная программа (не считая компонент ОС).
Дляпоследовательной нумерации ПЭ, выделенных пользователю, вводится виртуальнаянумерация.БИЛЕТ 15. Общая структура компьютера CRAY T3E: аппаратная поддержкасинхронизации параллельных процессов.Для поддержки синхронизации процессорных элементов предусмотрена аппаратнаяреализация одного из наиболее «тяжелых» видов синхронизации – барьеровсинхронизации. Барьер – это точка в программе, при достижении которой каждыйпроцессор должен ждать до тех пор, пока остальные также не дойдут до барьера, и лишьпосле этого момента все процессы могут продолжать работу дальше.В схемах поддержки каждого ПЭпредусмотрены два 8-ми разрядныхрегистра, причем каждый разряд регистровсоединен со своей независимой цепьюреализации барьера (всего 16 независимыхцепей). Каждая цепь строится на основесхем AND и ДУБЛИРОВАНИЕ (1-2). Добарьера соответствующие разряды на всехПЭ обнуляются, а как только процесс на ПЭдоходит до барьера, то записывает в свойразряд единицу.