Смагин М.С. Вычислительные машины, системы и сети (1088253), страница 29
Текст из файла (страница 29)
Средняя задержка составляет порядка 3 микросекунд.Спецификация предусматривает утолщённую древовидную (Fat Tree)топологию в качестве стандартной. Первая версия позволяла создавать «деревья» на 1024 узла, вторая версия позволяет объединять в одном «дереве»уже 4096 узлов.Сети связи Infiniband являются ещё одной популярной технологией,используемой для построения вычислительных систем. На сегодняшнийдень, пожалуй, самой популярной. В частности, именно она использоваласьпри построении компьютера IBM Roadrunner, который до недавнего временивозглавлял список TOP500.198Эта спецификация имеет много общего с PCI-Express.
В ней также передача выполняется последовательно и с использованием сетей «точкаточка». Таким образом базовыми топологиями для Infiniband ялвяются:«Звезда», «Дерево» и «Толстое дерево» Несколько последовательных каналов также могут быть объединены для увеличения пропускной способности.Единичный канал обеспечивает передачу данных со скоростью 2,5 гигабита в секунду в режиме SDR. Спецификация поддерживает также режимыпередачи DDR и QDR, которые позволяют передавать, соответственно, 5 и 10гигабит в секунду. Поскольку в Infiniband, как и в PCI-express, используетсясистема кодирования 8b/10b, при которой 8 бит полезной информации кодируются 10 битами в целях повышения достоверности передачи данных, ееполезная пропускная способность будет составлять, соответственно, 2, 4 и 8гигабит в секунду.Спецификация позволяет объединять в рамках единой магистрали передачи данных 1, 4 или 12 каналов, что даёт, соответственно, полезную пропускную способность 4, 16, 48 гигабит в секунду для DDR и 8, 32 и 96 гигабит в секунду для QDR.
Пиковая задержка составляет 1,2 микросекунды.Средние показатели колеблются в промежутке от 2 до 7 микросекунд.Характеристики различных технологий передачи данных в многомашинных системах сведены в приведённую ниже таблицу.SCI1,2Скорость передачисредняя(Гб/сек)0,667Myri-10G1,20,421010,9121,223Infiniband*1,20,81,22-710G Ethernet1,21610ТехнологияQsNetIIСкорость передачи пиковая(Гб/сек)Задержка пиковая(мкс)Задержка средняя(мкс)0,21,5-6* для единичного канала передачи данных, работающего в режиме QDR199Вычислительные системы смешанного типаКак мы уже неоднократно отмечали, развитие диаметрально противоположных технических философий, каждая из которых имеет свои достоинства и недостатки, приводит в итоге к интенсивному взаимному обменуидеями и появлению технических устройств, которые сочетают в себе признаки обеих типов.
Так произошло и с вычислительными системами.Комбинацией идей многомашинной и многопроцессорной обработкиявляются так называемые NUMA-системы. UMA, как мы уже говорили выше, расшифровывается, как Uniform Memory Access или единый доступ к памяти. NUMA расшифровывается, соответственно, как Non Uniform MemoryAccess, или «неоднородный доступ к памяти».Данные системы, также как многомашинные, состоят из функционально замкнутых вычислительных узлов, у каждого из которых имеется своя локальная память.
Но, при этом, локальная память всех узлов, входящих в систему, воспринимается каждым из них как единый общедоступный ресурс, также, как у многопроцессорных систем. Очевидно, что процессор или процессоры каждого из вычислительных узлов, входящих в систему, будут иметьразное время доступа к разным областям этого единого ресурса. Это времябудет зависеть от того, насколько физически сложен путь от этого процессора, до узла, на котором физически размещена память, соответствующая запрашиваемой области единого ресурса.Данные системы подразделяются на три подкласса:1.
COMA,2. CC-NUMA,3. NCC-NUMA.200Аббревиатура COMA расшифровывается как Cache Only Memory Architecture или «Архитектура только с кэш-памятью». Для данной архитектуры характерно, что каждый вычислительный узел рассматривает свою локальную память как кэш-буфер и не имеет прямого доступа к глобальной памяти.
То есть, физически, глобальная память отсутствует, но логически, длякаждого из узлов она существует, но недоступна для прямого управления. Вслучае, если данные, необходимые для вычислений, отсутствуют в кэшпамяти, вычислительный узел инициирует сообщение о промахе, после чегоожидает ответного сообщения о загрузке необходимых данных в кэш. Физически, данные записываются в локальную память тех вычислительных узлов,которым они в данный момент нужны.
При этом специальная система управления следит, чтобы в системе всегда существовал, по крайней мере, один экземпляр каждой единицы данных.Следующий вид смешанных вычислительных систем – CC-NUMA. Эторасшифровывается как Cache Coherent Non Uniform Memory Access илиNUMA-архитектура с механизмом обеспечения когерентности кэшей. В таких системах все вычислительные узлы имеют доступ к локальной памятидруг друга, а общий массив памяти всех узлов воспринимается как единыйресурс, к которому имеется прямой доступ.
Специальная система управленияследит за тем, чтобы каждый вычислительный узел имел возможность максимально быстрого доступа к данным, необходимым ему для вычислений.Если одни и те же данные обрабатываются несколькими узлами одновременно, система управления следит за целостностью данных в памяти этих узлов.Это очень важно в ситуации, когда данные, обрабатываемые одним узлом,одновременно изменяются по результатом вычислений в другом.Третий вид NUMA-систем – NCC-NUMA. В вычислительных системахэтого вида отсутствуют специальные механизмы обеспечения целостностиданных в локальной памяти вычислительных узлов. Поэтому их названиерасшифровывается как Non Cache Coherent NUMA или NUMA-системы безмеханизма обеспечения когерентности кэшей. Это не значит, что этот меха201низм в них отсутствует в принципе, просто решение этой задачи возложеноне на систему централизованного управления, а на сами вычислительные узлы, и, в первую очередь, на их программную часть.Особенности организации работы каждого вида NUMA-систем определяют их достоинства и недостатки.
COMA-системы обладают наивысшейпроизводительностью, но, при этом, сравнительно сложны и дороги, плохомасштабируются, а выход из строя системы управления выводит из строявсю вычислительную систему. NCC-NUMA системы наоборот – хорошомасштабируются, продолжают работать даже при выходе из строя части узлов, но зато значительная часть производительности вычислительной системы уходит на организацию её работы. CC-NUMA системы занимают промежуточное положение, сочетая достоинства и недостатки обоих видов.Долгое время многопроцессорные и многомашинные системы былиединичными продуктами, недоступными простым пользователям.
Сейчас же,при наличии относительно небольшой суммы денег, супер-ЭВМ может бытьпостроена дома. Двух- и даже четырёхпроцессорные материнские платы ленгко доступны в свободной продаже, а уж построить дома многомашиннуюсистему вообще не составит большого труда.Работа такой системы может быть построена на основе ОС Windows2003 или Windows 2008. Windows 2008 в версии Standart Edition поддерживает до 4 процессоров, Enterprise Edition – до 8, Data Center Edition – до 64.Windows 2003 Server поддерживает также создание многомашинных кластеров двух типов − с высоким коэффициентом готовности и со сбалансированной нагрузкой. Для кластеров с высоким коэффициентом готовности, допустимо объединение в рамках ЛВС или ГВС до 8 компьютеров.
Причём не менее 5 из них могут функционировать постоянно. Для кластеров со сбалансированной нагрузкой допустимо объединение до 32 машин.Оценка производительностивычислительных систем202Одной из наиболее важных проблем, которую всё время приходитсярешать в процессе развития вычислительных систем, является проблемаоценки их вычислительных возможностей и сравнения систем между собой.Возникла она следующим образом.Сложные вычислительные системы, будь то многопроцессорные, илимногомашинные, во все времена − дорогое удовольствие. Богатые организации, испытывающие постоянную потребность в сложных вычислениях, покупали их. Менее богатые организации, имеющие потребность в сложныхвычислениях лишь время от времени, арендовали их у таких владельцев.
Приэтом машины переходили в распоряжение арендаторов на отдельные периоды времени, длительность которых и определяла размер оплаты.Естественно что, и те, и другие, хотели тратить поменьше денег. Поэтому одни стремились либо получить систему, чья производительность точно соответствует их вычислительным потребностям, не переплачивая приэтом за избыточную мощность. А другие хотели платить ровно тот периодвремени, который потребуется вычислительной системе для решения их задач, и не оплачивать время, в течение которого она будет простаивать.Выполнение этих желаний оказалось невозможно без решения задачиоценки производительности вычислительных систем, − как находящихсялишь в проекте, так и уже существующих.Всего же выделяют три класса задач, для решения которых нужнаоценка производительности вычислительных систем:1.