Э. Таненбаум - Архитектура компьютера (1127755), страница 173
Текст из файла (страница 173)
раздел «Сопроцессорыь), за исключением того, что перед дальнейшим продвижением по 676 Глава 8. Параллельные компьютерные архитектуры линии связи пакеты целиком не сохраняются. Как только очерелной байт пакета прибывает на транзитный узел, он передается вдоль маршрута далее, не дожидаясь получения всего пакета. Допускается как динамическая (адаптивная), так и статическая (фиксированная) маршрутизация. Для реализации виртуальной сквозной маршрутизации на микросхеме имеются несколько специализированных устройств. В дополнение к основному трехмерному тору, обеспечивающему обмен данными, есть и другие коммуникационные сети.
Вторая сеть имеет древовидную структуру. В системах с высокой степенью параллелизма, таких как В!пеСепе/1-, для выполнения многих операций требуется участие всех узлов. В качестве примера рассмотрим задачу поиска наименьшего из 65 536 значений, каждое из которых хранится в отдельном узле.
Если все узлы связаны в древовидную структуру, каждые два узла могут отправить вышестоящему узлу свои значения, тот может выбрать из них меньшее и передать его выше. При таком подходе в корневой узел попадает лишь необходимый минимум информации (представьте, если бы каждый из 65 535 узлов непосредственно передал сообщение корневому узлу). Третья сеть используется для глобальных приостановок и прерываний.
Некоторые алгоритмы требуют поэтапного выполнении, когда каждый узел, закончив свой этап, не переходит к следующему, а ожидает, пока тот же этап закончат все остальные. Особая барьерная сеть позволяет программно задавать эти этапы и приостанавливать вычисления на всех процессорах, завершивших свой этап раньше остальных. Когда все процессоры завершают свой этап, вычисления продолжаются. Та же барьерная сеть используется для прерываний. Четвертая и пятая сети построены на основе технологии О1яаЬП ЕгЬегпек Одна из них соединяет узлы ввода-вывода с файловыми серверами, не входящими в систему В1пебепе/1., а также с Интернетом; другая используется для отладки системы.
На каждом вычислительном и коммуникационном узле работает специализированная малая операционная система, поддерживающая одного пользователя и один процесс. Процесс может иметь два программных потока, по одному на каждый процессор в узле. Эта простая структура была выбрана за ее высокую производительность и надежность. Для повышения надежности прикладная программа может создать точку сохранения, вызвав библиотечную процедуру. После того как в сети закончится передача всех еще не переданных сообщений, можно создать глобальную точку сохранения, чтобы при сбое системы задание можно было запустить с этой точки, а не с самого начала.
Узлы ввода-вывода работают под управлением традиционной ОС Ыппх и поддерживают многозадачность. Дополнительную информацию о В1пебепе/Е можно найти в 12, 7, 6, 261. аеб В~опп В качестве второго примера систем МРР рассмотрим разработанную в национальной лаборатории Яапб)а машину Кед 5гогш (также называемую ТЬог'з Ьапппег). Лаборатория Яап61а выполняет секретные и несекретные задания департамента энергетики США. Среди секретных работ можно назвать моделирование ядерных взрывов, требующее очень интенсивных вычислений. Мультикомпьютеры 677 Вапбба давно в этом бизнесе и многие годы обладает самыми мощными суперкомпьютерами. В течение десятилетий здесь отдавалось предпочтение векторным суперкомпьютером, но в определенный момент, благодаря развитию технологии и изменениям в экономике, на смену им стали приходить МРР-машины. Начиная с 2002 года, использовавшаяся тогда МРР-машина под названием АВС1 Кед, стала все сильнее «пробуксовывать».
Хотя в ней было 9460 узлов, вместе они предлагали лишь 1,2 Тбайт ОЗУ и 13,5 Тбайт дискового пространства, к тому же система в целом с трудом поддерживала производительность 3 терафлоп/с. Поэтому в 2002 году в Вапс11а решили заменить АВС1 Кед, выбрав в качестве долгосрочного поставщика суперкомпьютеров компанию Сгау КезеагсЬ. Новая система была поставлена в августе 2004 года, что очень быстро для разработки и реализации столь большой машины. Причина такой оперативности состоит в том, что мультикомпьютер Кео Ягогш построен почти исключительно из обычных имеющихся в продаже компонентов. Исключение составляет только специализированная микросхема, используемая для маршрутизации.
Для Кед 3гогш был выбран процессор Орсегоп производства компании АМП. Этот выбор обусловили несколько его ключевых характеристик. Первая — поддержание трех режимов работы. В унаследованном режиме на этом процессоре без всякой модификации можно выполнять обычные программы, рассчитанные на Репгшш. В режиме совместимости операционная система работает как 64-разрядная и может адресовать до 2ы байт памяти, в то время как прикладные программы являются 32-разрядными. Наконец, в 64-разрядном режиме машина целиком становится 64-разрядной и может адресовать все 64-разрядное адресное пространство. Причем в 64-разрядном режиме одновременно могут работать и 32-разрядные, и 64-разрядные программы, что упрощает обновление системы.
Еще одной ключевой характеристикой Оргегоп является тщательная проработка вопросов пропускной способности памяти. В последние годы процессоры становились все быстрее и быстрее, заметно опережая в этой гонке память. В результате, в случае кэш-промаха в кэше второго уровня время обращения к памяти значительно возрастает. Инженеры АМП установили в процессор Оргегоп контроллер памяти, работающий на частоте процессора, а не на частоте шины памяти, что повышает производительность памяти.
Контроллер может работать с восемью модулями Р1ММ по 4 Гбайт каждый, что дает максимальный объем памяти в 32 Гбайт. В системе Кед Ягогш для каждого процессора Оргегоп устанавливается 2 — 4 Гбайт, но нет сомнений, что со временем, по мере удешевления памяти, это значение будет увеличено. Другая возможность повышения производительности системы — замена процессоров Ортегов двухъядерными моделями, что теоретически должно удвоить вычислительную мощность.
Каждому процессору Орсегоп выделяется собственный специализированный сетевой процессор под названием 3еаз~аг производства 1ВМ. Это критически важный элемент системы, так как практически весь обмен информацией между процессорами происходит через сеть Яеазсаг. Без высокоскоростной коммуникационной сети, функционирование которой поддерживают эти микросхемы, система быстро бы «утонула» в данных. Хотя процессоры Ортегов — это обычные процессоры, имеющиеся в продаже, в Кес1 3гогш они устанавливаются в собственные специализированные платы 678 Глава 8. Параллельные компьютерные архитектуры (рис. 8.34). На каждой такой плате располагаются 4 процессора Оргегоп, оперативная память на 4 Гбайт, 4 процессора Яеазтаг, процессор КАЯ (Ке)1аЬ11йу, Ача)1аЬ)йьу апб Яегч1се — надежность, работоспособность и удобство эксплуатации), микросхема ЕгЬегпет на 100 Мбит/с.
На 8 Ей Рис. 8.34. Размещение компонентов иво Зюпп Набор из восьми плат устанавливается в панель и вставляется в кассету. В каждой стойке есть 3 таких кассеты, что позволяет установить 96 процессоров Ортегов, а также необходимые источники питания и систему охлаждения, Вся система состоит из 108 стоек, что дает 10 368 процессоров с модулями памяти ЯВКАМ объемом 10 Тбайт. Каждый процессор имеет доступ только к своему модулю Я1)КАМ, общей памяти нет.
Теоретическая вычислительная мощность системы равна 41 терафлоп/с. Для взаимосвязи отдельных центральных процессоров Ортегоп служат специализированные маршрутизаторы Яеззгаг, по одному маршрутизатору на процессор. Они соединены друг с другом в трехмерный тор размером 27 х 16 х 24, в каждом узле которого находится один маршрутизатор.
У каждого маршрутизатора 7 двусторонних высокоскоростных (24 Гбит/с) линий связи. Шесть из них ведут к соседям: на север, восток, юг, запад, вверх и вниз, а еще одна соединяет маршрутизатор с процессором Ортегов. Время передачи между соседними узлами решетки составляет 2 мкс. Для прохождения всего набора вычислительных узлов требуется 5 мкс. Еще одна сеть построена на основе технологии ЕтЬегпес со скоростью 100 Мбит/с и служит для обслуживания и поддержки системы.