396-1 (607624), страница 9
Текст из файла (страница 9)
SCU (Storage Control Unit) — контроллер управляющих и адресных линий шины памяти, а также периферийной шины.
Связь между ICU, FXU и SCU обеспечивала скоростная внутрипроцессорная шина, ширина канала данных шины памяти составляла 256 бит (если точнее, то по 64 бита данных и 8 бит для ЕСС на каждый DCU). Контроллер оперативной памяти был интегрирован в ЦП. Ширина связующего канала между четырьмя DCU и I-box составляла 128 бит, Е-box — 64 бита, F-box — 256 бит. I-box, E-box и F-box содержали по два конвейера. Объем I-cache с двухканальной ассоциативностью составлял 32 Кбайт, а трехпортового D-cache с четырех-канальной ассоциативностью и обратной записью — 256 Кбайт (по 64 Кбайт в каждом DCU). D-cache позволял одновременно выполнять до двух операций со стороны ФУ (чтение или запись) и одну операцию со стороны оперативной памяти. DCU работали на утроенной частоте ЦП. ICU производил выборку восьми команд за такт из I-cache и размещал их в очереди FXU и FPU (емкостью по восемь команд каждая), кроме тех команд, которые обрабатывал сам. FXU содержал два синхронизирующихся файла целочисленных регистров, по одному на каждый конвейер, с четырьмя портами чтения и четырьмя портами записи у каждого. Файлы состояли из 32 регистров по 32 бит. Целочисленные конвейеры были неоднородны — только один из них мог выполнять команды умножения и деления, но оба выполняли функции адресных.
Блок TLB команд с двухканальной ассоциативностью содержал 128 записей, a TLB данных — 512 (ассоциативность также двухканальная). FPU поддерживал технику переименования регистров, а поэтому в его файле их было предусмотрено 54 (вместо 32, согласно спецификации на архитектуру) 64-бит регистра. Связь с периферийными устройствами обеспечивал блок SCU, для этого использовалась 10-МГц шина MCA (Micro-Channel Architecture). В итоге изготавливаемый по 720-нм проектным нормам ЦП состоял из 23,04 млн. транзисторов и имел суммарную площадь 1217 мм2. Первые модификации работали на тактовой частоте от 55 до 71 МГц. Количество контактов на корпусе ЦП побило все существующие рекорды — 3181.
В 1996 г. инженеры IBM модифицировали POWER2. Так как к тому времени был доступен пятислойный 290-им техпроцесс, гораздо более совершенный по сравнению с четырехслойным 450-нм, использовавшимся поначалу, то появилась возможность реализовать все блоки в одной микросхеме — это позволяло увеличить максимальную тактовую частоту. Этот ЦП получил наименование P2SC (POWER2 Single Chip). Из изменений в функциональной части можно отметить вдвое уменьшенные размеры D-cache и TLB данных (очевидно, вынужденный шаг, ведь возможности нового техпроцесса были отнюдь не безграничны). Так как ЦП был выпущен на рынок с тактовой частотой 135 МГц, то частоту шины памяти пришлось зафиксировать на 1/2 частоты ЦП. Количество транзисторов составило 15 млн., из них 9,3 млн. приходилось на I-cache и D-cache. Площадь ядра 335 мм2, т. е. значительно меньше, чем оригинального POWER2, а количество контактов сократилось до 1088. P2SC использовался при постройке суперкомпьютера IBM SP2, содержащего до 512 ЦП и до 1 Тбайт оперативной памяти.
Так как ядро POWER2 не смогло достичь тактовой частоты выше 160 МГц, то при разработке POWER3 за основу было взято ядро массового PowerPC 620. Существенных изменений в него не вносилось, так как производительность PowerPC 620 была достаточно высокой. В ядро добавили по одному вещественному и адресному конвейеру, увеличили количество регистров переименования и очередей команд. ЦП мог работать с обоими наборами команд — PowerPC и POWER, a целочисленная и адресная логика была расширена до 64-бит. Кроме того, как и PowerPC 620, этот ЦП допускал внеочередное выполнение команд.
ЦП располагал восемью конвейерами: тремя целочисленными (двумя простыми и одним комплексным), двумя вещественными, двумя адресными и одним для логики переходов. Было предусмотрено два синхронизируемых файла целочисленных регистров (по 48 записей), а также файл вещественных регистров на 56 записей. Объем I-cache со 128-канальной ассоциативностью составлял 32 Кбайт, a D-cache со 128-канальной ассоциативностью и обратной записью — 64 Кбайт. TLB команд и данных хранили по 128 записей, также присутствовала таблица истории переходов на 2048 записей и кэш адресов переходов на 256 записей. B-cache, работающий на тактовой частоте 200 МГц, подключался через выделенный 256-бит канал данных. Ширина системной шины составила 128 бит, а тактовая частота — 100 МГц. ЦП изготавливался по гибридному технологическому процессу с 250-нм транзисторами и 350-нм слоями металлизации и содержал 15 млн. транзисторов (площадь составляла 270 мм2). Первые ЦП работали на частоте 200 МГц, но с переходом на 180-нм техпроцесс SO1 с медными проводниками она была существенно повышена.
Первые новости о POWER4 разошлись по миру с Microprocessor Forum, который проходил в октябре 1999 г. Вслед за объявлением о, скором выходе Merced, сделанным Intel, компания IBM намекнула о явном нежелании переходить на архитектуру VLIW в обозримом будущем и анонсировала свой двухъядерный POWER4. По сути, этот ЦП представлял собой два модифицированных ядра POWER3, универсальный коммутатор, 1,44 Мбайт восьмиканального многопортового S-cache с обратной записью и вспомогательные устройства, собранные на одной кремниевой подложке. Объем I-cache с двухканальной ассоциативностью составил 64 Кбайт, а
D-cache с четырехканальной ассоциативностью и обратной записью — 32 Кбайт. D-cache был трехпортовым и позволял выполнить одновременно две операции чтения и одну — записи. Объем B-cache с восьмиканальной ассоциативностью и обратной записью мог достигать 32 Мбайт, а его теги хранились непосредственно на подложке ЦП (для гораздо более быстрого доступа). По четыре таких ЦП объединялись в один процессорный модуль. Оба ядра разделяли между собой целую серию шин:
две 128-бит однонаправленные к B-cache и далее к оперативной памяти (работавшие на l/3 тактовой частоты ЦП),
шесть 128-бит однонаправленных для связи с двумя соседними ЦП в пределах своего процессорного модуля (работавшие на 1/2 тактовой частоты ЦП),
две 64-бит однонаправленные для связи с ЦП в соседних модулях,
две 32-бит однонаправленные для связи с периферийными контроллерами.
В пределах модуля процессоры соединялись между собой по кольцевой топологии, причем размещались на пластине модуля под углом в 90° друг к другу.
Таким образом, в одном процессорном модуле содержалось четыре ЦП (восемь ядер), а также четыре микросхемы B-cache. Непосредственно могло быть связано четыре процессорных модуля, вместе составлявших основу системы с 16 двухъядерными ЦП. Выпущенный в 2001 г. ЦП изготавливался по 180-нм технологии SOI с медными проводниками, состоял из 174 млн. транзисторов и работал на тактовой частоте в 1 ГГц, а позже были представлены и более скоростные версии. Энергопотребление одного процессорного модуля превышало 1 кВт. Впоследствии был выпущен POWER4+ — модификация процессора, изготовленная по 130-нм проектным нормам SOI (восьмислойный), содержавшая уже 184 млн. транзисторов при площади ядра ЦП в 267 мм2 и работавшая на тактовой частоте до 1,9 ГГц.
В октябре 2003 г. на Microprocessor Forum был представлен POWER5, доработанный вариант POWER4. Наиболее важным отличием была внутриядерная многопоточность, которая моделировала два логических ядра из одного физического методами, несколько напоминающими Intel Hyper-Threading. Объем S-cache был увеличен до 1,92 Мбайт, а его ассоциативность — до десяти каналов. Был существенно модифицирован и внутри-процессорный коммутатор, благодаря чему все внутри-модульные шины стали работать на полной частоте ЦП, а междумодульные — на 1/2 частоты ЦП. Встроенный контроллер памяти стал совместим не только с DDR SDRAM, но и с DDR2 SDRAM.
POWER5 изготавливался по тому же техпроцессу, что и POWER4+, содержал 276 млн. транзисторов при общей площади ядра ЦП 389 мм2 и работал на тактовой частоте до 1,9 ГГц. Как и POWER4 с POWER4+ в свое время, POWER5 стал процессором с самым большим количеством контактов — 5370.
Подводя итоги, хотелось бы заметить, что у IBM есть действительно отличный серверный и суперкомпьютерный ЦП, пригодный для широкого круга задач. Сожаление может вызывать лишь нежелание компании IBM поставлять его независимым сборщикам и интеграторам, ограничившись продвижением массового PowerPC 970.
Заключение
В начале 1990-х гг. рынок оказался фактически поделен между компьютерной техникой на основе ЦП х86-архитектуры и производительными, но дорогими рабочими станциями на различных RISC-архитектурах. По результатам продаж за 1992-й г. рынок рабочих станций выглядел так:
РА-RISC — 31%;
SPARC — 25%;
MIPS — 20%;
POWER — 12%;
остальные — 12%.
С ростом популярности и производительности решений на основе архитектуры Intel x86 параллельно со снижением их цены сложилась ситуация, в которой доля рынка рабочих станций на основе «настоящих» RISC-архитектур сократилась до нерентабельного минимума, что привело к окончательному смещению приоритетов разработчиков этих архитектур в сторону серверов и суперкомпьютеров. Как видим, многие из этих RISC-архитектур уже остановились в своем развитии и их исчезновение — вопрос времени. Прекратилась разработка DEC Alpha и HP PA-RISC, будущее MIPS на рынке серверов и рабочих станций весьма сомнительно, IBM POWER (если не принимать во внимание PowerPC) позиционируется почти исключительно на рынок дорогих высокопроизводительных серверов, a Sun SPARC явно переживает не лучшие времена. Пожалуй, наилучшие перспективы у Itanium 2, разрабатываемого совместно Intel и HP.
Совсем недавно Sun приоткрыла завесу тайны над проектами процессоров нового поколения с кодовыми наименованиями Niagara и Rock.
Процессор Niagara и системы на его основе должны быть представлены в конце 2005 или начале 2006 г. На практике он выглядит так: 90-нм технология, восемь полноценных самостоятельных ядер на кристалле, каждое ядро способно исполнять до четырех вычислительных потоков одновременно. Итак, в одном кристалле пользователям доступно 32 «виртуальных» процессора. Высокая степень интеграции позволила разместить на кристалле контроллер памяти DDR2 и четыре контроллера Gigabit Ethernet. По предварительным данным, первые образцы будут функционировать на частоте 1,2 ГГц при тепловыделении на уровне примерно 50 Вт. В дальнейшем предполагается значительно поднять тактового частоту процессора. Проект Niagara — принципиально однопроцессорное решение. В значительной степени это связано с желанием Sun отработать на этом этапе заложенные в основу Niagara принципы организации многопоточности, не отвлекая усилия на организацию еще и межпроцессорных взаимодействий. В следующем поколении, известном под условным именем Niagara 2, предполагается реализовать необходимые для построения SMP-систем компоненты. Niagara в некотором роде специализированный процессор — он разрабатывался с учетом результатов исследований об особенностях работы многопоточных приложений и наилучшим образом подходит для построения серверных систем, ориентированных на предоставление сетевых услуг. Отметим, что, по информации, предоставленной Sun, процессор Niagara будет ориентирован на использование в массовых системах нижнего ценового уровня, цена которых будет сравнима или даже ниже аналогичных по функциональности систем, построенных на базе платформы х86.
Микропроцессор Rock, появление которого намечено на 2008 г., представляет собой дальнейшее развитие идей, реализованных в проекте Niagara, однако в этой реализации «центр тяжести» перенесен на построение серверных систем, занятых интенсивной обработкой данных, для чего в архитектуру внесены соответствующие изменения.
Список литературы
Журнал Upgrade4_08_05