К. Касперски - Техника оптимизации программ, Эффективное использование памяти (1127752), страница 62
Текст из файла (страница 62)
Руководство по оптимизации под Репбшп ММХ вЂ” Рсппип<-!! (Отде( <х«<тЬег 2428)б-003) содержало лишь следуюшую скудную информацию; "Тйе с(а(а сасйе соппйкск оГ е(8Ь( Ьап!<к !п(ег(гаге(( оп )Ьссг-Ьу(е Ьоипс(аг!ек. Оп Рев1ит ргосеккогк ичй ММХ (есйпо!о8у, йе с(а(а сасйе сап Ье ассеккес( сйти((апеоик(у)гот Ьой рсрек, ак (оп8 ак йе ге)егепсек аге (о дс)(егеп( сасйе Ьал(<к.
Оп (Ье Рб-)атс!у ргосеккогк, (Ье (1а(а сасйе сал Ье ассекке(! к1ви!(апеоик<у Ьу а !ос(8 тк(гисйоп ап(( а .к(оге тмгис((оп, ак 1оп8 а.к йе ге~егепсек аге (о ЙЯегеп( сасйе Ьап((к ГТ Ьой тк(гис(1олк ассекк йе кате с(а(а-сасйе вевогу Ьал!< Яел йе кесопд ге((иек( (<'-рсре) тик( ыай)ог йе))гк( ге((иек( (о сотр(есе. А Ьап(( соп!1Ы( оссигк шйеп Ьсук 2 (Ьгои8Ь 4 аге йе кате т йе пго рйугйса( а~Ыгеккек А Ьап(( сои)Г!с( спсигк а опе с!ос(( релайу оп (Iсе )г-р!ре слк(гисиоп ". ! "Кэш данных состоит из восьлш банков, чередующихся по чеспырехбаивовылс адреспм.
Кэш данных процессоров Репйит ММХ одновременно досвупен с обоих конвейеров при условии, что они обращаются к различным кэш-банкам. На процессорах семейство Рб (Реп(сит Рго, Репйит-11) кзш данных доступен и на чтение, и на затссь лри условтс, что обраи<ение происходит к различным кэшбанкалс. Если обе инструкции (речь идет о слариваелсых инструкциях — К. К.) обраи<аются к одному и тол(у же банку кэш-палсятщ следующей запрос Г<'-труба) будет вьтужден дожидаться завершения выполнения предыдущего. Конфликт банков происходит всякий рпз, когда биты со второго по четвертый в двух физических адресах совладают. Конфликт банков возлагает истрафную задержку в один такт, задерживающую выполнение инструкции, находящейся в ~'-трубе ".) В руководстве по оптимизации под процессор Р-Ш второй абзац загадочным образом исчезает.
Но это еше что — "1пте! Реп<!псп 4 Ргосеввог Орйшгеаеоп КеГегепсе Маппа! Р-4" о кэш-банках вооб<це не обмолвливается ни словом! Ничуть не "разговорчивее" оказывается и "АМР Аг)<|оп Ргосеввог х86 Соде Орбппхабоп Сп!пе", уделяюц<ее этому вопросу едва ли не дюжину слов: "Тле ((а(а сасйе алс( всигис(!оп сасйе аге Ьой (во-вау ке(-аккос!а(сге ап(1 64- КЬу(ек сп к!ж !( гк йгЫед т(о 8 Ьап!(к сгйеге еасй Ьапк !к 8 Ьу(ек и Ые". !"Кэш данных и кэш инспсрукций оба двухассоциативны и шяеют размер по б4 Кбайт каждый. Они поделены на 8 банков ишриной по 8 байт".) Понять последнее предложение может только тот, кто хорошо знаком с архитектурой расслоенной памяти и хотя бы в общих чертах представляет себе Кэш з!з как на аппаратном уровне устроен и работает кэш. К тому же возникает досадная терминологическая путаница: разновидностей кзш-банков насчитывается по меньшей мере две.
Ассоциативный кэш делится на независимые области, называемые банками, число которых и определяет его ассоциативность. На физическом уровне эти банки состоят из нескольких матриц статической памяти, так же именуемых банками. Расслоение памяти подробно разбиралось на страницах данной книги (см. разд. 5РКАМ (Юупсйгопоиз РКАМ) — синхроннпя РРАМ" глпвы 2) и внимательным читателям вряд-ли стоило большого труда догадаться какой именно "банк" составители руководства имели в виду. Да! Но насколько туго приходится тем, кто только начинает изучать программирование! А ведь когда-то фирма АМР славилась качеством совей документации.
Откроем, например, замечательное руководство "АМ0-К5 Ргосеввог Тееяп1са! Ке1егепсе МапваГ, которое я частенько перелистываю перед сном, поскольку это гораздо больше, чем просто руководство по безнадежно устаревшему процессору. Это — исчерпываюшее описание архитектуры, к которой вплоть до последнего времени не добавилось ничего революционно-нового.
Даже суперсовременный процессор Нашшег от АМР основан на тех же самых принципах и почти том же самом ядре. В частности, организация и назначение кэш-банков объясняются так: "ТЬе с!ага сасйе огегсотез !оад/згоге Ьогг!епесКз Ьу зиррогг!п8 едтийппеоиз ассеззез го лео йпез ш а вдп81е с!осй, 1(йе Ипез аге ш зерагаге Ьапlгз. Епся о)' йе )оиг сасЬе Ьпп!сз сопштз е!8Ь! Ьугез, ог опе (оиггЬ о(а 32-буге спсйе йпе.
ТЬеу пге гпгег!епгед оп а !оиг-Ьуге Ьоипдпгу. Опе !тггисгюп сап Ье пссетп8 Ьап!г 0 (Ьугез Π— 3 ппд 1б — 19), и'Ы!е апойег шзггисг!оп !з пссезз!п8 Ьаг!к 1, 2, ог 3 (Ьугез 4 — 7 ппд 20— 23, 8 — П ппд 24 — 27, ппд 12 — 15 ппд 28 — 31 гезресггие!у) ". ("Кэш данных преодолевпет зпторы чтения/зпписи путем поддержки возможности одновременной записи двух кэш-линеек за один такт при условии, что эти линейки расположены в различных банкпх.
Кпждый из четырех кэш-бпнков состоит из восьми байтов, или, другими словами говоря, одной четвертной длины 32-бпйтовой кэш-линейки. Они (банки) чередуются с 4-бпйтовым диапазоном. Одна инструкция может обращпться к бпнку 0 (байты 0 — 3 и 16 — 19), в то время кпк другпя инструкция люжет ппраллельно обрпщаться к блику 1, 2 или 3 (байты 4 — 7и 20 — 23, 8 — 11, и 24 — 27, и 12 — 15 и 28 — 31) пютветственно".) Вот теперь все более или менее ясно. Остается лишь вопрос: а для чего такие "изврагцения"? Ответ: реализация двухпортовой матрицы статической памяти обходится дорого, т.
к. требует для своего создания восьми СМО5- транзисторов вместо шести. Поэтому, конструкторы поступили проше: разбили статическую память на несколько независимых банков и "подцепили" к ней двухпортовый интерфейс. Таким образом, на 64-килобайтовом кэше экономится порядка миллиона транзисторов, правда временами такая экономия оборачивается дорогой ценой, — ведь двухпортовое ядро памяти спо- Глава 3 3!4 собно одновременно обрабатывать два любых запроса, а кэш с двухпортовым интерфейсом может распараллеливать только те запросы, которые направляются в различные банки.
Следовательно, для достижения наивысшей скорости обработки данных мы должны соблюдать ряд определенных предписаний и планировать поток данных с таким расчетом, чтобы не возникало паразитных задержек за счет попарного обращения к одним и тем же кэш-банкам. Итак, кэш-линейка не представляет собой изотропное целое, а состоит из четырех или восьми независимых 32-, 64- или 128-битовых банное (рис. 3.28). Их независимость выражается в том, что чтение/запись для каждого из банков может происходить параллельно в течение одного такта процессора. Степень параллелизма зависит от количества функциональных устройств, присоединенных к исполнительным конвейерам микропроцессора и количества портов самого кэша.
В частности, микропроцессоры Р-П могут выполнить одну запись и одно чтение двух различных банков за каждый такт. Рис. 3.28. Схема проецирования матриц кэш-памяти на кэш-линейки Таким образом, если у нас имеются две 32-битовых переменных, каждая из которых расположена в "своем" банке, операция присвоения одной перемен- Кзш ной другой может быть выполнена всего за один такт! Напротив.
если переменные пересекают границы банков, как это показано на рис. 3.29, то возникает задержка: процессор не может писать в тот банк, который в данный момент обрабатывает запрос на чтение. Величина задержки варьируется в зависимости от модели процессора, например, на Р-П составляет пять тактов. банк О банк 1 банк 2 банк 3 банк 4 банк 5 банк 6 банк 7 банк О банк 1 банк 2 банк 3 банк 4 банк 5 банк 6 банк 7 Рис. 3.29. Чтение/запись ячеек, расположенных в различных кэш-банках (т. е. в различных матрицах статической памяти), осуществляется за один такт.
В противном случае каждая переменная будет обрабатываться последовательно, что потребует вдвое бол~ше тактов Но вернемся "к нашим баранам" (оптимальной стратегии выравнивания данных). В свете новых воззрений, все данные (включая переменные размером в байт) лучше располагать по адресам, краптым по меньшей мере четырем, тем самым обеспечивая возможность их параллельной обработки, т.
к. каждая переменная будет "монопольно" владеть соответствуюшим ей банком. Правда, помимо собственно салтого выравнивания еше потребуется убедиться, что биты, "ответственные" за смешение данных в кэш-линейке, у параллельно обрабатываемых ячеек не равны, иначе они с неизбежностью попадут в одну и ту же матрицу статической памяти, хотя и будут находиться в различных линейках каша. Данное ограничение не распространяется на операцию чтения, следующую за записью. В этом случае записываемые данные направляются в буфер записи и к кэш-памяти происходит только одно обращение, да и то, лишь когда считываемых данных не окажется в буфере — подробнее см. рвзд.