Chapter_15 (1110567), страница 2
Текст из файла (страница 2)
15.1 показанасхема взаимодействия центрального процессора и оперативной памяти с использованием кэша.Как уже говорилось, память типа кэш строится из очень быстрых и, следовательно, дорогих интегральных схем, поэтому из экономических соображений её объём сравнительно невелик, примерно5% от объёма оперативной памяти. Однако, несмотря на свой относительно малый объём, кэш вызывает значительное увеличение скорости работы ЭВМ, так как по статистике примерно 90-95% всехобращений из центрального процессора за командами и данными производится именно в память типакэш.На старых персональных ЭВМ для изучения влияния памяти типа кэш на производительностькомпьютера можно было произвести такой эксперимент.
Сначала замеряется усреднённая производительность ЭВМ с помощью какой-нибудь предназначенной для этого программы (например, про1Скорее всего, так же устроена память и у человека. Действительно, было бы удивительно, если бы у того,что мы помним, были бы ещё какие-то адреса.3граммой SysInfo из пакета Norton Utilities). После этого при перезагрузке машины память типа кэшотключается в настройках BIOS'a, и снова замеряется производительность компьютера, которая приэтом снижается примерно на порядок. Главное, после этого эксперимента не забыть обратно включить на своём компьютере память типа кэш ☺.1ОперативнаяпамятьПамять типа кэшЦентральныйпроцессорРис.
15.1. Схема обмена с использованием памятитипа кэш.В качестве примера рассмотрим одну из простейших реализаций памяти типа кэш, так называемый кэш прямого отображения (смысл этого названия вскоре будет ясен из алгоритма его работы).Пусть размер оперативной памяти ЭВМ составляет 1 Мбайт (220 байт), и выберем объём кэш памятиравным 1/32 от объёма оперативной памяти, это 32 Кбайта (215 байт), что составляет около 3% отобъёма оперативной памяти. Далее, разобьём всю оперативную память на участки размером по 32Кбайта, будем называть такие участки страницами, как видим, в нашем случае размер страницысовпадает с размером самого кэша.
Каждую страницу, как находящуюся в оперативной памяти, так истраницу кэша, в свою очередь, будем рассматривать как состоящую из строк длиной по 16 байт.Таким образом, имеемВся память 220 = 25 страниц х 211 строк х 24 байт.Тогда 20-разрядный физический адрес любого байта оперативной памяти тоже можно разбить натри поля: адрес (номер) страницы (5 бит), адрес строки в странице (11 бит) и адрес байта в строке (4бита):1915№ страницы144№ строки30№ байтаТеперь каждую строку в кэш памяти (это 16 байт или 128 бит) снабдим шестью дополнительными битами, пять из которых будут хранить номер некоторой страницы оперативной памяти, а вшестом бите будет содержаться признак изменения строки в кэш памяти (0 – в строку кэш памяти небыло записи, 1 – была запись).
Объём этой дополнительной (служебной) памяти составляет всегооколо 6% (6 бит/16 байт), что незначительно увеличивает общий объём кэша.Алгоритм работы центрального процессора при наличии такой кэш памяти будет заключаться вследующем. Сначала из физического адреса байта, по которому необходимо обратиться в оперативную память, выделяется номер строки (разряды с 4 по 14), и проверяется строка в кэш памяти с этимже номером. Если номер страницы, приписанный данной строке в кэше, совпадает с номером тойстраницы, к которой мы хотим обратиться, то нужный нам байт уже находится именно в этой строкекэша, и обращаться в оперативную память не надо.
В противном случае строку с данным номером вкэш памяти необходимо сменить на строку с этим же номером из нужной нам страницы оперативнойпамяти. Разумеется, при такой замене сначала проверяется бит-признак изменения этой строки в кэшпамяти, если строка менялась, то её, конечно, надо записать на своё место в оперативной памяти.Таким образом, получается, что, если некоторая строка оперативной памяти присутствует в кэше,то она находится в нём на том же месте, что и в своей странице оперативной памяти. Именно поэтомутак организованный кэш и называется кэшем прямого отображения (строк из страниц оперативнойпамяти на строки кэш памяти).
Заметим, что если нужного нам байта в кэше не оказалось (как говорится, случился промах кэша), то из оперативной памяти считывается в кэш сразу вся строка (161К сожалению, на компьютерах новых моделей возможность отключать кэш из BIOS'a обычно не предусмотрена, как совершенно бесполезная в практической работе пользователя. Кэш память теперь можно отключить только с помощью особых привилегированных команд.4байт), это занимает всего два обращения к оперативной памяти при её восьмикратном расслоении (идва дополнительных обращения, если в строку была запись).Описанный выше кэш прямого отображения быстро работает и его просто реализовать, но онимеет и существенный недостаток.
Заметим, что, если попеременно обращаться к байтам с одинаковыми номерами в двух страницах оперативной памяти, то строки из этих страниц будут всё времясменять друг друга в кэш памяти, что, конечно, весьма негативно скажется на скорости выполненияпрограммы. Современные компьютеры снабжаются более сложно устроенной кэш памятью, в которой вероятность описанной выше неприятной ситуации значительно ниже.Для ещё большего увеличения скорости чтения и записи команд и данных центральным процессором можно включить в архитектуру не один, а два и даже три последовательно подключённых кэша. При этом самый внутренний (т.е. ближайший к центральному процессору) кэш называется кэшемпервого уровня, следующий – второго уровня, и т.д.Здесь, однако, необходимо уяснить для себя следующее. Успешное применение памяти типа кэш(как, впрочем, и изученного ранее расслоения памяти) базируется на свойстве локальности программ, это свойство уже упоминалось нами при изучении близких относительных переходов.
Свойство локальности заключается в том, что выполняемые команды и обрабатываемые данные программы не разбросаны по памяти в хаотическом беспорядке, а обнаруживают тенденцию группироватьсяв некоторые относительно небольшие области. Это, например, команды в теле циклов, данные внутри массивов, близко расположенные переменные в выражениях и т.д. Конечно, можно специальнонаписать программу, не обладающую свойством локальности, такая программа будет после каждойкоманды случайным образом переходить на выполнение следующей команды в любой части программы, а обрабатываемые данные также выбирать из областей памяти со случайными адресами. Таквот, Вам необходимо понять, что при выполнении такой "нелокальной" программы кэш будет бесполезен.1Вот теперь, на машине с памятью типа кэш, наша рассмотренная выше команда add ax,X будет чаще всего (при чтении из кэша) выполняться уже за время1нс (чтение команды) + 1нс (чтение числа X) + 1нс (выполнение команды) = 3нс.Заметим, что за одно обращение из памяти теперь читается не одна команда, а в среднем две-трипоследовательные команды программы, поэтому можно считать, что среднее время выполнения команды будет ещё меньше.
Как видим, ситуация коренным образом улучшилась, хотя всё равно получается, что сам центральный процессор работает только примерно 30% от времени выполнения команды, а остальное время ожидает поступления на свои регистры команд и данных. Для того чтобыисправить эту неприятную ситуацию, нам придётся снова существенно изменить архитектуру центрального процессора.15.1. Конвейерные ЭВМКак мы уже говорили, современные ЭВМ могут одновременно выполнять несколько команд. Дляэтого они должны либо иметь несколько центральных процессоров, либо центральный процессор такого компьютера строится по так называемой конвейерной (pipeline) архитектуре.2 Рассмотрим схему работы таких конвейерных ЭВМ.Выполнение каждой команды любым центральным процессором, как мы уже знаем, состоит нанескольких этапов или шагов.
Можно, например, выделить следующие основные шаги выполнениякоманды.1. Выбор команды из оперативной памяти (или кэша) на регистр команд.2. Определение кода операции (так называемое декодирование команды).3. Вычисление адресов операндов в памяти.1Замечание для программистов-математиков: объём сегментов команд и сегментов данных такой "нелокальной" программы должен существенно превышать размер памяти типа кэш (что, впрочем, обычно выполняется для большинства программ).2На персональных ЭВМ впервые конвейер реализован на процессоре Intel 486 в 1989 году, но на больших компьютерах это произошло раньше. Например, конвейер имела отечественная ЭВМ БЭСМ-6, выпускавшаяся в конце 60-х годов прошлого века, в то время она была одной из самых быстродействующих ЭВМ в мире.54. Выбор операндов из оперативной памяти (или кэша) на регистры арифметико-логического устройства.5.
Выполнение требуемой операции (сложение, умножение, сдвиг и т.д.) над операндами нарегистрах арифметико-логического устройства.6. Запись результата операции и выработка флагов.В конвейерных ЭВМ центральный процессор состоит из нескольких блоков, каждый из которыхвыполняет один из перечисленных выше шагов команды. Эти блоки стараются строить так, чтобывсе они выполняли свою работу по выполнению шага команды за одно и то же время. Теперь понятно, что такие блоки можно заставить работать параллельно, обеспечивая, таким образом, одновременное выполнение центральным процессором нескольких последовательных команд программы.На рис.
15.2 приведена схема работы центрального процессора конвейерной ЭВМ, направление движения команд на конвейере показано толстой стрелкой. Так как выполнение каждой команды мыразбили на шесть шагов, то одновременно на нашем конвейере может находиться до шести командпрограммы.1ВыборкомандыДекодированиеВыч-ниеадресовЧтениеоперандовВып-ниеоперацииЗаписьрезультатаКоманда i+5Команда i+4Команда i+3Команда i+2Команда i+1Команда iРис. 15.2. Схема работы конвейера.Из показанной схемы понятно, почему такие ЭВМ называются конвейерными.