Э. Таненбаум - Архитектура компьютера (1127755), страница 153
Текст из файла (страница 153)
Связано зто с тем, что изображения обычно строятся в цветовой модели йСВ (Вед, Ьгееп, В)це — красный, зеленый, синий) с 8-разрядными значениями пнкселов красного, зеленого и синего цветов. При обработке (например, сжатии) изображения оно выражается тремя компонентами, по одному на каждый цвет (в пространстве )сСВ), или в логически эквивалентной форме (в пространстве т'1)'тг, которое мы обсудим далее). В любом случае, основной обьем вычислений проводится для прямоугольных матриц 8-разрядных целых чисел без знака. Для аффективной обработки таких матриц в Тг(Мейл предусмотрены многочисленные специализированные операции.
В качестве простого примера рассмотрим верхний левый угол матрицы 8-разрядных значений, сохраненной в памяти с прямым порядком следования байтов (рис. 8А, а). Блок 4 х 4 в этом углу содержит 16 8-разрядных значений от А до Р. Предположим, что в результате транспонирования изображения получилась матрица, изображенная на рис. 8А, б. Как достигается этот результат? Транспонирование можно провести за 12 операций, каждая из которых загружает байты в новые регистры, после которых должно быть выполнено еще 12 операций, помещающих эти байты по назначению (отметьте, что четыре диаго- 606 Глава 8.
Параллельные компьютерные архитектуры нальных байта при транспонировании не перемещаются). Проблема в том, что эта схема требует 24 длинных и длительных операций, обращающихся к памяти. 32-разрядный регистр й2 А В С О й2 йз йз й4 й4 йв М Й О Р йв а б в г Рис. 8.4. Матрица 8-разрядных элементов (а); транспонированная матрица (б); исходная матрица, перенесенная в четыре регистра (в); транспонированная матрица в четырех регистрах (г) Есть и другой способ.
Сначала выполняются четыре операции, каждая из которых загружает одно слово в четыре разных регистра — от К2 до К5 (как показано на рис. 8А, в). Затем с помощью операций маскирования и сдвига четыре получившихся слова объединяются, и формируется желаемый результат (рис. 8А, г). В конце слова сохраняются в памяти. Несмотря на значительное сокращение числа обращений к памяти (с 24 до 8), эффективность этого метода не высока из-за маскирования и сдвига — для извлечения и размещения всех байтов в нужных местах требуется слишком много операций. В ТпМет((а реализован более удачный метод. Во-первых, четыре слова размещаются в регистрах.
При этом результат формируется не маскированием и сдвигами, а специализированными операциями для извлечения и размещения байтов в регистрах. Таким образом, для транспонирования изображения достаточно восьми специальных мультимедийных операций и такого же числа обращений к памяти. Код начинается с двух операций загрузки в сегменты 4 и 5 для размещения слов в регистры К2 и КЗ, за которыми следуют аналогичные операции для загрузки в регистры К4 и К5.
Команды, в составе которых находятся эти операции, могут задействовать сегменты 1, 2 и 3 для любых других целей. После загрузки всех слов 8 специальных мультимедийных операций вместе с двумя операциями сохранения можно упаковать в две команды, формирующие выходные данные. В конечном счете, требуются всего 6 команд, причем 14 из 30 слотов остаются доступными для других операций, а значит, при решении поставленной задачи число слотов соответствует примерно трем командам. Другие мультимедийные операции столько же эффективны. Благодаря этим операциям, а также разделению команды на пять слотов, процессор Тг1Мег)(а оказывается высокоэффективным инструментом обработки мультимедийных данных. Внутрипроцессорная многопоточность Для всех современных конвейеризованных процессоров характерна одна и та же проблема — если при запросе к памяти слово не обнаруживается в кашах первого и второго уровней, на загрузку этого слова в кзш уходит длительное время, Внутрипроцессорный параллелизм 607 в течение которого конвейер простаивает.
Одна из методик решения этой проблемы называется внутрипроцессорной многопоточностью (оп-с)пр пшЫг)пеаг)1пй). Она позволяет процессору одновременно управлять несколькими программными потоками и тем самым маскировать простои. Вкратце принцип многопоточности можно изложить так: если программный поток 1 блокируется, процессор может обеспечить полную загрузку аппаратуры, запустив программный поток 2. Основополагающая идея проста, реализуется она разными способами, которые мы и рассмотрим. Первый из них, называемый мелкомодульной многопоточностью (Впе-йгашед пш)г)гЬгеаг))пй), применительно к процессору, способному вызывать одну команду за такт, иллюстрирует рис. 8.5.
На рнс. 8.5, а — в изображено три программных потока (А, В, С), соответствующих 12 машинным циклам. В ходе первого цикла поток А выполняет команду А1. Поскольку эта команда завершается за один цикл, при наступлении второго цикла запускается команда А2. Ее обращение в кэш первого уровня оказывается неудачным, поэтому до извлечения нужного слова из каша второго уровня проходит два цикла. Исполнение потока продолжается в цикле 5. Как показано на рисунке, потоки В и С также регулярно простаивают. В рамках такого решения вызов последующей команды до завершения предыдущей не осуществляется. Точнее, при наличии сложного счетчика обращений в некоторых случаях это допустимо, но такую возможность мы для простоты исключаем. в А1 А2 АЗ А4 А5 А6 А7 АВ г А1 В1 С1 А2 В2 С2 АЗ ВЗ СЗ А4 В4 С4 б В1 Вг ВЗ В4 Вб Вв В7 Вв Сб Сб С7 Св б А1 А2 В1 С1 С2 СЗ С4 АЗ А4 А5 в С1 С2 СЗ С4 Цикл « Цикл — ь- Рис. 6.5.
Три программных потока. Пустые квадраты означают простой е ожидании данных из памяти 1в — в); мелкомодульная многопоточность (г]; крупномодульная многопоточность (д) При мелкомодульной многопоточности простой маскируется путем исполнения потоков «по кругу», то есть в смежных циклах запускаются разные потоки (рис. 8.5, г). К моменту наступления никла 4 обращение к памяти, инициированное командой А1, завершается, поэтому даже если команде А2 нужен результат команды А1, она запускается.
В таком случае максимальная продолжительность простоя составляет два цикла, то есть при наличии трех программных потоков простаивающая операция все равно завершается вовремя. При простое в 4 цикла для беспрерывной работы понадобилось бы 4 программных потока, и т. д. Поскольку разные программные потоки никак друг с другом не связаны, каждому из них нужен свой набор регистров. Он должен быть указан для каждой вызываемой команды, и тогда аппаратное обеспечение будет знать, к какому набору регистров при необходимости нужно обращаться. Следовательно, максимальное число одновременно исполняемых программных потоков определяется в период разработки микросхемы.
608 Глава 8. Параллельные компьютерные архитектуры Обращениями к памяти причины простоя не ограничиваются. Иногда для исполнения следующей команды требуется результат предыдущей команды, который еще не вычислен. В других случаях команда вызвана быть не может, так как она следует за условным переходом, направление которого еще неизвестно.
Общее правило формулируется так: если в конвейере Й ступеней, но по кругу можно запустить, по меньшей мере, Й программных потоков, то в одном потоке в любой отдельно взятый момент не может выполняться более одной команды, поэтому конфликты между ними исключены. В такой ситуации процессор может работать на полной скорости, без простоя. Естественно, далеко не всегда число доступных потоков равно числу ступеней конвейера, поэтому некоторые разработчики предпочитают методику, называемую крупномодульной многопоточностью (соагзе-йга1пес1 пш)гйЬгеайп8), которую иллюстрирует рис.
8.5, д. В данном случае программный поток А продолжает выполняться последовательно, вплоть до простоя. При этом теряется один цикл. Далее происходит переключение на первую команду программного потока В (В1). Так как эта команда сразу переходит в состояние простоя, в цикле 6 выполняется уже команда С1. Так как каждый раз при простое команды теряется один цикл, по своей эффективности крупномодульная многопоточность, казалось бы, уступает мелкомодульной, однако у нее есть одно существенное преимущество — за счет меньшего числа программных потоков значительно сокращается расход ресурсов процессора.
При недостаточном количестве активных потоков эта методика оптимальна. Судя по нашему описанию, при крупномодулъной многопоточности просто выполняется переключение между потоками, однако это — не единственный предусматриваемый данной методикой вариант действий. Есть возможность немедленного переключения с команд, которые потенциально способны вызвать простой (например, загрузка, сохранение и переходы), без выяснения, действительно ли намечается простой.