15 1 моя версия (Ответы на все вопросы по теме электроника или типа того)
Описание файла
Файл "15 1 моя версия" внутри архива находится в папке "15". Документ из архива "Ответы на все вопросы по теме электроника или типа того", который расположен в категории "". Всё это находится в предмете "окончание университета" из 12 семестр (4 семестр магистратуры), которые можно найти в файловом архиве МАИ. Не смотря на прямую связь этого архива с МАИ, его также можно найти и в других разделах. Архив можно найти в разделе "к экзамену/зачёту", в предмете "окончание университета" в общих файлах.
Онлайн просмотр документа "15 1 моя версия"
Текст из документа "15 1 моя версия"
15. Многоядерная микропроцессорная архитектура на примере Intel Core: структура; реализуемые функции; коммуникационный процессорный модуль; контроллеры коммуникационных каналов (от 30.11.2010 + 14.12.2010).
Рассмотрим вопросы производительности и энергопотребления.
Perf=F×Instr
Производительность = Тактовая частота × Количество инструкций, выполняемых ЦПУ (CPU) за один такт.
Следовательно, существует два пути для увеличения производительности:
1. Наращивание тактовых частот
2. Увеличение тактовых инструкций, выполняемых за один такт.
Второй параметр определяется внутренним строением и зависит от количества функциональных узлов (декодеров инструкций и исполнительных блоков).
Есть еще метод повышения производительности – уменьшение числа процессов, необходимых для обработки одних и тех же объёмов данных.
SIMD, SSE, SSE2, SSE3 – позволяют эффективно выполнять векторные операции.
Power = F×U2×Cdynamic
Энергопотребление = Тактовая частота × Напряжение, при котором функционирует процессорное ядро × Динамическая емкость, определяемая микроархитектурой CPU и зависящая от активности работы процессора.
Следовательно, для оптимизации архитектур, с точки зрения соотношения производительности и энергопотребления надо устанавливать баланс между количеством инструкций за 1 такт и динамической емкостью.
Напряжение питания ядра мало зависит от архитектуры и определяется технологическим процессом.
Микроархитектура Core основана на повышении производительности и снижении энергопотребления.
Кэш L1 – 64 кБайта (по 32 кБ для входа и данных)
Кэщ L2 – общая 2 и 4 Мб
Особенности: позволяет создавать процессор с различными характеристиками для различных сегментов рынка: для мобильного рынка, серверов, настольных систем.
Основные усовершенствования:
1) Intel Wide Dynamic Execution (динамическое исполнение)
В микроархитектуре P6 под динамическим исполнением команд понималось:
1. Выполнение анализа потока кода
2. Возможность спекулятивного (упреждающего) и внеочередного исполнения команд.
В микроархитектуре Core речь идёт о широком динамическом исполнении, то есть CPU выполняет больше операций за один такт, до 4-х инструкций одновременно, благодаря добавления в каждое ядро дополнительного декодера и исполнительных устройств.
На 4-ре декодера (один для сложных инструкций и 3 для простых) микроархитектура Core предлагает наличие 6 портов запуска.
1 – Load 2 – Store 3 – Универсальные
До Core использовалась технология micro-ops fusion: в случае, если команда распадается на зависимые друг от друга микроинструкции, декодер осуществляет привязку друг к другу. Такие последовательности микроинструкций, склеенных технологией micro-ops fusion, представляются процессором на всех этапах, кроме собственного исполнения одной командой.
Микроархитектура Core в дополнение к технологии micro-ops fusion, которая направлена на увеличение числа исполняемых за один такт команд и заключается в том, что рядом пары связанных между собой последовательных инструкций представляется внутри CPU одной микроинструкцией. Такая микроинструкция рассматривается планировщиком и выполняется как одна команда.
Очередь инструкций:
inc ecx | |||||
store [mem3], ebx | зп | ||||
jne targ | усл. перек. | ||||
cmp eax, [mem2] | сравн. | ||||
load eax, [mem1] | чт. | ||||
dec0 | dec1 | dec2 | dec3 | ||
↓ | ↓ | ↓ | ↓→ | → inc ecx | |
↓ | ↓ | ↓→ | → | → store [mem3], ebx | |
↓ | ↓→ | → | → | → cmp jne eax, [mem2], targ | |
↓→ | → | → | → | → load eax, [mem1] |
Усовершенствование:
2) Intel Advanced Digital Media Boost (улучшенная работа с цифровым медиа содержимым)
Переработка блоков исполнения SIMD инструкций (SSE, SSE2, SSE3).
До Core CPU исполнял одну SSE инструкцию, работающую со 128 битным операндами за два такта. 1 такт - 64 ст.; 2 такт – 64 младших 64 бит.
Core позволяет ускорить работу с SSE инструкциями в 2 раза. Блоки SSE 128-ми битные, следовательно, обработка за один такт.
127 | 0 | ||||||
op1 | x4 | x3 | x2 | x1 | |||
│ | │ | │ | │ | ||||
op2 | y4 | y3 | y2 | y1 | |||
Core | x4 | x3 | x2 | x1 | |||
op | op | op | op | 1 такт | |||
y4 | y3 | y2 | y1 | ||||
Предыд. | x2 | x1 | |||||
op | op | 1 такт | |||||
y2 | y1 | ||||||
x4 | x3 | ||||||
op | op | 2 такт | |||||
y4 | y3 |
3) Intel Advanced Smart Cache (улучшенный умный кэш)
1. Традиционный процессор:
Ядро CPU | ||||
регистры | ||||
│ | │ | |||
L1 | L1 | |||
│ | │ | |||
кэш L2 | ||||
│ | │ | |||
память | в/в |
2. Простая многоядерная архитектура:
Ядро 1 | Ядро N | ||||||||||||||
P2 | P2 | ||||||||||||||
│ | │ | │ | │ | ||||||||||||
L1 | L1 | L1 | L1 | ||||||||||||
│ | │ | │ | │ | ||||||||||||
кэш L2 | кэш L2 | ||||||||||||||
│ | │ | ||||||||||||||
└ | ──══┼════ | ┘ | |||||||||||||
│ | │ | ||||||||||||||
память | в/в |
3. Многоядерная архитектура с общим кэшем:
Ядро 1 | Ядро N | ||||||||||||||
P2 | P2 | ||||||||||||||
│ | │ | │ | │ | ||||||||||||
L1 | L1 | L1 | L1 | ||||||||||||
│ | │ | │ | │ | ||||||||||||
└──── | кэш L2 | ───┘ | |||||||||||||
│ | │ | ||||||||||||||
память | в/в |
4. Многопотоковая многоядерная архитектура с общим кэшем:
P2 | │ | P2 | P2 | │ | P2 | |||||||
P2 | │ | P2 | P2 | │ | P2 | |||||||
│ | │ | │ | │ | |||||||||
L1 | L1 | L1 | L1 | |||||||||
│ | │ | │ | │ | |||||||||
кэш L2 | ||||||||||||
│ | │ | |||||||||||
память | в/в |
У CPU появляется возможность регулировать размеры областей кэш для каждого ядра. Доступ ко всему объёму кэш L2 получить может любое из ядер CPU, то есть когда одно из ядер бездействует, второе получает весь объём кэш. Если одновременно работают два ядра, то кэш делится между ними пропорционально, в зависимости от частоты обращений к ОП. Если оба ядра работают синхронно с одними и теме же данными, то хранятся они в общем кэше однократно. Возможно, динамически отключать второе ядро, в зависимости от нагрузки на CPU. Ещё один плюс технологии: снижение нагрузки на ОП и процессорную шину.
В системах типа 2 с раздельными кэш L2, если оба ядра работают с одними и теми же данными, эти данные дублируются в кэш каждого ядра, следовательно нужен контроль. Перед тем, как извлечь данные из кэш, каждое ядро должно проверить, не изменило ли эти данные другое ядро. Если да, то требуется обновление кэш через системную шину и ОП. Общий кэш позволяет отказаться от такого алгоритма.
4) Intel Smart Memory Access (“умный” доступ к памяти)