К. Касперски - Техника оптимизации программ, Эффективное использование памяти (1127752), страница 71

Файл №1127752 К. Касперски - Техника оптимизации программ, Эффективное использование памяти (К. Касперски - Техника оптимизации программ, Эффективное использование памяти) 71 страницаК. Касперски - Техника оптимизации программ, Эффективное использование памяти (1127752) страница 712019-05-112019-05-11СтудИзба

К. Касперски - Техника оптимизации программ, Эффективное использование памяти

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 71)

Предвыборка отнюдь нс является оригинальным изобретением АМР н в мире нсперсональных компьютеров она достаточно широко распространена. Поскольку непосредственное управление кэшем не может осушествляться без учета характеристик подсистемы памяти с одной стороны, и архитектуры процессора с другой, то оно всегда аппаратно-зависимо. В мире "больших" компьютеров, конфигурации которых более или менее предсказуемы, подстройка оптимизации программы под конкретное оборудование вЂ” явление вполне нормальное. Кэш Но вот РС вЂ” дело другое, Оптимальная стратегия предвыборки зависит и от типа оперативной памяти, времени доступа к ней, ее латентности, характеристик чипсета, разрялности и тактовой частоты системной шины, частоты и архитектуры ядра процессора, политики кэширования, длины кэшлинеек, разрядности и частоты внутренней шины, латентности кэш-памяти.

Многообразие конфигураций персональных компьютеров приводит к тому, что программная предвыборка создает проблем больше, чем их решает. Создатели процессора Р-4 сделали большой шаг вперед, реализовав механизм аииаратной иредвыборки, или, иначе говоря, вЂ” усоверигенствованную стратегию уирезкдаюи(его считывания. До сих пор кэш-контроллеры всех бытовых микропроцессоров приступали к загрузке кэш-линейки лишь после явного обрагцения к ней, а предвидеть: какая линейка будет запрошена следующей, они не могли вЂ” интеллектуальности не хватало! Репгшш-4 не только осуществляет упреждающую загрузку последующих 256 байт (двух кэш-линеек) в кэш второго уровня, но и отслеживает регулярные шаблоны обращения к данным, что позволяет предугадывать, к каким кэш-линейкам в будущем произойдет обращение.

Алгоритм предсказаний недокументирован, но, тем не менее, суть его (по крайней мере, в общих чертах) понять несложно. Пусть, например, процессор фиксирует ряд кэш-промахов при обращении к линейкам г4, И+3,?4ч-б, Я+9. Не нужно быть ясновидящим, чтобы с высокой степенью достоверности предположить, что следующей на очереди стоит )ч+!2 линейка.

Таким образом, Р-4 умеет распознавать арифметическую прогрессию и вычислять ее члены. Насчет же распознавания геометрической прогрессии в документации ничего не сказано, а проверить экспериментально вЂ” под рукой процессора нет. Определить шаг арифметической прогрессии по нескольким ее элементам вЂ” это не проблема! Вот выделить прогрессию из произвольной последовательности вЂ” куда сложнее. Справляется ли с этим процессор Р-4? Нет! Его разработчики честно признаются в документации, что лаодоив оп?у оне вггеат рег 4К раве ~?оад ог вгоге)", Следовательно, в пределах одной страницы доступ к данным, обрабатываемым в цикле, должен происходить по одному регулярному шаблону, в противном случае механизм предсказаний "ослепнет" и аппаратная предвыборка осуществляться не будет.

Если же такая необходимость все же возникает (а практически она всегда возникает), обрабатываемые данные следует разбить на несколько блоков (числом не более восьми) и расположить их в различных 4-килобайтовых регионах. ВосьмивЂ” потому, что процессор Р-4 умеет одновременно отслеживать не более восьми регулярных шаблонов (в терминологии разработчиков: лотоков данныхвЂ” дага вггеат). Причем, упреждающая загрузка осуществляется только в пределах одного 4-килобайтового блока памяти вЂ” при выходе за его пределы механизм предсказаний дезактивируется и отслеживание шаблона обращений Глава 3 начинается сначала. Таким образом, процессор вновь дожидается нескольких кэш-промахов, определяет шаг прогрессии и только после этого приступает к очередному сеансу предвыборки.

Вследствие этого ячейки памяти, читаемые с большим шагом (порядка 1 Кбайт), никогда не предвыбираются и потому обрабатываются крайне неэффективно. Следовательно, аппаратная предвыборка не так уж и прозрачна для программистов, как убеждает фирма 1пге1. Да, в отличие от программной, аппаратная предвыборка ускоряет работу даже ничего не знающих о ней приложений, но максимальная эффективность достигается лишь при соответствующей организации структуры обрабатываемых данных.

Причем, далеко не во всех случаях такое структурирование выполнимо! Поэтому, при всем могуществе аппаратной предвыборки программная предвыборка не сдает своих позиций и на прцессоре Р-4 по-прежнему остается эффективнейшим средством оптимизации приложений. Эффективность предвыборки в многозадачных системах Процессы, исполняющиеся в многозадачных системах, владеют кэшпамятью не единолично, а вынуждены делить ее между собой.

Снижает ли это эффективность предвыборки? Эффективность предвыборки в кэш первого уровня вЂ” однозначно нет. Промежуток времени между переключением задач вЂ” это целая вечность для процессора, соответствующая, по меньшей мере, миллионам тактов. В любом случае, независимо от того, будет ли вытеснено содержимое Е1-кэша или нет, вЂ” предвыборка позволяет конвейеризовать загрузку ланных из памяти, предотвращая тем самым возможное падение производительности. С Е2-кэшем ситуация не так однозначна. Если оптимизируемый алгоритм позволяет распараллелить загрузку данных с их обработкой, то состояние Е2- кэша вообще не играет никакой роли, поскольку быстродействие программы ограничивается именно скоростью вычислений, а не пропускной способностью подсисгемы памяти (подробнее см. разд.

7)лавирование дистанции пред- выборки" этой главы). Однако если время обработки данных меньше времени их загрузки из основной памяти, падения производительности никак не избежать. Прелвыборка, конечно, увеличит производительность программы и в этом случае, но вЂ” увы вЂ” не на много, максимум в два-три раза. С другой стороны, одновременное выполнение двух или более приложений, интенсивно обменивающихся с памятью, на рабочих станциях случается очень редко (для серверов, правда, это вЂ” норма жизни).

В большинстве случаев пользователь активно работает лишь с одним приложением, другие же находятся в фоне и довольствуются минимальным количеством памяти, а порой и вовсе "спят", не трогая Е2-кэш и практически не снижая эффективности предвыборки. зе! Кэш Практическое использование предвыборки Если вычислительный алгоритм позволяет с той или иной вероятностью предсказать адрес следующей обрабатываемой ячейки, то это хороший кандидат на оптимизацию, причем выигрыш от использования предвыборки будет тем значительнее, чем точнее определяется адрес следующей обрабатываемой ячейки. В первую очередь это относится к циклам с постоянным шагом, геометрическим преобразованиям в 2!3/3!3-графике, операциям сортировки, копирования и инициализация памяти, строковым операциям и т.

д. В меньшей степени поддается оптимизации обработка списков и "двоичных деревьев". Поскольку порядок размещения их элементов заранее не известен и определяется исключительно в процессе прохода по списку (дереву), гарантированно определить адрес следующего обрабатываемого элемента в общем случае невозможно, Однако достаточно часто его удается угпдать. Например, можно предположить, что начало очередного элемента находится непосредственно за концом текущего.

Если список (двоичное дерево) не очень сильно фрагментирован, процент попаданий значительно превосходит количество промахов и предвыборка дает положительный эффект. Рассмотрим следующий пример (листинг 3.19). ((вагапа зтвр зтгв ш саснв здкв зггв гоп(а=о(а<вьсск згзв/ат=зтьр згаЮ // Делаем некоторые вычиоления (какие вЂ” не важна) )и (о, ьм // считываем очередную ячейку Ьт=р[о]/ Если обрабатываемый блок отсутствует в кэше первого и второго уровней, а шаг цикла равен или превышает размер кэш-линейки, то каждое обращение к памяти будет вызывать значительную задержку вЂ” порядка !О вЂ” !2 тактов системной шины, требующихся на передачу запрашиваемых ячеек из медленной оперативной памяти в быстрый кэш.

На процессоре Р-П! 733 это составит более полусотни его тактов! В результате вЂ” время выполнения данного примера в большей степени зависит от быстродействия подсистемы памяти, и в меньшей вЂ” от тактовой частоты процессора. Однако поскольку адрес очередной обрабатываемой ячейки известен заранее, ланные можно загружать в кэш параллельно с выполнением вычисле- зег Глава 3 ний. Например, оптимизированный код под процессор Р-Ш в первом при- ближении будет выглядеть приблизительно так, как в листинге 3.20. №бегкпе ЕЕКР 51гК Ы СДСЯК ЫИК ШгК 1ог(а=01а<ВЬССК 512Е1ат=5ТЕР 512Е( // Даем команду на загрузку следухщей 32-байтовой строки // в Ы-кэш. Загрузка будет осуществляться параллельно // с выполнением функции Зп.

// Котла же соответствующая ячейка будет затребована, // она уже окажется в Ы-кеше, откуда процессор сможет // извлечь ее безо всяких задержек. р~екее~( ва(ремкткь Вккк(1 """"""" обратите внимание: в кэш // загружается ячейка, обрабатываемая не в текущей, а // следующей итерации цикла. Дело в том, что за время // выполнения функций Зп запрашиваемая кэш-линейка // просто не успевает загрузиться( О (подробнее см. разд. "планирование дистанции предвьборки" // этой главы) // Выполняем некоторые вычисления №п(с, Ы( // Считываем очередную ячейку // Во всех, кроме первой, итерациях цикла ячейка будет // гарантированно находиться в кэше первого уровня, // в результате время ее чтения сократится до 1 такта СРС Ь+=Р(С(1 На процессоре Р-1П 733/133/100 оптимизированный вариант выполняется быстрее на целых 66%, а на АМ(3 Аг(з!оп 1050/100/100 вЂ” на 60%, т.

е. предвыборка увеличивает производительность более чем в два раза! (рис. 3.39). И это при том, что в цикле выполняется лишь одно обращение к памяти за каждую итерацию. А чем больше происходит обращений к памяти вЂ” тем больший выигрыш дает оптимизация! Максимальный прирост производительности достигается в тех случаях, когда: П прелвыборка данных осуществляется в кэш-иерархию, соответствующую их назначению; П запрашиваемые данные загружаются в точности к моменту обращения; П осуществляется прелвыборка только тех данных, которым она действительно требуется (хотя ртететсв» вЂ” неблокируемая инструкция и достаточно интеллектуальная для того, чтобы не загружать данные, уже находящиеся в каше, ее обработка достается "не бесплатно" и лишние вызовы снижают производительность).

Характеристики

Тип файла

DJVU-файл

Размер

6,64 Mb

Материал

К. Касперски - Техника оптимизации программ, Эффективное использование памяти

Тип материала

Книга

Предмет

Суперкомпьютеры и параллельная обработка данных

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

k.-kasperski-tehnika-optimizacii-programm-jeffektivnoe-ispolzovanie-pamjati.rar

К. Касперски - Техника оптимизации программ, Эффективное использование памяти.djvu

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.