С.В. Герасимов, И.В. Машечкин, М.И. Петровский и др. Инструментальные средства разработки ПО в ОС UNIX, страница 7
Описание файла
PDF-файл из архива "С.В. Герасимов, И.В. Машечкин, М.И. Петровский и др. Инструментальные средства разработки ПО в ОС UNIX", который расположен в категории "". Всё это находится в предмете "операционные системы" из 3 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 7 страницы из PDF
Символом «:»обозначается «нормальный» замер. «@» соответствует подробномузамеру, описание которого находится в листинге ms_print подграфиком. По умолчанию каждый 10-й замер является подробным.Частота замеров регулируется с помощью опции --detailed-freq. Знак«#» соответствует замеру с пиковым расходованием памяти.Под таблицей отображаются характеристики каждого замера:порядковый номер, время, текущий расход памяти, полезный расходпамяти, дополнительная память (обычно выделяется объем памятибольше запрошенного за счет использования памяти под системнуюинформацию либо выравнивание), размер стека.
По детальнымзамерам также отображается вклад каждой функции в расходованиепамяти:Number of snapshots: 24Detailed snapshots: [9, 13 (peak), 23]-------------------------------------------------------------------------------ntime(B)total(B)useful-heap(B) extra-heap(B)stacks(B)-------------------------------------------------------------------------------00000011,0161,0161,00016022,0322,0322,00032033,0483,0483,00048044,0644,0644,00064055,0805,0805,00080066,0966,0966,00096077,1127,1127,000112088,1288,1288,000128099,1449,1449,000144098.43% (9,000B) (heap allocation functions) malloc/new/new[], --alloc-fns, etc.->98.43% (9,000B) 0x8048498: main (massif.c:16)-------------------------------------------------------------------------------ntime(B)total(B)useful-heap(B) extra-heap(B)stacks(B)-------------------------------------------------------------------------------1010,16010,16010,00016001114,16814,16814,00016801218,17618,17618,00017601318,17618,17618,000176099.03% (18,000B) (heap allocation functions) malloc/new/new[], --alloc-fns, etc.->55.02% (10,000B) 0x8048498: main (massif.c:16)|->22.01% (4,000B) 0x8048460: f (massif.c:5)| ->22.01% (4,000B) 0x80484AB: main (massif.c:19)|->22.01% (4,000B) 0x804846C: f (massif.c:6)->22.01% (4,000B) 0x80484AB: main (massif.c:19)-------------------------------------------------------------------------------ntime(B)total(B)useful-heap(B) extra-heap(B)stacks(B)-------------------------------------------------------------------------------1419,19217,16017,0001600401520,20816,14416,00014401621,22415,12815,00012801722,24014,11214,00011201823,25613,09613,0009601924,27212,08012,0008002025,28811,06411,0006402126,30410,04810,0004802227,3209,0329,0003202328,3368,0168,00016099.80% (8,000B) (heap allocation functions) malloc/new/new[], --alloc-fns, etc.->49.90% (4,000B) 0x8048460: f (massif.c:5)| ->49.90% (4,000B) 0x80484AB: main (massif.c:19)|->49.90% (4,000B) 0x804846C: f (massif.c:6)| ->49.90% (4,000B) 0x80484AB: main (massif.c:19)|->00.00% (0B) in 1+ places, all below ms_print's threshold (01.00%)В 13-м замере сообщается, что 18000 байт было выделено методамиmalloc, new и т.д., из них 10000 байт были запрошены в функцииmain в 16-й строке и еще 4000 байт были два раза запрошены в 5й и6й строках функцией f().Опция –stacks=yes включает режим профилирования размерастека (по умолчанию, выключен).Cachegrind Cachegrind – симулятор кэш-памяти и точек ветвления.Эффективность использования кэш-памяти процессором во многихслучаях оказывает существенное влияние на производительностьпрограммы.
При этом узкие места в использовании кэш-памятиобычно скрыты как за алгоритмами трансляции с языка высокогоуровня в ассемблер, так и за особенностями архитектурыпроцессора. Аналогичная ситуация обстоит с предсказанием точекветвления (англ., branch prediction) – механизмом, позволяющимповысить производительность программы за счет досрочногопредсказания и выполнения условных переходов в конвейернойархитектуре.В процессе симуляции работы кэш-памяти cachegrind собираетстатистику по числу промахов (англ., miss) и обращений (англ., ref)для следующих типов кэш-памяти:• I1 – кэш команд 1-го уровня• D1 – кэш данных 1-го уровня41• LL – кэш последнего уровня2Информация об алгоритмах симуляции кэш и предсказаниипереходов приведена в документации на сайте разработчика.Некоторые опции cachegrind:• --I1=<размер>,<ассоциативность>,<размер строки>Определяет размер, ассоциативность и размер строки I1 кэш• --D1=<размер>,<ассоциативность>,<размер строки>Определяет размер, ассоциативность и размер строки D1 кэш• --LL=<размер>,<ассоциативность>,<размер строки>Определяет размер, ассоциативность и размер строки LL кэш• --cache-sim=no|yes [по умолчанию: yes]Симуляция и сбор статистики по кэш.• --branch-sim=no|yes [по умолчанию: no]Симуляция и сбор статистики по точкам ветвления.Пример программы:#include <stdlib.h>#include <time.h>int main(){int i;int a[1000];double avg = 0.0;srand(time(NULL));for(i = 0; i < 1000; i++)a[i] = rand();for(i = 0; i < 1000; i++)avg += a[i];avg /= 1000;return 0;}2В современных процессорах используются двух- либо трехуровневая кэш-память.
В cachegrindсимулируется первый и последний уровень кэш, т.к. они оказывают наибольшее влияние напроизводительность.42Программа, скомпилированная в исполняемый модуль a.out,может быть проанализирована cachagrind с помощью следующейстроки запуска:valgrind --tool=cachegrind --branch-sim=yes ./a.outИнструмент сформирует следующую информацию:==2752== Cachegrind, a cache and branch-prediction profiler==2752== Copyright (C) 2002-2010, and GNU GPL'd, by NicholasNethercote et al.==2752== Using Valgrind-3.6.1 and LibVEX; rerun with -h for copyrightinfo==2752== Command: ./a.out==2752====2752====2752== Irefs:282,092==2752== I1 misses:412==2752== LLi misses:57==2752== I1 miss rate:0.14%==2752== LLi miss rate:0.02%==2752====2752== Drefs:136,029 (96,662 rd+ 39,367 wr)==2752== D1 misses:2,133 ( 1,685 rd+448 wr)==2752== LLd misses:1,838 ( 1,425 rd+413 wr)==2752== D1 miss rate:1.5% (1.7%+1.1% )==2752== LLd miss rate:1.3% (1.4%+1.0% )==2752====2752== LL refs:2,545 ( 2,097 rd+448 wr)==2752== LL misses:1,895 ( 1,482 rd+413 wr)==2752== LL miss rate:0.4% (0.3%+1.0% )==2752====2752== Branches:43,997 (40,660 cond + 3,337 ind)==2752== Mispredicts:3,032 ( 2,982 cond +50 ind)==2752== Mispred rate:6.8% (7.3%+1.4%)В файл cachegrind.out.<PID процесса> попадут значения счетчиковхарактеристик использовании кэш и предсказания точек ветвления:Ir, I1mr, ILmr, Dr, D1mr, DLmr, Dw, D1mw, DLmw, Bc, Bi,где «m» – означает «промах», «r»/«w» - чтение / записьсоответственно, Bc – условный переход, Bi – косвенный переход(переход по адресу, значение которого заранее неизвестно).Запуск инструмента аннотирования с помощью командыcg_annotate cachegrind.out.2752позволяет получить статистику с разбиением по функциям:Ir I1mr ILmrfile:functionDrD1mrDLmrDw D1mw DLmw43BcBcmBi Bim-------------------------------------------------------------------------------257,536 38234 86,500 1,683 1,423 33,227 400 376 38,580 2,923 3,329 44 ???:???17,03322 9,00911 4,0124636 2,0022200/usr/home/test/valgrind/cachegrind.c:main7,00000 1,00000 2,000000000 ???:randРежим построчного аннотирования позволяет оценитьэффективность использования кэш-памяти и предсказания точекветвления для строк исходных текстов и реализуется опцией –auto=yes:-- Auto-annotated source: /usr/home/test/valgrind/cachegrind.c-------------------------------------------------------------------------------Ir I1mr ILmrDr D1mr DLmrDw D1mw DLmwBc Bcm Bi Bim...........
.. #include <stdlib.h>........... .. #include <time.h>........... ............. .. int main()81110040000 00 {........... ..int i;........... ..int a[1000];20000010000 00double avg = 0.0;........... ..40000041100 00srand(time(NULL));3,00411 2,00100100 1,001 12 00for(i = 0; i <1000; i++)3,00000 1,00000 2,000453500 00a[i] = rand();...........
..3,00400 2,00100100 1,001 10 00for(i = 0; i <1000; i++)8,00000 4,00000 2,0000000 00avg += a[i];........... ..40021110000 00avg /= 1000;........... ..10000000000 00return 0;60040000000 00 }-------------------------------------------------------------------------------Ir I1mr ILmr Dr D1mr DLmr Dw D1mw DLmw Bc Bcm Bi Bim-------------------------------------------------------------------------------604 900 10109 51 00 percentage of events annotatedcg_annotate может быть использован для построчногоаннотирования и машинных команд. Для этого программа,написанная, например, на Си, должна быть предварительнотранслирована в ассемблер с помощью опции –S, после чегоскомпилирована в режиме отладки (–g). Результат аннотирования:-- Auto-annotated source: /usr/home/test/valgrind/cachegrind.s-------------------------------------------------------------------------------Ir I1mr ILmrDr D1mr DLmrDw D1mw DLmwBc Bcm Bi Bim......111......100......100......001......000......000......001......00044......000......000......000......000......000.file "cachegrind.c".text.p2align 4,,15.globl main.type main,@functionmain:leal 4(%esp), %ecxandl$-16, %esppushl-4(%ecx)1000001100000010000011000001100000010000001000001100000110000011000001100000110000011000000.......1,00000 1,0000001,00000000 1,0001,00000000 1,0004020(%ebp,%ebx,4)1,00000 1,000000.......1,00111 1,0010001,00100000010000011000000.......1,00000 1,0000001,00000 1,0000004020(%ebp,%eax,4), %eax1,00000000 1,0001,00000 1,0000001,0000000001,00000 1,0000001,0000000001,00000000 1,0001,00000 1,000000.......1,00100 1,00100020(%ebp)1,00100000010010001001110100000010000011000000100000010010001001000100100010000001001000...............rodata...................................(GNU) 4.2.1 20070719 [FreeBSD]"0000000100000.00450000000100000.00350000000000000.0000000000000000.0000000000000000.0000000000000000.000pushl%ebpmovl%esp, %ebppushl%ebxpushl%ecxsubl$4032,%espfldzfstpl-16(%ebp)movl$0, (%esp)calltimemovl%eax,(%esp)callsrandmovl $0, -20(%ebp)jmp.L2.L3:movl -20(%ebp),%ebxcall randmovl %eax,-0.0000.0000..000 1,0010000..00000.01200.000.0000.000.0000.00addl.L2:cmpljlemovljmp.L6:movlmovl0000000.00000000.00000000.00000000.00000000.00000000.0pushl%eaxfildl(%esp)leal 4(%esp), %espfldl-16(%ebp)faddp%st, %st(1)fstpl-16(%ebp)addl $1, -20(%ebp).L5:cmpl$999, -000000000000..0 1,0010000000000000000000000....1000000000000..000000000000..000000000000..jle.L6fldl-16(%ebp)fldl.LC1fdivrp %st, %st(1)fstpl-16(%ebp)movl$0, %eaxaddl$4032, %esppopl%ecxpopl%ebxpopl%ebpleal -4(%ecx), %espret.size main, .-main.section..........................align 8.LC1:.long.long.ident.....$1, -20(%ebp)$999,-20(%ebp).L3$0, -20(%ebp).L5-20(%ebp),%eax-01083129856"GCC:-------------------------------------------------------------------------------Ir I1mr ILmr Dr D1mr DLmr Dw D1mw DLmw Bc Bcm Bi Bim-------------------------------------------------------------------------------604 900 10109 51 00 percentage of events annotated45С точки зрения информативности, целесообразно запускатьcachegrind на программе, скомпилированной с отладочнойинформацией (опция –g), однако тонкую оптимизациюпроизводительности имеет смысл проводить на программе,скомпилированной в рабочей конфигурации с включеннойоптимизацией кода.
Чтобы преодолеть это противоречие существуетутилиты cg_merge и cg_diff, позволяющие объединять либонаходить различия между двумя версиями файла вывода cachegrind.Итоговый файл может быть передан в cg_annotate для анализа.Callgrind При разработке высоконагруженных приложений либореализации алгоритмов обработки больших массивов данных частовозникает необходимость в поиске функциональности, критическивлияющей на производительность программы. Узкие места могутбыть найдены с помощью замеров времени в коде программы.Другим способом является использование профилировщика вызововфункций. Инструмент callgrind строит дерево вызовов функцийпрограммы.
Для каждой функции рассчитывается суммарнаястоимость (англ., inclusive cost) и собственная стоимость (англ.,exclusive cost), выраженные в числе машинных инструкций. Еслифункция f вызывает функцию g, то число инструкций g войдут всуммарную стоимость f. Собственную стоимость f составятинструкции функции без учета инструкций по обращению к g.Таким образом, суммарная стоимость функции main составляет100% стоимости программы. Собственная стоимость функции – эточисло вызванных инструкций данной функции, за исключениеминструкций по обращению к другим функциям.Командная строка для запуска callgrind:valgrind –tool=callgrind имя-программы [аргументы]Инструментсоздаетвыходнойфайлсименемcallgrind.out.<PID процесса>, который может быть обработанутилитой callgrind_annotate с помощью командной строки:callgrind_annotate [опции] callgrind.out.<pid>46callgrind_annotate во многом аналочичен cg_annotate.