Диссертация (Разработка СВЧ устройств с использованием методов геометрической оптики), страница 6
Описание файла
Файл "Диссертация" внутри архива находится в папке "Разработка СВЧ устройств с использованием методов геометрической оптики". PDF-файл из архива "Разработка СВЧ устройств с использованием методов геометрической оптики", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 6 страницы из PDF
Баланспараметров может сыграть важную роль в дальнейшем, поэтомуNVIDIA рекомендует использовать блоки со 128 или 256 потоками.50Блок из 512 потоков неэффективен, поскольку обладает повышенными задержками [31].3.4 ОсобенностипрограммированияприиспользованииCUDA.Основные параметры. Ключевое слово _global_ (ставится перед функцией) показывает, что функция относится к kernel (ядру).Ее будет вызывать центральный процессор, а вся работа произойдетна GPU. Вызов _global_ требует более конкретных деталей, а именноразмер сетки, размер блока и какое ядро будет применено.
Например, строчка _global_ void saxpy_parallel<<<X,Y>>>, где X – размерсетки, а Y – размер блока, задает эти параметры.Символ _device_ означает, что функцию вызовет графическоеядро, оно же выполнит все инструкции. Эта функция располагаетсяв памяти мультипроцессора, следовательно, получить ее адрес невозможно. Префикс _host_ означает, что вызов и обработка пройдуттолько при участии CPU. Надо учитывать, что _global_ и _device_ немогут вызывать друг друга и не могут вызывать самих себя.Также язык для CUDA имеет ряд функций для работы с видеопамятью: cudafree (освобождение памяти между GDDR и RAM),cudamemcpy и cudamemcpy2D (копирование памяти между GDDR иRAM) и cudamalloc (выделение памяти).Все программные коды проходят компиляцию со стороныCUDA API (рис. 3.4).
Сначала берется код, предназначенный исключительно для центрального процессора, и подвергается стандартнойкомпиляции, а другой код, предназначенный для графического адаптера, переписывается в промежуточный язык PTX (напоминает ас-51семблер) для выявления возможных ошибок. После этого происходит окончательный перевод (трансляция) команд в понятный дляГПУ/ЦПУ язык.Рис. 3.4 Процесс компиляции с помощью CUDA3.5 Основные параметры программы Tamic RT-H Analyzer.Программа Planar Rt-H analyzer оптимизирована под системукоманд процессора Pentium-II и выше. В программе Planar Rt-Hanalyzer расход памяти составляет четыре вещественных числа наодин узел сетки.
Количество арифметических операций в один временной такт для одного узла сетки составляет: четыре сложения, дваумножения и одно вычитание вещественных чисел. Теоретическиданный алгоритм требует 25 процессорных тактов для одного узласетки, однако, реально получается почти в два раза больше, что обусловлено более низкой рабочей частотой шины данных и кэш памя-52ти. Например, если тактовая частота процессора составляет 433МГц, то частота шины данных (по которой идёт обмен данных между оперативной памятью и процессором) составляет 100 МГц, а частота работы кэш памяти второго уровня (основной объём кэш памяти) – 217 МГц.Таблица 3.1. Требования программ Planar Rt-H analyzer float и doubleк памяти и скорости вычислений для задач большой размерности.ДляПрограммаодногоэлементарногообъёма100 100300 300500 500 / 20 / 20 / 203.6 10 узлов74 106узлов6 10 тактов108узлов4требуется2 104 тактовБаТактовПамятьПамятьПамятьйтпроцессо-ВремяВремяВремя105 тактовраPlanarRt-H1648Analyzer (float)61Mb46минут549Mb1’52621час95Mbчасов(Pent.IV-1.4)(Pent.IV-1.4)(Pent.IV-1.4)122Mb1’098-----Analyzer (dou-1.2часаble)(Pent.IV-1.4)PlanarRt-H327834Mbчаса(Pent.IV-1.4)Программа Planar Rt-H analyzer реализована в двух моделях:1)одинарная точность – вещественные числа занимают 4 байта (мантисса имеет 7 цифр, порядок от –38 до +38); 2) двойная точность –вещественные числа занимают 8 байт (мантисса имеет 15 цифр, порядок от –308 до +308).
Основные параметры: 16 байт памяти наузел сетки, 48 тактов процессора на узел при одинарной точности;32 байт на узел и 78 тактов процессора на узел при двойной точно-53сти анализа. Как видно из таблицы 3.1, программа Planar Rt-Hanalyzer с одинарной точностью позволяет на персональном компьютере с оперативной памятью 2Гб анализировать геометрию состоящую из 100 млн. узлов с неоднородным диэлектрическим заполнением. Время выполнения задачи дано для компьютера с тактовой частотой 1.4 ГГц для 7 проходов вдоль исследуемой геометрии плоской волной.3.6 Модернизация вычислительного ядра для параллельныхвычислений.Модернизации подверглось вычислительное ядро, так как оноявляется самым критическим местом программы.
В вычислительном5ядре располагаются матрицы больших порядков (> 10 ). Как уже говорилось, в современных ЦПУ всего 4 ядра, а в ГПУ их может бытьбольше 128 (в зависимости от конфигурации видеокарты). Былонаписано два варианта программы для вычислительного ядра, таккак у видеокарт есть медленная и быстрая память. Текст программприведен в приложении Г.Для задачи, матрица которой имеет размерность 256 256, решаемой на компьютере с ЦПУ QuadCore Intel Core i7 940, 2966 MHz(22 x 135) и ГПУ GeForce 9800 GTX/9800 GTX+ ускорение при использовании быстрой памяти ГПУ достигает 20 раз по сравнению сЦПУ. Графики зависимостей времени выполнения задачи покомпонентного умножения и сложения от объема матрициы (МБайт, рангматрицы точность вычисления) для одинарной точности [31, 32]приведены на рис.
3.2, 3.3. На рисунке 3.4 приведен график получаемого ускорения при использовании ГПУ.54Покомпонентное умножение матрицЗатраченное время влогарифмическом масштабе(по основанию 10), мсек654ЦПУГПУ3210020406080100120Размер матрицы, МБайтРис. 3.5. График зависимости времени выполнения операциипокомпонентного умножения массивов чисел одинарной точности сплавающейточкойна ЦПУи ГПУ.ПокомпонентноесложениематрицЗатраченное время влогарифмическом масштабе(по основанию 10), мсек654ЦПУГПУ3210020406080100120Размер матрицы, МБайтРис. 3.6. График зависимости времени выполнения операции покомпонентного сложения массивов чисел одинарной точности с плавающей точкой на ЦПУ и ГПУ.55Ускорение вычислений ГПУ относительно ЦПУКоэффициент ускорения, вразах3028262422СложениеУмножение201816141210020406080100120Размер матрицы, МБайтРис.
3.7. График отношения времени выполнения операций покомпонентного сложения и умножения массивов чисел одинарной точности с плавающей точкой на ГПУ относительно ЦПУ.Как видно из рис. 3.5 время выполнения операции умноженияна ГПУ выше, чем на ЦПУ. Подобный результат виден и нарис. 3.6для операции сложения чисел с плавающей точкой. Для более наглядной характеристики ускорения на графике рис.
3.7 приведено отношение в разах времени выполнения на ЦПУ к времени выполнения на ГПУ для операций сложения и умножения чисел с плавающей точкой. Как видно ускорение для умножения нескольковыше для сложения для матриц размера менее 40 МБайт. При размерах более 60 МБайт одинаково для операций сложения и умножения.3.7 Выводы.Существенное ускорение вычислений получается только в томслучае, когда для задачи возможно написать алгоритм, при которомпроизводится одна операция над множеством данных.
Эффективнораспараллеливаются матричные, векторные операции и задачи обра-56ботки изображения. Поскольку в них, как уже говорилось, преобладает количество операций намного меньше, чем данных. Параллельные вычисления средствами видеокарты – являются наиболее эффективным (с точки зрения соотношения: увеличение быстродействия к стоимости) инструментом.При использовании видеокарты GeForce 9800 GTX/9800 GTX+может быть достигнуто ускорение до 25 раз для программы TamicRT-H Analyzer и предложенной вычислительной процедуры построения траектории лучей в неоднородной диэлектрической среде. Чтодаст существенный эффект, позволив сократить время расчетов снескольких месяцев до нескольких дней.574 Электродинамическое моделирование трансформациитипов волн в Н-плоскостном волноводном переходе.Для осуществления перехода в мультиплексоре от трехмернойзадачи к двумерной задаче необходимо обеспечить условие распространения в системе преимущественно основного типа волны - H10.Для нахождения такого условия было проведено моделированиеволноводного перехода.Задача перехода с одного сечения волновода на другое(рис.
4.1) достаточно часто встречается и при проектировании трактов СВЧ. При проектировании волноводного перехода необходиморазрешить противоречие между двумя параметрами - обеспечитьтребуемый уровень затухания волн высшего типа и минимизироватьдлину перехода [33] .Рис. 4.1. Прямоугольный волноводный переход.584.1 Постановка задачи.Необходимо провести электродинамическое моделированиеволноводного перехода, представленного на рис. 4.2. Этот переходпредставляет собой прямоугольный волновод с сечением a1×b, где a1= 2 мм, b = 1 мм, длиной L1 = 20 мм, у которого на длине L2 линейноизменяется высота волновода до размера a2 = 23 мм, затем переходящий в прямоугольный волновод длиной L3 = 20 мм.