Программирование на видеокартах GPGPU (1184391), страница 6
Текст из файла (страница 6)
Пример вполне рабочий, правда, использует заголовочный файл cutil_inline.h,находящийся в CUDA SDK (C:\Documents and Settings\All Users\ApplicationData\NVIDIA Corporation\NVIDIA GPU Computing SDK 4.1 — это обычное местоего установки, оно также указано в специальной переменной окружения NVSDKCOMPUTE_ROOT)в каталоге %NVSDKCOMPUTE_ROOT%\C\common\inc (для Visual Studio указывается как$(NVSDKCOMPUTE_ROOT)\C\common\inc).Кроме того, пример использует для подсчёта времени средства Windows, поэтому можетпонадобиться включение заголовочного файла windows.h.
Результаты, правда, получаютсядовольно странные...Библиотека cuBLAS — базовые функции линейной алгебрыЭта библиотека содержит основные векторные, векторно-матричные и матричные операции ииспользует выверенный временем фортрановский код, созданный ранее в рамках библиотекиBLAS. Данная реализация использует оборудование видеокарты.Для того, чтобы ею воспользоваться, приложение должно выделить память для векторов и матрицна GPU, заполнить их, затем вызывать последовательность необходимых функций cuBLAS, после22чего результаты надо извлечь с GPU на CPU.
Кроме того, предполагается создание (а в конце —разрушение) специального контекста cuBLAS.В библиотеке имеются функции как бы трёх уровней: уровень 1 — работающие только свекторами (скалярное произведение, нормы, AXPY: y[i] = a*x[i]+y[i]), уровень 2 —работающие с векторами и матрицами (умножение вектора на матрицу общего вида GEMV,решение треугольной системы TRSV), уровень 3 — работающие только с матрицами (умножениематриц GEMM, ...).Поскольку библиотека основана на старом фортрановском коде, в ней используется хранениематриц по столбцам (а не по строкам, как в языке C), а также индексирование не с нуля, а сединицы. Поддерживаются четыре типа величин в векторах и матрицах: float, double,complex, double complex (условно обозначаются буквами S, D, C, Z). Именуются функциипо схеме:cublas<буква типа данных><тип матриц (2 буквы)><операция>.Например, функция умножения матриц общего вида, содержащих float-величины, называетсяcublasSgemm (имя составлено из cublas+S+ge+mm).
Возможные типы матриц:gegbsyspsbhehphbtrtptbобычная матрицаленточная матрицасимметричная матрицасимметричная упакованная матрицасимметричная ленточная упакованная матрицаэрмитова матрицаэрмитова упакованная матрицаэрмитова ленточная матрицатреугольная матрицатреугольная упакованная матрицатреугольная ленточная матрицаВ примере cublas1Test.cpp мы видим создание контекста (cublasInit()), выделениепамяти на графической карте (cublasAlloc()), копирование информации туда(cublasSetMatrix()), вызовы функций cuBLAS (cublasSscal() в рамках вспомогательнойфункции modify()), извлечение результата (cublasGetMatrix()), освобождение памяти накарте(cublasFree())иокончательноезавершениеработысбиблиотекой(cublasShutdown()).Для доступа к содержимому матриц, хранимых в "фортрановском" виде, уже нельзя применятьоперации, принятые в языке C для двумерных массивов (т.е., ИмяМатрицы[Индекс][Индекс]),используется индексация одномерного массива, учитывающая расположение элементов постолбцам, с помощью макроопределения:#define IDX2F(i,j,ld) ((((j)-1)*(ld))+((i)-1))Здесь ld — это число строк в матрице (т.н.
leading dimension). Формируется индекс положенияэлемента в памяти, имитирующий двумерное обращение к "фортрановской" матрице. j —номер столбца (начинается с единицы), i — номер строки (тоже начинается с единицы).23Доступ к содержимому матриц, объявленных в C-программе, может быть получен с помощьюмакроопределения:#define IDX2C(i,j,ld) (((i)*(ld))+(j))Здесь ld — число столбцов этой матрицы (leading dimension), i, j — номера строки и столбца;оба начинают отсчитываться с нуля.Пример matrix_product_c_view.cu (см. приложение) демонстрирует новую возможностьработы с библиотекой (обратите внимание на использование другого заголовочного файла:cublas_v2.h вместо cublas.h). В этом случае при инициализации cuBLAS создаётсядескриптор (используется вызов cublasCreate(&handle)), поскольку далее этот дескрипторнеобходим при вызове функций библиотеки (в данном случае — cublasSgemm(); ейпередаются указатели на память видеокарты (память GPU), полученные с помощьюthrust::device_vector и thrust::raw_pointer_cast()), а результат (вектор F)прямо из памяти карты выдаётся в стандартный вывод как содержимое матрицы языка C.Завершается всё прекращением работы с контекстом при помощи вызова функцииcublasDestroy(handle).Библиотека cuSPARSE — разреженные матрицыЭта библиотека предназначена для работы с разреженными матрицами, где число ненулевыхэлементов мало.
Используемые форматы хранения разреженных матриц: COO, CSR, CSC, ELL, HYB.Последовательность работы с ней — примерно такая же, как и с cuBLAS: создание контекста,выделение ресурсов на GPU, работа с функциями библиотеки, копирование результатов,освобождение ресурсов GPU, освобождение контекста, однако для работы с матрицами нужнотакже с помощью специальных функций создавать дескрипторы матриц. Поскольку способовхранения у разреженных матриц много, имеет смысл подробнее познакомиться с ними, преждечем рассматривать примеры работы с библиотекой.246Библиотека cuSPARSEОбщие сведенияСодержит базовые функции работы с разреженными матрицами, которые условно можно разбитьна 4 части:1)2)3)4)операции между разреженным вектором и обычным;операции между разреженной матрицей и обычным вектором;операции между разреженной матрицей и обычной;функции преобразования между различными форматами представления матриц.Остальные действия, необходимые при программировании на GPU (такие как выделение иосвобождение памяти, перенос данных в память GPU и обратно), должны выполнятьсяразработчиком.Схема поименования функций библиотеки cuSPARSE для работы с матрицами и векторамианалогична поименованию функций в cuBLAS — с небольшими отличиями:cusparse<ТипД>[<Формат>]<Операция>[<ВыходнойФормат>]где <ТипД> — это буква (может быть S, D, C, Z, или X, что соответствует типу данных float,double, cuComplex, cuDoubleComplex или "обобщённому" типу), <Формат> — dense, coo,csr, csc, или hyb, что соответствует обычным "плотным" матрицам, а также хранящимся вформатах COO (координатный), CSR (компрессированный с разреженными строками), CSC(компрессированный с разреженными столбцами), HYB (гибридный), <Операция> — axpyi,doti, dotci, gthr, gthrz, roti, sctr; mv, sv; mm, smВсе функции возвращают тип специальный тип cusparseStatus_t, показывающий, успешно лизавершилось их выполнение.Выполнение функций происходит асинхронно, так что к моменту возврата из них вовращаемыйрезультат может быть ещё не полностью сформирован, поэтому следует использовать функциюcudaDeviceSynchronize(), чтобы гарантированно иметь результат работы функции избиблиотеки cuSPARSE.
Для этой же цели можно использовать вызов cudaMemcpy(),являющийся блокирующим: он завершается только тогда, когда результаты готовы.Библиотека поддерживает индексирование с нуля и с единицы. Это можно выбрать с помощьювеличины типа cusparseIndexBase_t, либо передаваемой в виде параметра, либосодержащейся в поле дескриптора матрицы или вектора.Форматы представления данныхВекторы в "плотном" формате (Dense Format) хранятся как обычно: все величины (компонентывектора) последовательно располагаются в памяти. Разреженные векторы (Sparse Format)представлены в виде двух массивов: ненулевых данных и индексов их позиций в обычном,"плотном" формате (вместе с количеством ненулевых элементов).
Обычные ("плотные") матрицыхранятся по столбцам и представлены величинами: числом строк, числом столбцов, лидирующим25размером, который должен быть больше или равен числу строк (если он больше, то это —подматрица), а также указателем на массив с элементами матрицы. Для разреженных матрицпридумано много способов хранения, рассмотрим наиболее часто встречающиеся.Форматы представления разреженных матриц MxNCoordinate Format (COO)Разреженная матрица в этом формате хранится по строкам и описывается числом ненулевыхэлементов (nnz) и тремя массивами этой длины: массивом (ненулевых) элементов (cooValA),массивом их индексов в строках (cooRowIndA) и столбцах (cooColIndA). Простой пример —матрица 2x3:7.00.05.00.06.00.0В предположении индексации с нуля матрица хранится в этом формате в таких массивах:cooValA = [7.0 5.0 6.0]cooRowIndA = [ 001 ]cooColIndA = [ 021 ](вместе с количеством ненулевых элементов — 3).
Если используется индексация с единицы, товсе индексы будут на единицу больше. Предполагается также, что каждая пара индексоввстречается только один раз.Compressed Sparse Row Format (CSR)Этот формат отличается от предыдущего тем, что массив индексов в строках сжат, параметр,называемый csrRowPtrA, — это массив из M+1 значения индекса в массивах csrValA иcsrColIndA; эти значения показывают, где каждом из массивов (csrValA, csrColIndA)начинаются данные следующей строки. Последнее равно nnz+csrRowPtrA(0).Для нашей матрицы и нулевой индексации:csrValA = [7.0 5.0 6.0]csrRowPtrA = [ 023 ]csrColIndA = [ 021 ]Compressed Sparse Column Format (CSC)Этот формат отличается от формата COO двумя вещами: матрица хранится по столбцам, а массивстолбцовых индексов сжат аналогично предыдущему формату.
Здесь наша матрица (прииндексации с нуля) будет храниться так (вместе с nnz = 3):cscValA = [7.0 6.0 5.0]cscRowIndA = [ 010 ]cscColPtrA = [ 0123 ]26Ellpack-Itpack Format (ELL)Разреженная матрица MxN с максимум K ненулевыми элементами в строке хранится в этомформате в двух "плотных" матрицах размера MxK. Первая содержит величины ненулевыхэлементов, вторая — соответствующие индексы столбцов, дополняемые при необходимостизначениями 0 («невозможное» значение) и -1 («невозможный» индекс) соответственно. Форматпредполагает хранение этих матриц по столбцам. Пример хранения для приведённой вышеразреженной матрицы (индексы — с нуля):данные7.06.0Индексы015.00.02-1хранение:[7.0 6.0 5.0 0.0]хранение:[ 012-1]В библиотеке cuSPARSE этот формат непосредственно не используется, но является частьюследующего способа хранения регулярной части разреженных матриц.Hybrid Format (HYB)Гибридный формат хранения разреженной матрицы строится из регулярной части, обычнохранимой в ELL-формате, и нерегулярной, обычно хранимой в COO-формате.