Высокопроизводительные парал. вычисления на кластерных системах. Воеводин (2005) (1186026), страница 29
Текст из файла (страница 29)
В целом ускорение в OpenMP оказывается удовлетворительным, и обычно выше, чем в Linda. Данныеtest397/Linda указывают на проблему ПС ОП: в кластерах даже сGigabit Ethernet удвоение числа МП приводит к ускорению в 1,.8–1,9раза, а на 4 ядрах Opteron 275 оно сильно хуже.Таблица 5Ускорение при распараллеливании тестов Gaussian-03 на Opteron 275Тестtest178 (1)test178mp2 (3)test178cis (4)test397 (5)Время, с1 ядро2035814565513935Ускорение при распараллеливанииOpenMPLinda2 ядра4 ядра2 ядра4 ядра1,873,280,861,22 (2)1,862,741,852,881,963,41н/д3,131,923,581,852,95Примечания.(1) Cтандартный test178(RHF) в режиме nosymm;(2) 2 Linda-процесса, каждый из которых распараллелен в OpenMP;(3) MP2=FullDirect/6-31G** nosymm Density=Current с молекулой изtest178;(4) CIS=Direct/6-31G(2d,p) nosymm с молекулой из test178;(5) Стандартный test397 (метод DFT) в режиме NoFMMТаблица 6Тесты Opteron 275 с Gamess-USВремя для 1 ядра, сУскорение на 2 ядрахУскорение на 4 ядрахTest 1784521,973,31Test 178mp212771,713,31В теcтах Gamess-US использованы те же молекулы и методы расчета, что и в Gaussian.
Применение DDI с настройкой на работу черезсокеты в Gamess-US для RHF и MP2 дает вполне удовлетворительныерезультаты, близкие к полученным в OpenMP для Gaussian.Для исследования возможностей распараллеливания задач квантовой химии, в которых лимитирует ПС межсоединения, в модели обмена сообщениями MPI, «не знающей» о наличии общей ОП, испытыва142лась создаваемая в рамках проекта РФФИ 04-07-90220 программа длязамены диагонализации фокиана (в полуэмпирических расчетах сверхбольших молекул) прямым построением матрицы плотности. В рамкахпараметризации AM/1 с использованием матричных полиномов в схеме «очистки» матрицы плотности [5] в ЦКОХИ был проведен тестовыйрасчет молекулы, содержащей 2600 атомов, и на 3 ядрах Opteron 275было получено ускорение 2,75.Таким образом, имеется большое количество задач вычислительной химии, в которых применение двухъядерных Opteron достаточноэффективно.Автор выражает благодарность РФФИ за поддержку работы (проект 04-07-90220), компании «Т-платформы» – за возможность доступак серверам на базе Xeon Nocona, и компании Niagara Computers – запредоставление на тестирование сервера AS-102A-8.Литература1.
Кузьминский М.Б. // Открытые системы, №10 (2005). С. 16.2. Кузьминский М.Б. и др. // Высокопроизводительные параллельныевычисления на кластерных системах / Сб. матер. II международ. научнопрактического семинара, ННГУ, Н.Новгород, 2002. С. 169.3. Schmidt M.W., Baldridge K.K., Boatz J.A. et al. // J.
Comp. Chem. V. 14,(1993). P. 1347.4. Gaussian 03 Revision C.02, M.J.Frish, G.W.Trucks, H.B.Shlegel e.a.,Gaussian, Inc., Wallingford CT, 2004.5. Кузьминский М.Б. и др. // Высокопроизводительные параллельныевычисления на кластерных системах / Сб. матер. IV международ.
научнопрактического семинара, СНЦ РАН, Самара, 2004. C. 141.ПРАКТИКА ИСПОЛЬЗОВАНИЯ В КЛАСТЕРАХАППАРАТНОГО И ПРОГРАММНОГО ОБЕСПЕЧЕНИЯINFINIBAND ОТ MELLANOX. РАСПАРАЛЛЕЛИВАНИЕ ВЗАДАЧАХ ВЫЧИСЛИТЕЛЬНОЙ ХИМИИМ.Б. Кузьминский, А.М. Чернецов, О.Ю. ШамаеваИнститут органической химии РАН, МоскваМосковский энергетический институтВведениеИспользование современной технологии Infiniband для связи узловвысокопроизводительных вычислительных кластеров является эффек143тивным во многих случаях. Перспективность Infiniband связана нетолько с высокими техническими характеристиками, в первую очередь,производительности (отметим, например, рекордную пропускную способность нового поколения адаптеров DDR Infiniband фирмы Mellanox,Inc – в 2 раза выше, чем в недавно анонсированных адаптерах Myrinet10G).
Она обусловлена открытостью архитектуры Infiniband и потенциальной широтой ее применения в различных областях, в т.ч. в системах хранения и при работе с базами данных [1].Актуальность тестирования производительности при использовании програмно-аппаратных средств Infiniband от Mellanox связана, вопервых, с широким применением продукции именно этой фирмы (аппаратные решения Mellanox используются и некоторыми другими производителями Infiniband) и, во-вторых, широким применением в программном обеспечении Mellanox для ОС Linux разработок проектаOpenIB, т.е. «универсальных» решений.
В данной работе проведено, вчастности, тестирование производительности аппаратно-программныхсредств Infiniband 4x от Mellanox на ряде стандартных индустриальныхтестов и при работе с приложениями квантовой химии.Практика применения Infiniband и тестированиепроизводительностиПрименение Infiniband для распараллеливания вычислительныхзадач в кластерах может реализовываться как путем использованиясредств распараллеливания MPI, работающих с Infiniband, так и путемиспользования средств распараллеливания, работающих поверхTCP/IP, например, Linda [2] или DDI [3]. Поэтому представляют интерес как измерения производительности на тестах MPI, так и тестирование производительности TCP/IP при работе поверх Infiniband (IPoIB).Последнее актуально не только для распараллеливания, но и для других приложений TCP/IP.В тестах было использован установленный в Центре компьютерного обеспечения химических исследований РАН (ЦКОХИ, в Институтеорганической химии РАН) двухузловой кластер без коммутатора, вдвухпроцессорных узлах которого применялись микропроцессорыOpteron 242/1,6 ГГц с материнскими платами Tyan S2880 и двухпортовые адаптеры HCA Mellanox MTLP23108 со 128 Мбайт собственнойпамяти (MHXL-CF128-T) для шин PCI-X/133.
В узлах использоваласьОС SuSE Linux 9.0 c SMP-ядрами 2.4.21 для х86-64.В качестве программного обеспечения Infiniband применялся свободно доступный стек IBGD/IBHPC от Mellanox [1], причем за время144более чем годичной эксплуатации были испытаны три разные версии 0.5.0, 1.6.1 и 1.8.0, содержащие, в частности, различные версии MPIНационального центра суперкомпьютерных приложений США (NCSA)и Государственного университета штата Огайо (OSU, США). Приводимые ниже результаты измерений при работе с MPI относятся к OSUMPI (mvapich-0.9.4).Версия 0.5.0 при инсталляции потребовала изменений в исходномтексте HCA-драйвера, а при работе в используемой конфигурации аппаратных и программных средств было обнаружено много ошибок.Версия 1.6.1 является, по-видимому, первой достаточно стабильной.Основным достоинством последней версии 1.8.0, по нашему мнению,являются усовершенствования при работе с протоколом SDP (см.
ниже).Некоторые тесты были проведены с использованием кластера набазе двухпроцессорных узлов с Intel Xeon Nocona/3.2 ГГц и HCA отMellanox, аналогичных используемым в ЦКОХИ, но для шин PCIExpress. В качестве коммутатора применялся Mellanox MTS2400. Кластер работал с ОС SuSE SLES9 и IBGD-1.6.0.Использованной во всех тестах технологии Infiniband 4x отвечаетсигнальная пропускная способность (ПС) 10 Гбит/с (пиковая ПС данных равна 8 Гбит/с).Для измерения производительности стека протоколов TCP/IP применялись средства netperf версии 2.3 (см., например, [4]).
В кластереЦКОХИ нами найдено, что достигаемые показатели производительности очень далеки от аппаратных возможностей. Так, максимально достигнутая нами ПС в TCP_STREAM равна 1633 Мбит/с при практически полной загрузке процессора, в то время как в тех же условиях наGigabit Ethernet (со встроенным адаптером Broadcom) ПС равна 939Мбит/с. В тесте TCP_RR c однобайтовыми сообщениями, характеризующем задержки, ускорение Infiniband по отношению к GigabitEthernet также найдено близким (15985 против 10031 пакетов, т.е.
в теже 1,7–1,6 раза). Однако нагрузка на процессор при этом гораздо ниже,не более 20%. ПС, полученная при работе с UDP_STREAM также имеет величину порядка 1,5 Гбит/с. Эти данные были получены для IBHPC0.5.0. При переходе к IBGD 1.6.1 достигаемая ПС на тестахTCP_STREAM остается примерно на том же уровне. В кластере на базеNocona/3,2 ГГц удалось достигнуть более высоких показателей – 2366Мбит/с в TCP_STREAM и 16082 пакета в TCP_RR. Увеличение ПСсвязано, очевидно, с более высокой производительностью процессоров145Nocona по сравнению с использованными в ЦКОХИ (в тестах TCP_RRпроизводительность процессора не явялется лимитирующей).Эти результаты для TCP/IP коррелируют с отсутствием существенного ускорения при переходе от Gigabit Ethernet к Infiniband прираспараллеливании в кластерах квантовохимических программGaussian-03 [5] и Gamess-US [3], использующих соответственно Lindaи DDI, работающие поверх TCP.Применение SDP [6], позволяющего прозрачным образом заменитьобращение исполняемых модулей (прикладных программ) к сокетамTCP вызовами SDP-библиотеки, позволяет увеличить ПС и уменьшитьзадержки, а также снизить нагрузку на процессор.
Измеренная намиПС не превышала величины порядка 4 Гбит/с, однако при этом процессор оставался почти полностью загружен. В IBGD 1.8.0 реализованаверсия SDP, поддерживающая прямой обмен данными между буферами приложений при синхронных операциях ввода-вывода, что позволяет, наконец, кардинально уменьшить процессорную нагрузку и ещеподнять величину ПС [6].В собственных тестах производительности Infiniband от Mellanox,perf_main, при использовании сервиса RC (reliable connection), применяемого также в SDP, найденная ПС составила 796 Мбайт/с при задержке для сообщений нулевой длины в 5,9 мкс. Загрузка процессорапри выполнении этого теста близка к 100%.В тестах MPI OSU и ПС, и задержки найдены близкими к аппаратным возможностям.