Высокопроизводительные парал. вычисления на кластерных системах. Воеводин (2005) (1186026), страница 30
Текст из файла (страница 30)
Так, задержка во «встроенном» тесте MPI OSUравна 5,2 мкс. Нами проведены измерения производительности на тестах Pallas 2.2. В SendRecv (см. рис. 1) максимальная ПС (758 Мбайт/с)была получена при длине сообщения в 256 Кбайт (в тесте ping-pong ПСдостигает при этом 695 Мбайт/с). Задержки в тесте ping-pong при длине сообщения до 4 байт не превышают 5 мкс, в тесте SendRecv придлине cообщения до 4 байт – не больше 5,85 мкс, в тесте Bcast придлине сообщения до 8 байт – не больше 5,0 мкс; на операцию barrierуходит около 5,8 мкс (все измерения проведены для двух узлов, по 1процессу на узел).Измерения производительности OSU MPI проведены также в рамках пакета Presto. В коммуникационном тесте MPI дал максимальнуюПС 717 Мбайт/с при однонаправленной передаче (для сообщений размером 4 Мбайт) и 809 Мбайт/с при двунаправленной передаче (длясообщений размером 0,5 Мбайт). Задержки в тесте двунаправленнойпередачи Send/Recv близки к 8 мкс.146Рис.1.
Зависимость ПС (Мбайт/с), измеренной для OSU MPI на тестахPallas SendRecv, от длины сообщенияПрограммы вычислительной химии отличаются очень большимразнообразием используемых методов и численных алгоритмов, и соответственно при распараллеливании могут по-разному вести себя поотношению к задержкам и ПС межсоединения.
В программах молекулярной механики/молекулярной динамики обычно лимитируют задержки. Примером случая, когда лимитирует ПС межсоедиения, является разрабатываемая авторами программа замены диагонализациифокиана в полуэмпирических методах типа AM/1 прямым построениемматрицы плотности для больших органических молекул. В использованной в тестах программе применялся подход, основанный на матричных полиномах Чебышева [7].Нами было проведено сравнение величин ускорений, достигаемыхпри распараллеливании этой программы в кластере Infiniband на базеNocona, с аналогичными данными для кластера на базе Myrinet и узловс Xeon/2.6 ГГц для молекулы с размерностью базиса в 3000 орбиталей.В Infiniband-кластере на 3, 6 и 10 процесорах без применения технологии разреженных матриц нами достигнуто ускорение соответственно в2,8, 5,3 и 8,0 раз при запуске по 1 вычислительному процессу на узел.Это выше, чем ускорение, достигаемое в лучшем зарубежном программном комплексе MOPAC2002, полученное для SGI Altix 300 [7].147Это также выше ускорений, достигнутых в Myrinet-кластере, причемпреимущество Infiniband возрастало с числом процессоров.
При 6 процессорах ускорение в кластере Infiniband на 37% выше, чем в кластереMyrinet.Из-за использования в кластере Infiniband старой версии библиотеки Atlas, не оптимизированной на новые 64-разрядные микропроцессоры Nocona, производительность при вызове подпрограмм умноженияматриц dgemm (определяющих процессорное время расчета) на процессорах Nocona была лишь немного выше, чем на Xeon/2,6 ГГц. Это ипозволяет сделать корректным сравнение уровней распараллеливания.Напротив, сопоставление распараллеливания нашей программы сMOPAC2002 проведено в условиях, с точки зрения производительности процессоров и ПС межсоединения более выгодных для последней.Мы протестировали также распараллеливание нашей программы сиспользованием в кластере Infiniband не по одному, а по 2 процесса надвухпроцессорный узел.
Время выполнения возрастает при этом навеличину порядка 10%, что связано с проблемой разделения ПС системной шины узлов при обращении к оперативной памяти. В Myrinetкластере [8], узлы которого имеют системную шину с существенноболее низкой ПС, чем в узлах с Nocona, использование при распараллеливании двух процессоров на узел ранее вообще было найдено невыгодным [7].В кластере ЦКОХИ применение Infiniband с распараллеливанием вLinda типовых методов RHF, DFT, MP2 и СIS c использованием Gaussian-03 вообще не дало преимуществ по сравнению с Gigabit Ethernet.Поэтому мы исследовали характеристики возникающего при распараллеливании трафика на уровне сетевых интерфейсов, в т.ч.
с применением iptraf, а также использовали для анализа средства tcpdump. Нашиданные показали, что в небольших кластерах для молекул достаточного размера межсоединение вообще не лимитирует. При большом числеузлов, по нашим предварительным оценкам, из-за большого размерасообщений может лимитировать ПС межсоединения.Работа поддержана РФФИ, проект 04-07-90220. Автор выражаеттакже благодарность компании «Т-платформы» за предоставленнуювозможность удаленного доступа к кластеру Infiniband на базе XeonNocona.Литература1.
Кузьминский М. Открытые системы, N11 (2005), в печати.2. //www.lindaspaces.com.1483. Schmidt M.W., Baldridge K.K., Boatz J.A., et.al. // J. Comp. Chem. V.14, (1993). P. 1347.4. Кузьминский М., Мускатин А. // Открытые системы, N 7–8 (2001). C.17.5. Gaussian 03 Revision C.02, M.J.Frish, G.W.Trucks, H.B.Shlegel et.al.,Gaussian, Inc., Wallingford CT, 2004.6. Goldenberg D., Kagan M., Ravid R., et.
al. Transparrently AchievingSuperior Socket Performance using Zero Copy Socket Direct Protocol over 20Gb/s Infiniband Links. White paper, Mellanox, Inc, 2005.7. Кузьминский М.Б., Бобриков В.В., Чернецов А.М., Шамаева О.Ю. //Высокопроизводительные параллельные вычисления на кластерных системах. 4-й международ. научно-практический семинар, Самара, 2004. C.141.8. Михайлов Г.М., Копытов М.А., Рогов Ю.П.
и др. Параллельные вычислительные системы в локальной сети ВЦ РАН. М.: Изд-во ВЦ РАН,2003.ОПЫТ ПОСТРОЕНИЯ КЛАСТЕРНЫХ ВЫЧИСЛИТЕЛЬНЫХСИСТЕМ С УДАЛЕННОЙ ЗАГРУЗКОЙ УЗЛОВМ.Г. КурносовСибирский государственный университет телекоммуникацийи информатики, Новосибирск1. ВведениеВ настоящее время разработаны различные технологии построениякластерных вычислительных систем (ВС) большая часть, которых основана на использовании свободно распространяемого программногообеспечения (ПО) и операционной системе GNU/Linux.Важным вопросом в процессе построения кластерной ВС являетсявыбор способа установки операционной системы на вычислительныеузлы.
Можно выделит несколько устоявшихся подходов [1]:1. Системы с полной установкой ОС на узлах ВС (diskfull) – вычислительные узлы располагают носителями информации, на которыеустанавливается ОС (ядро и корневая файловая система). Загрузка ОСосуществляется с локального носителя информации.2. Бессистемная конфигурация узлов (systemless) – вычислительные узлы располагают носителями информации, но используются онилишь как хранилище для временных файлов и/или раздела подкачки.Ядро операционной системы и корневая файловая система загружают149ся удаленно, с центральной машины кластера.3. Бездисковая конфигурация узлов (diskless) – на вычислительныхузлах отсутствуют носители информации.
Ядро операционной системыи корневая файловая система загружаются удаленно, с центральноймашины кластера.Полноценную установку ОС на вычислительные узлы можно считать традиционным подходом.Существует ряд случаев, когда данный подход не применим напрактике, например при построении вычислительной системы на баземашин компьютерной лаборатории, в которых могут отсутствоватьжесткие диски либо запрещено производить установку дополнительного ПО на узлы.Подход с использованием бездисковых вычислительных узловчасто используется как способ уменьшения совокупной стоимости разрабатываемой кластерной ВС, за счет отказа от использования носителей информации на узлах.Одним из рациональных подходов к организации функционирования бездисковых систем является использования механизма удаленнойзагрузки узлов с центральной машины кластера.В данной работе рассматривается опыт построения кластерныхвычислительных систем с удаленной загрузкой узлов и поддержкойбездисковых конфигураций.Описываемый подход обеспечивает быстрое развертывание вычислительного кластера на базе парка стандартных ПК (например, набазе компьютерной лаборатории) с преднастроенной центральной машины.
В качестве операционной системы узлов кластера используетсяОС Slackware GNU/Linux.2. Организация процесса удаленной загрузкиДля обеспечения функционирования бездискового узла необходимо осуществить доставку ядра ОС и организовать доступ к корневойфайловой системе (ФС), содержащей системное ПО. Загрузка ядра ОСна узлы ВС может быть осуществлена удаленно (например, по технологии PXE или Etherboot) или с локального загрузочного устройства(например, с дискеты или USB-накопителя).В рассматриваемом подходе удаленная загрузка вычислительныхузлов осуществляется при помощи технологии PXE или Etherboot.
Задача размещения и получения доступа к корневой ФС решается следующим образом – корневая ФС узла размешается на RAM-диске, который создается в процессе загрузки. Для уменьшения размера исполь150зуемой памяти, из образа корневой ФС исключается прикладное ПО,каталоги с которым монтируются по NFS с центральной машины кластера. На центральной машине устанавливаются следующие службы:1. DHCP-сервер – обеспечивает функционирование процесса удаленной загрузки и динамического конфигурирования сетевых интерфейсов узлов;2. TFTP-сервер – реализует возможность удаленного копированияядра ОС и образа начального RAM-диска;3. Служба NFS – обеспечивает доступ к домашним каталогампользователей и каталогам с ПО. В процессе начальной загрузки обеспечивает доступ к сжатому образу корневой ФС узлов;4.
NTP-сервер – обеспечивает синхронизацию системных часов наузлах ВС с часами центральной машины.5. Сервер безопасной оболочки sshd – обеспечивает удаленныйдоступ к центральной машине и узлам ВС.6. Web-сервер Apache – предоставляет доступ к Web-интерфейсураспределенной системы мониторинга Ganglia.На рис.