Лекция 3. Кластеры и суперкомпьютеры (Электронные лекции)
Описание файла
Файл "Лекция 3. Кластеры и суперкомпьютеры" внутри архива находится в папке "Электронные лекции 2016 года". PDF-файл из архива "Электронные лекции", который расположен в категории "". Всё это находится в предмете "суперкомпьютерное моделирование и технологии" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Суперкомпьютерный комплекс МГУ:"Ломоносов"1/48Кластеры и суперкомпьютерыКластер:●Распределённая память●Не привязан к производителюАльтернативы:●Общая память●«Кластерная архитектура»2/48Общая памятьMEMMEMMEMMEMMEM3/48Операционная системаosososososMEMososMEM4/48«Традиционный» кластерInternetКоммутаторыУзел доступаУзлыКоммутаторыСервисныеузлыФС5/48Суперкомпьютер «Ломоносов»,2015 годПиковая производительностьПроизводительность (Linpack)ЭффективностьВычислительных узлов (Intel)Вычислительных узлов (ГПУ)Процессоры Intel Xeon 5570, 5670NVIDIA Tesla X2070Число процессорных ядер (x86)Число процессорных ядер (ГПУ)Оперативная памятьКоммуникационная сетьСистема хранения данныхОперационная системаЗанимаемая площадь (вычислитель)Энергопотребление (вычислитель)1700.21 TFlop/s901.90 TFlop/s53%5 1041 06512 3462 13052 168954 24092 ТБайтQDR Infiniband / 10 GE1.75 ПБайт, Lustre, NFS, …Clusrtx T-Platforms Edition252 м26/482.8 МВтПолучение доступаusers.parallel.ru11/48Получение доступа12/48Получение доступа13/48Получение доступа14/48Получение доступаНе ppk!!!15/48Получение доступа16/48Получение доступа17/48Получение доступаaccount_NNN@lomonosov.parallel.ruPAgent18/48Генерация ключейPuttyputtygen19/48Генерация ключей20/48Генерация ключей21/48Удалённый доступlomonosov.parallel.rulomonosov.parallel.rulomonosov22/48Вопросы, проблемы, ...23/48"Ломоносов" — файловая системаДомашний каталогна accessLustreОСНОВНОЕbackup/home/users/USERNAME/home/users/USERNAME/_scratch/home/users/USERNAME/_backup24/48"Ломоносов" — файловая системаДомашний каталогна узлеLustreОСНОВНОЕbackup/home/users/USERNAME/home/users/USERNAME/_scratch25/48"Ломоносов" — файловая системаNode/home/users/USERNAME=/home/users/USERNAME/_scratch/home/users/USERNAME/_scratch/_scratch/home/users/USERNAME/_scratch → .27/48Modules$ module available-------------------------------- /opt/modulefiles ---------------------------------PrgEnv-pgi/15.7 impi/4.1.0 intel/15.0.090 openfoam/2.2.2 openmpi/1.6.5-icc slurm/2.5.6cuda/5.5impi/4.1.0-32bit itac/9.0.1 openfoam/2.3.1 openmpi/1.8.4-gcc totalviewcuda/6.5.14impi/4.1.0-ofamkl/11.2.0openmpi/1.10.2-icc openmpi/1.8.4-iccekopath/4.0.11 impi/5.0.1mkl/4.0.2.146openmpi/1.5.5-gcc paraview/3.12.0gcc/5.2.0impi/5.0.1-ofamolpro/2009openmpi/1.5.5-icc pgi/12.9impi/4.0.3intel/13.1.0octave/4.0.1openmpi/1.6.5-gcc slurm/15.08------------------------------ /opt/ccoe/modulefiles -------------------------------abinit/7.10.2 amber12/mpi espresso/5.1.2 gromacs/plumed magma/1.7.0 nwchem/6.3-mpiabinit/7.10.2-cuda cp2kespresso/5.3.0 lammps-cudanamd/2.11nwchem/6.6-cudaamber12/cuda espresso/5.1.1 gromacs/5.0.4-gpu magma/1.6.1 namd-cuda nwchem/6.6-openmpi28/48«Ломоносов» - очередь задачSLURMModulesmodule av[ailable] — список модулейmodule add impi/4.1.0module add intelmodule add cuda29/48«Ломоносов» - очередь задачmodule li[st] — загруженныеmodule rm impi/4.1.0module add openmpi/1.5.5-icc30/48«Ломоносов» - очередь задачsbatch — поставить задачу в очередьsbatch -n16 -N2 -p test impi ./mytaskЧислопроцессовЧислоузловОчередьSubmitted batch job 632822СкриптобёрткаНомерзадачи31/48«Ломоносов» - очередь задачimpi = Intel MPIompi = OpenMPIrun= NO MPIНе забудьте загрузить нужный module!32/48«Ломоносов» - очередь задачsqueue — просмотр задачsinfo — состояние очередейscancel — удалить задачу33/48«Ломоносов» - очередь задач$ sbatch-n = число процессов-N = число узлов--cpus-per-task = число процессоров на процесс--no-requeue (по у молчанию)--requeue-t Д-ЧЧ:ММ:сс= лимит времени.34/48«Ломоносов» - очередь задач$ sbatch -d ...after:job_id[:jobid...]после стартаafterany:job_id[:jobid...] после окончанияafternotok:job_id[:jobid...] после неуспехаafterok:job_id[:jobid...]после успеха-J имя-i входной_файл-o выходной_файл-e поток_ошибок35/48«Ломоносов» - очередь задач$ squeueJOBID PARTITION1319269gpu1319281gpu1319317gpu1319420gpu1319433gpu1319434gpuNAMEompiep_run7impiep_run2impiimpiUSERtsukanovkot-addikulakovakot-addiibryukhaibryukhaSTPDPDPDPDPDPDTIME0:000:000:000:000:000:00CPUS1282562562567272NODE132323211NODELIST(Resources)(Resources)(Resources)(Resources)(Resources)(Resources)36/48«Ломоносов» - очередь задач$ squeue --user my_name$squeue -o "%i;%3C;%L;%p %.9P " |headJOBID;CPU;TIME_LEFT;PRIORITY PARTITION1319269;128;2-23:40:00;0.023273790260611319281;256;3-00:00:00;0.023273787466641319317;256;2-23:59:00;0.023273779084741319420;256;3-00:00:00;0.023273755103181319433;72 ;1-00:00:00;0.02327375207638gpugpugpugpugpu37/48«Ломоносов» - очередь задач$ sinfoPARTITION AVAIL TIMELIMIT NODES STATE NODELISTcompute*up 7-00:00:0058 drain* n[48001-48032]compute*up 7-00:00:0013 down* n[48626,51306]compute*up 7-00:00:0014 drain n[52101,52103]compute*up 7-00:00:00 1016 alloc n[48101-48132,48201-48210]compute*up 7-00:00:00167 idle n[48211-48216]$ sinfo --summarizePARTITION AVAIL TIMELIMITcompute*up 7-00:00:00NODES(A/I/O/T)1118/77/85/1280NODELISTn[48001-52732]38/48«Ломоносов» - примерscp file.c user@lomonosov.parallel.ru:ssh user@lomonosov.parallel.russh compiler39/48«Ломоносов» - примерmodule add intel openmpi/1.8.4-iccmpicc file.c -o _scratch/mytaskcd _scratchsbatch -n16 -p test impi ./mytask40/48Modules$ module add slurm$ sinfo -p test$ squeue$ sbatch -n 16 -p test myscript.sh41/48Компиляция$ ssh compiler$ module add intel mkl openmpi cuda$ mpicc my_prog.c$ mpicxx myprog.cpp$ mpif90 myprog.F42/48Запуск$ cp myexe _scratch/$ cd _scratch$ sbatch -n NNN ompi ./myexeompi = openmpiimpi = intel mpirun = no mpi$ scancel NN43/48Скачивание файловWindows:WinSCPFAR (winscp plugin)FileZillaLinux:mc- sh://user@serverNautilus/...
- Connect ServerFileZillasshfs44/48Запуск MPI-программmpirun -n 10 --hostfile fff ./mytaskssh node01 -> mpi_runtime (mpd, hydra, ...)node01: ./mytask [ENV1]node02: ./mytask [ENV2]...node10: ./mytask [ENV10]45/48Запуск MPI-программ: SLURMsbatch -n 10 ompi ./mytask=> node01 -> slurmdHOSTFILE=${TMPDIR}/hostfile.${SLURM_JOB_ID}srun hostname -s|sort|uniq -c|awk '{print $2" slots="$1}' >$HOSTFILE || { rm -f $HOSTFILE; exit 255; }mpirun --hostfile $HOSTFILE "$@"rc=$?rm -f $HOSTFILEexit $rc46/48Запуск MPI-программ: SLURMnode01 -> slurmdnode01 -> slurmstepd./mytask [ENV1]node02 -> slurmstepd./mytask [ENV2]node10 -> slurmstepd./mytask [ENV10]...47/48http://users.parallel.ru1.Справка2.Поддержка48/48.