2016121216_msu_yak_FaultTolerance (Лекции)

PDF-файл 2016121216_msu_yak_FaultTolerance (Лекции) Параллельные методы решения задач (63912): Лекции - 10 семестр (2 семестр магистратуры)2016121216_msu_yak_FaultTolerance (Лекции) - PDF (63912) - СтудИзба2020-08-25СтудИзба

Описание файла

Файл "2016121216_msu_yak_FaultTolerance" внутри архива находится в папке "Лекции". PDF-файл из архива "Лекции", который расположен в категории "". Всё это находится в предмете "параллельные методы решения задач" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст из PDF

Вычислительные алгоритмы и отказоустойчивостьМ.В. Якобовскийlira@imamod.ru1Ближайшие перспективы• Реальная необходимость высокопроизводительных вычислительныхсистем следующего поколения для решения задач:––––нефтегазовые проблемы разведки и оптимизации добычиэкологические двигателиядерная энергетика и термоядерный синтезфундаментальные проблемы астрофизики• 2015 - Достаточно широкое использование PetaFLOPs вычислительныхсистем• 2018…2020 - Производительность суперкомпьютеров 1 ExaFLOPs2July 31, 2016Paul Messina, Argonne National Laboratory, ECP DirectorA Path to Capable Exascale Computing3July 31, 2016Paul Messina, Argonne National Laboratory, ECP DirectorA Path to Capable Exascale Computing• ExaScale computer– Позволяет решить научную задачу в 50 разбыстрее (или сложнее), системы уровня 20Pflops (Titan, Sequoia), или в 100 раз быстрее,чем Mira– Мощность порядка 20-30 МВт– Отказоустойчивость позволяет пользователювмешиваться на чаще одного раза в неделю– Имеет стек программного обеспечения,который отвечает потребностям широкогоспектра приложений и рабочих нагрузок4ЭффективностьАлгоритмы.Логическая простота.• Явные схемы позволяют создавать логически простые алгоритмы, ноимеют строгие ограничения на дискретизацию по времени из условийустойчивости:– для уравнений гиперболического типа условие устойчивости∆t ≤ h,где ∆t - шаг дискретизации по времени, h - шаг дискретизации попространству– для параболического типа уравнений условие устойчивости∆t ≤ h2Это условие практически исключаетвозможность использования высокогоразрешения по пространствуУравнение Пуассона (гравитационный потенциал)Отношение временной дискретизации параболического игиперболического метода как функция дискретизации по пространствуАккреция облака межзвездного газа на компактномастрономическом объектeнизкое разрешениевысокое разрешение• Компактный обьект:– масса 1030 Kg– радиус 0.5 AU• Импакт параметер 4-10 AU • Температура пространства T = 20 K• Межзвездное облако 5 AU• Плотность 0.8 x 10-11 кг/m3• Скорость облака 300 m/sBlue Waters system••Cray HLRS – Germany, StuttgartКаждые 4.2 часа фиксируется отказ, требующий восстановления частисистемыПолный отказ системы каждые 160 часовDi Martino, Catello, Zbigniew Kalbarczyk, Ravishankar K.

Iyer, Fabio Baccanico, Joshi Fullop,and William Kramer. "Lessons learned from the analysis of system failures at petascale: Thecase of blue waters." InDependable Systems and Networks (DSN), 2014 44th Annual IEEE/IFIPInternational Conference on, pp. 610-621. IEEE, 2014.8СистемыСтатистика отказовНадежностьКоличествоядерASCI Q8192MTBF: 6.5 часовИсточники аппаратные сбоев: устройство хранения, CPU,памятьASCI White8192MTBF: 5 часов (2001 год) и 40 часов (2003 год)Источники аппаратные сбоев: устройство хранения, CPU,внешние устройстваPSC Lemieux3016MTBI: 9.7 часовGoogle1500020 перезагрузок/день2-3% компьютеров заменяется ежегодноИсточники аппаратных сбоев: устройствапамятьD. Reed. High-end computing: The challenge of scale.

Director’s Colloquium, Los Alamos National Laboratory, May 2004хранения,9IBM PowerPC® A2 1.6 GHz, 16 ядер напроцессорRobert W. Wisniewski.BlueGene/Q: Architecture,CoDesign; Path to Exascale / BlueGene Supercomputer Research,January 25, 2012Однако ядер 18, а не 16Одно – сервисноеОдно – запасноеВ последних процессорахподдерживается горячая заменаядра10Время между отказами на экзафлопсныхсистемах ~ 30 минутMarc Snir, et al.

Addressing failures in exascale computing. International Journal of High Performance Computing Applications,28(2):129–173, May 2014Частота аппаратных отказов будет возрастать•Уменьшение размера транзистора делает его менее устойчивым к космическойрадиации•Ёмкости меньшего размера содержат меньший заряд, - его проще изменитьПрограммное обеспечение становится сложнее и содержит больше ошибок•Оборудование становится сложнее (неоднородные ядра, многоуровневая иерархияпамяти, сложная топология объединения узлов) существенно усложняетпрограммное обеспечение•Мультифизичность и многомасштабность решаемыхобъединению большого числа программных модулей.•Сокращение обменов, использование асинхронных взаимодействий, обеспечениезащищённости от отказов оборудования приводит к созданию сложных прикладныхкодовзадачCappello, F., Geist, A., Gropp, W., Kale, S., Kramer, B., & Snir, M.

(2014). Toward exascaleupdate. Supercomputing frontiers and innovations, 1(1).приводиткresilience:112014Время создания контрольной точки~ 30 минутSystem from TOP 500Max performance11 TeraFLOPSLLNL Zeus26LawrenceLivermoreNational LaboratoryLLNL BlueGene/L500 TeraFLOPSArgonne BlueGene/P500 TeraFLOPSLANL RoadRunnerLos AlamosLabsCheckpoint time(minutes)Natlional1 PetaFLOPS2030∼ 20Cappello F. 2009.

Fault Tolerance in Petascale/ Exascale Systems: Current Knowledge,Challenges and Research Opportunities. International Journal of High PerformanceComputing Applications 23, 3, 212–226.12Уровни управления контрольными точками• Системный уровень– Простота использования• Уровень пользователя– Радикальное сокращение объёмов контрольныхточек– Вместо рестарта всей системы - заменавычислительного узла– Хранение данных не только на локальных дискахHDDs но и в оперативной памяти13Доступные инструментыAutomatic (based on BLCR) system level checkpoint :• MPICH, MVAPICH, OpenMPISemi-automatic, user level checkpoint :• C3 - Cornell Checkpoint pre-Compiler, (Greg Bronevetsky,Daniel Marques, … )• ULFM(FT-MPI)Egwutuoha, I.P. A survey of fault tolerance mechanisms and checkpoint/restartimplementations for high performance computing systems.

/ I.P. Egwutuoha, D.Levy, B. Selic, S. Chen // The Journal of Supercomputing. — 2013. — Vol. 65,No.3. —P. 1302-1326.Cappello, F. Fault tolerance in petascale/exascale systems: Currentknowledge, challenges and research opportunities // International Journal ofHigh Performance Computing Applications. — 2009. — Vol. 23, No. 3. — P.212–22614ULFM –User-Level Failure MitigationВерсия MPI 3.1 не имеет механизмов управления иштатной работы при отказахСтандарт ULFM предложен в качестве минимального,нодостаточногоинтерфейсаобеспечивающеговосстановление MPI приложений, даже при отказах• MPI_COMM_REVOKE• MPI_COMM_SHRINK• MPI_COMM_FAILURE_GET_ACKED• MPI_COMM_FAILURE_ACK• MPI_COMM_AGREhttp://fault-tolerance.org/ULMF is a part of new version of MPI (MPI 4.1)15Моделирования взаимодействия Ni-N2Size: 8 128 512 + 423 840 = 8 552 352 particles,Temperature TNi = 273.15 K, TN2 = 273.15 KThe problem is split into gas dynamics and molecular dynamics:Flow and Particles16Пример расчета• KIAM_JOB_CONTROL позволяет поддержатьдолговременные вычисления с использованиемразличных вычислительных ресурсовВ качестве примера представлена задача МДмоделирования и визуализации МД данных.17HPC вызов• Разработка принципов управления контрольнымиточками, при которых время накладных расходовменьше чем MTBF• Разработка алгоритмов, дающих возможностьпродолжать расчет даже при регулярных отказахчасти процессов18Обеспечение отказоустойчивостиНеобходимо дублирование данных, в локальной памятинескольких вычислительных узлов19Пример стратегии дублированияN = 12, DF = 2, SD = 3CP_0_020Пример стратегии дублированияN = 12, DF = 2, SD = 3CP_0_1CP_0_021Пример стратегии дублированияN = 12, DF = 2, SD = 322Одномерное гиперболическоеуравнение23Область ускоренного расчета припарировании потери данных, вызваннойвыходом из строя одного процессора24Схема замены одного неисправногопроцессора тремя резервными25Одновременный расчет двумяпроцессорами разных фрагментовобласти26Одновременный расчет двумяпроцессорами разных фрагментовобласти27Оценки числа дополнительныхпроцессоров28Заключение•Необходима поддержка разработки алгоритмов и прикладногоматематического обеспечения, адаптируемого к архитектуре систем сэкстрамассивным параллелизмом и объемом данных и ихиспользования для решения пилотных задач:– наиболее сложных в решении– обладающих особой важностью для развития страны•Их создание обеспечит возможность эффективного роста практическиво всех областях:– фундаментальная наука– промышленность– государственное и корпоративное управление•Инструментом поддержки должна стать общегосударственнаяпрограмма фундаментальных исследований, создания алгоритмов иматематическогообеспечениядлясистемсверхвысокойпроизводительности, работы с большими данными и решенияпилотных задач.29Литература••••••Четверушкин Б.

Н., Якобовский М. В. Вычислительные алгоритмы иотказоустойчивость гиперэкзафлопсных вычислительных систем // ДокладыАкадемии наук. — 2017. — Т. 472, № 1. — С. 1–5. [ DOI ]Бондаренко А. А., Якобовский М. В. Моделирование отказов ввысокопроизводительных вычислительных системах в рамках стандарта mpi иего расширения ulfm,Вестник Южно-Уральского государственногоуниверситета // Вестник Южно-Уральского государственного университета.Серия "Вычислительная математика и информатика". — 2015.

— Т. 4, № 3.— С. 5–12.Бондаренко А. А., Якобовский М. В. Обеспечение отказоустойчивостивысокопроизводительных вычислений с помощью локальных контрольныхточек // Вестник Южно-Уральского государственного университета. Серия"Вычислительная математика и информатика". — 2014. — Т. 3, № 3. —С. 20–36.Cappello, F.

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Нашёл ошибку?
Или хочешь предложить что-то улучшить на этой странице? Напиши об этом и получи бонус!
Бонус рассчитывается индивидуально в каждом случае и может быть в виде баллов или бесплатной услуги от студизбы.
Предложить исправление
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5076
Авторов
на СтудИзбе
455
Средний доход
с одного платного файла
Обучение Подробнее