Диссертация (Математическое и программное обеспечение балансировки вычислительных заданий для распределенных вычислительных комплексов на основе прогнозных моделей), страница 5
Описание файла
Файл "Диссертация" внутри архива находится в папке "Математическое и программное обеспечение балансировки вычислительных заданий для распределенных вычислительных комплексов на основе прогнозных моделей". PDF-файл из архива "Математическое и программное обеспечение балансировки вычислительных заданий для распределенных вычислительных комплексов на основе прогнозных моделей", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве РТУ МИРЭА. Не смотря на прямую связь этого архива с РТУ МИРЭА, его также можно найти и в других разделах. Архив можно найти в разделе "остальное", в предмете "диссертации и авторефераты" в общих файлах, а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 5 страницы из PDF
Наиболее известнымпримером самоорганизирующейся наложенной сети являются P2P-сети (англ.Peer-To-Peer). P2P-сетью называется сеть, в которой отсутствуют, кактаковые, понятия клиент и сервер, есть только равные узлы сети, которые влюбой момент времени могут выполнять функции клиента и сервера [21].Большой практический интерес к саморганизующимся наложеннымсетям связан с возможностью построения на их основе крупномасштабныхпроектов,использующихсовместныеданные,свозможностьюихраспределения на уровне данных и приложений.
В качестве примеровпроектов, использующих такой тип оверлейных сетей, можно назвать проектTOR [22], BitTorrent [23], Freenet [24], FastTrack/KaZaA [25, 26] и ряд других.Множество исследователей [19, 20] сходятся во мнении, что данный типсетей будет набирать всё большую популярность за счёт масштабируемости,надежности и экономической эффективности.Дальнейшее развитие сетей передачи данных, по мнению рядаспециалистов[28,27]будетнаправленанаразвитиепарадигмывиртуализации ресурсов, что приведёт к созданию сетей будущего (англ.Future Network).271.1.3. Концепция GRID ComputingРанее [105] было показано, что «существенный прорыв в областипостроенияблагодаряпространственно-распределёныхразвитиюконцепцииGRIDкомплексов(GlobalобразовалсяResourceInformationDistribution). Идея Grid Computing (распределенные сети, или "решетки"вычислительных ресурсов) на сегодняшний день представляет собойведущую технологию создания РВК» [105].
Учитывая все недостатки первыхсистем, а именно невозможность реализации данных систем в гетерогеннойсреде, дальнейшие разработки был направлены на разрешение даннойпроблемы. «В 1998 году Фостер и Кельман опубликовали статью [29], вкоторой предложили концептуально новый подход к организации глобальнораспределённых комплексов и систем» [105].
Как следует из статьи, гридкомплексыявляютсяобеспечивающими«программно-аппаратныминадёжныйиструктурами,недорогойдоступквысокопроизводительным вычислительным возможностям» [29]. Как былоуже показано ранее [105], «грид-архитектура позволяет соединять междусобой географически рассредоточенные вычислительные узлы, посредствомсети Интернет, в некоторую абстрактную решётку (англ. GRID – решётка), вкоторой каждый узел предоставляет ресурсы для совместного использованияв конкретной задаче». «Данная вычислительная модель комплекса позволяетобъединять не только сосредоточенные кластеры, но и ПК обычныхпользователей сети Интернет в некий единый виртуальный суперкомпьютер.Возможностьиспользованияданногоподходакорганизациитерриториально-распределенных комплексов стало возможным, благодаряразвитию общей индустрии информационных технологий, а именно: развитию высокоскоростных сетей передачи данных; увеличению производительности ПК;28 созданию стандартизированных протоколов передачи данных»[105].На рисунке 1.3 представлена одна из возможных структур GridComputing.Узел1КоммуникационнаясетьУправляющийсерверУзелNРисунок 1.3 — Структура гридСреди значимых комплексов второго поколения, которые подробнорассмотрены в [105], можно выделить такие проекты как Globus [30], gLite[32], Legion [33], Unicore [34].«Проект Globus с разработанным инструментарием Globus Toolkit,позволяетобъединитьмножествотерриториальнораспределённыхгетерогенных ресурсов в единую виртуальную систему.
ИнструментарийGlobus Toolkit имеет открытый исходный код. Стоит понимать, что данныйинструментарийнеявляетсяготовымтехническимрешениемдляорганизации распределённых вычислений, а представляет собой лишь наборстандартов и инструментов [31]. Популярность такого инструментарияобусловливается,преждевсего,отсутствиемжёсткоймоделипрограммирования, в результате чего разработчик может использоватьширокий набор средств, в соответствии с потребностью.
Проект Globus был29поддержан многими производителями программного обеспечения, такимикак IBM, Sun, HP, Intel» [105].«Проект Legion был разработан в университете Вирджиния ипредставляет собой программную среду для организации географическираспределённой системы, в состав которой могут входить рабочие станции,векторные суперкомпьютеры и параллельные суперкомпьютеры [35].Основное отличие от других комплексов подобного рода является поддержкаобъектно-ориентированной модели, в которой грид представлялся в виде«легиона» и все узлы системы являются компонентами «легиона». Однакомногих исследователей отталкивала объектно-ориентированная модель,вследствие чего их внимание смещалось в сторону Globus, а проект былзакрыт» [105].Как показано ранее [105], «концепция грид-среды активно развиваетсяи отечественными учёными». «К примеру, исследователями Лабораториивычислительных систем Института физики полупроводников им.
А.В.Ржанова СО РАН и Центром параллельных вычислительных технологийСибирскогоинформатикигосударственного(СибГУТИ)университетасозданателекоммуникациймасштабируемаягрид-модельи–пространственно-распределённая мультикластерная ВС. В состав комплескавходят вычислительные кластеры данных организаций. Операционнаясистема комплекса построена на ядре Linux. Так же в состав комплексавходитинструментарийразработчикадляразработкипрограммныхпродуктов, включающий такие средства как GCC, ряд библиотек дляорганизации параллельных вычислений (MPI, OpenMP) [36]» [105].В работе [105] показано, что «дальнейшим развитием в областипостроенияпространственно-распределённых систем явилась разработкатретьего поколения grid.
Основная задача построения данных комплексовнаправлена не на стандартизацию интерфейсов, а на решение вопросовсамоорганизации и автоматизации процессов, происходящих в grid [37].Стоит понимать, что исследования в области стандартизации интерфейсов не30прекратились, а продолжают развиваться в таких концепциях, как SOA иSOC, что привело к созданию новых коммуникационных протоколов, вчастности SOAP (Simple Object Access Protocol)».Ярким примером, демонстрирующим направление развития такихкомплексов, является концепция, выдвинутая фирмой IBM в 2001 году,получившая название «автономные вычисления». Для реализации концепцииавтономных вычислений необходимо, чтобы вычислительный комплексудовлетворял ряду требований [105]: «Самовосстановление.Вычислительныйкомплексдолженвосстанавливаться в рабочее состояние в случае возникновениясбоя Самоконфигурирование.Комплексдолженсамостоятельноконфигурировать своё ПО в случае обновления. Самозащита.
Вычислительный комплекс должен обеспечиватьсохранность данных при возможных попытках вторжения всистему».Первой попыткой создания комплекса grid с идеологией «автономныхвычислений» явился такой проект как IBM OptimalGrid [37]. «В дальнейшемидеология автономных грид-систем была подхвачена многими проектами вобласти распределённой обработки данных и существующие комплексы, втой или иной степени, поддерживают идеологию автономных вычислений»[105].1.1.4. Задача балансировки вычислительной нагрузки вРВККак было показано ранее [38], «несмотря на все достоинствараспределённых систем по сравнению с традиционными централизованнымисистемами,распределённыесистемыимеютирядсущественных31недостатков». Основными недостатками распределённых комплексов посравнению с традиционными системами являются [38]: « сложность администрирования вычислительного комплекса:o сложность балансирования нагрузки в вычислительных узлах;o трудность восстановления данных в случае возникновенияошибок и сбоев; возможная ограниченность масштабируемости распределённыхкомплексов; отсутствие кроссплатформенности ПО комплекса».Основные недостатки предметной области рассмотрены в статье [38].Задачабалансировкинагрузкивсовременныхраспределённыхкомплексах существенно влияет на организацию быстрой обработки иобеспечение оптимального использования их ресурсов.
Балансировканагрузки тесно связана с таким понятием, как дисбаланс нагрузки. Под этимтермином понимают возникновение ситуации, когда узлы распределённогокомплекса неравномерно загружены. Основными причинами возникновениядисбаланса являются [39]: неоднородность структуры распределенного приложения; гетерогенностьструктурывычислительногокомплекса(например, кластера). Вычислительные узлы, линии связи могутиметьразличнуюпроизводительностьипропускнуюспособность.Под вычислительной нагрузкой узла РВК часто понимается суммаожидаемого времени вычисления отдельной задачи [40]. Дисбалансвычислительной нагрузки связан с неоднородностью времени прибытия и32обслуживания вычислительной задачи на узле комплекса.
Предположим, чтоузел, распределяющий задачи по узлам, производит отправку порции задачна узлы через равные промежутки времени, на которых они помещаются вочередь, и, по мере возможности, выполняется их обработка. Можетвозникнуть ситуация, когда часть вычислительных узлов может бытьзагружена большим количеством задач, в то время как часть других будетлибо менее загружена, либо вообще простаивать без работы.Для решения данной задачи необходим механизм балансировкинагрузки. Правильно организованная балансировка нагрузки позволяетповысить скорость работы и снизить неравномерность нагрузки узлов всегокомплекса.1.2.
Анализ существующих подходов к решению задачибалансировки нагрузки для распределённых комплексовРешающим фактором успешного функционирования распределённойвычислительногокомплексаявляетсявыборправильнойстратегиираспределения нагрузки на существующие ресурсы комплекса. Основнаязадачастратегиииспользованияметодовбалансированиянагрузки,заключается в увеличении пропускной способности комплекса, повышениянадёжностиегоработы,достижениямаксимальногоиспользованиявычислительных мощностей, а также снижения общего времени выполнениязадачи.Задача организации распределения и перераспределения задач по узламРВК часто рассматривается в рамках общей теории расписаний [50].Первоначальной областью, где возникла необходимость в управленииресурсамиисозданиирасписания,сталимногопроцессорныевычислительные комплексы. Первыми распространёнными моделями дляописания процесса составления расписаний были графовые модели. Длясоставления расписаний использовались различные модели, начиная от33простыхсимметричныхграфов,заканчиваясложнымисвязаннымиациклическими графами.