Надежность АСОИУ (1088455), страница 24
Текст из файла (страница 24)
Это означает, чтотакая ЭВМ не может быть привлечена для решения задач, поставленных перед кластером, и ей присваивается признак«неработоспособна».При нарушении внутренней сети кластера системы, построенной по схеме, приведенной на рис. 1.30, управляющиймодуль изначально запущен на ЭВМ 2. При отказе сетевого соединения ЭВМ 1 и концентратора, ЭВМ 1 оказываетсяизолированной от разделяемого накопителя, что соответствует рассмотренной ранее ситуации нарушения связи сразделяемым накопителем.Кроме того, нарушается информационный обмен между ЭВМ 1 и ЭВМ 2. Это приводит к тому, что управляющиймодуль на ЭВМ 2 устанавливает для ЭВМ 1 признак «неработоспособна» и производит перезапуск всех ее процессов.Связка «ЭВМ 2 — разделяемый накопитель» полностью работоспособна.
Исполнительный модуль, запущенный наЭВМ 1, самостоятельно отказывается от запуска управляющего модуля по истечении заданного времени ожидания наосновании отсутствия доступа к разделяемому накопителю.В том случае, если в момент отказа управляющий модуль был запущен на ЭВМ 1, по истечении заданногоинтервала времени исполнительный модуль запустится на ЭВМ 2, но из-за того, что внешний интерфейс ужеактивизирован на ЭВМ 1, возникнет конфликтная ситуация.Это означает, что управляющий модуль должен на протяжении всего времени своей работы контролироватьсостояние ЭВМ, на которой он запущен, и в случае появления признака «неработоспособна» самостоятельно74заканчивать работу и отключать внешний сетевой интерфейс, чтобы дать возможность работоспособным ЭВМ решатьпоставленные перед кластером задачи.Как видим, при построении кластерной системы по схеме, приведенной на рис.
1.30, а, ситуация нарушениявнутренней сети кластера вырождается в ситуацию нарушения доступа к разделяемому накопителю.На рис. 1.30, б приведена другая схема построения кластерной системы, особенностью которой является наличиеотдельной сети для доступа к разделяемому накопителю (Ethernet или SCSI-интерфейсы для подключения RAIDмассива). В этом случае нарушение сетевого взаимодействия между ЭВМ кластера не приводит к неработоспособностииз-за отсутствия доступа к разделяемому накопителю. Конфликтная ситуация может быть разрешена путем проверкиналичия во внешней сети активного сетевого интерфейса кластера, уже активизированного на другой ЭВМ. Такимобразом, ведущей ЭВМ будет признана та, на которой был запущен управляющий модуль на момент возникновениянеисправности.Рис. 1.30. Пример построения кластерной системы н а двух ЭВМ: а — с разделяемым накопителем —Э В М , подключенной к внутренней сети кластера; б— с разделяемым накопителем (RAID-массивом),подключенным п о SCSI-интерфейсу к обеим Э В МТакая схема построения, а также другие альтернативные топологии (например, две «звезды» с несимметричнойнагрузкой ЭВМ) требуют более сложного анализа.
В этом случае нарушение внутренней сети приводит к образованиюдвух (или более) независимых работоспособных частей. Задача состоит в определении той части кластера, котораяспособна более эффективно решать задачи, поставленные перед системой в целом. Так как сетевое взаимодействие повнутренней сети нарушено, то информационный обмен может быть произведен только по внешней сети, а это требуетдополнительных решений, гарантирующих безопасность системы при таком режиме работы.В качестве примера рассмотрим ситуацию, когда выходит из строя сетевое соединение ведущей ЭВМ с внешнейсетью. Ведущая ЭВМ выполняет функции шлюза между внутренней и внешней сетями кластера.
Реакцией на данноесобытие должен быть останов управляющего модуля и перезапуск его на работоспособной ЭВМ. Задача состоит ввыявлении факта неработоспособности сетевого соединения с внешней сетью. Данная задача может быть решена толькоаппаратным путем. Причем для ее решения используют избыточное количество сетевых интерфейсов во внешней сетиили вводят сетевой коммутатор с возможностью присвоения ему IP-адреса.Использование избыточного количества сетевых интерфейсов во внешней сети позволяет сформироватьоднозначный вывод за счет избыточности информации о состоянии контролируемого сетевого интерфейса. Недостаткомданного решения является его потенциальная невосприимчивость к кратным неисправностям, но, учитывая малую75вероятность такого события, этим недостатком можно пренебречь. Основным достоинством такого решения являетсявозможность его реализации на базе стандартных аппаратных компонентов.Другой способ предполагает введение сетевого коммутатора для мультиплексирования внешних интерфейсов ЭВМкластера во внешнюю сеть.
Коммутатор должен поддерживать назначение ему собственного IP-адреса. Отправкаконтрольных ICMP-пакетов на этот адрес позволяет установить наличие сетевого соединения ЭВМ кластера скоммутатором, а следовательно, и с внешней сетью (нарушение соединения коммутатора и внешней сети не может бытьопределено программно). Недостатком данного решения является то, что выход из строя коммутатора полностьюблокирует возможность соединения кластера с внешней сетью. Кроме того, необходимо применение специальногодорогостоящего коммутатора. Основным достоинством этого решения является простота программной реализацииалгоритма на базе аппаратного решения.Кластерная система может легко настраиваться на использование любого из описанных выше способовдиагностикиработоспособностивнешнегоинтерфейса.Выборконкретногоспособадолженопределятьсяадминистратором исходя из требований к надежности кластерной системы.В качестве элементов кластера могут использоваться серверы, основные расчетные и фактические значенияпоказателей, надежности которых приведены в табл.
1.3 и 1.4.Таблица 1.3Заявленная надежностьКомпоненты сервера(чЗT(дет)ВероятностьВероят ностьВероят ностьКоличествоВероятотказа за годотказа за годэлементов вотказа с учетом(сред.)сервередублированияотказа за год (факт.)Блок питания90 000100,0970,0430,07020,00003Системная плата300 000340,0290,0030,01610,01606Процессор № 11 000 0001140,0090,0010,00510,00477Процессор № 21 000 0001140,0090,0010,00510,00477RAM, модуль № 11 000 0001140,0090,0030,00610,00613RAM, модуль № 21 000 0001140,0090,0030,00610,00613Жесткий диск400 000460,0220,0130,01820,00000Вентилятор № 1100 000110,0880,0010.04520,00001Вентилятор № 2100 000110,0880,0010,04520.00001Контроллер HDD300 000340,0290,0060,01810,01752Плата300 000340,0290,0120,02010.02043Ленточный накопитель 220 000250,0400,0200,03010.02991ностьсопряженияТаблица1.4Вероятность отказа сервера в течение года0,106Время наработки на отказ для сервера (лет):9.455Среднее время устранения неисправности (ч):24Коэффициент готовности сервера (%)99,97Среднее время простоя в течение года (ч)2,54В заключение приведем значения некоторых параметров надежности кластера, состоящего из двух узлов ивнешнего дискового массива.
Нарушение работоспособности кластера может произойти в случае отказа дисковогомассива либо одновременного отказа обоих узлов в течение времени, необходимого для восстановления узла, первымвышедшего из строя.Положим, что в качестве узла кластера используется рассмотренный нами сервер с коэффициентом готовности Кг =99,97%, а время восстановления работоспособности узла — 24 ч. Для этих исходных ; t a i ι пых кластер будет иметьзначения параметров надежности, приведенные в табл. 1.5.76Таблица 1.5Вероятность отказа массива в течение года0,00004Вероятность отказа одного из узлов в течение года0,106Вероятность отказа кластера в течение года0,0001Время наработки на отказ для кластера (лет)9,739Время восстановления после отказа (ч)24Коэффициент готовности кластера (%)99,99997Среднее время простоя в течение года (с):8Таким образом, кластер высокой готовности обладает достаточно высокой устойчивостью к возможному отказуаппаратуры.
Обычно для серверного оборудования нормальным значением коэффициента готовности считается 99,95%.77Тема 2. Эргономика АСОИУОдним из важнейших вопросов проектирования и функционирования АСОИУ является оптимизациявзаимодействия человека-оператора с вычислительной средой автоматизированной системы. Фактически в АСОИУвзаимодействуют два звена по обработке информации, различных по своей природе. Одно из них — устройство отображения информации, с помощью которого визуализируется информационная модель состояний и условийфункционирования объекта управления.