Надежность АСОИУ (1088455), страница 20
Текст из файла (страница 20)
Разработка такой системы охватывает как аппаратные средства, так и программное обеспечение и позволяет проводить модернизацию (upgrade) и обслуживание в режиме on-line.Дополнительным требованием к системам является отсутствие деградации в случае отказа. Время восстановления послеотказа не превышает 1 с.Принципы повышения надежности и готовности компьютерной системы. Повышение надежности основано на принципепредотвращения неисправностей путем снижения интенсивности отказов и сбоев за счет применения электронных схеми компонентов с высокой и сверхвысокой степенью интеграции, облегченных режимов работы схем, а также за счетрезервирования (или дублирования) жизненно важных компонентов.
Основной единицей измерения надежности является среднее время наработки на отказ T.Повышение готовности предполагает подавление в определенных пределах влияния отказов и сбоев на работусистемы с помощью средств контроля и коррекции ошибок, а также средств автоматического восстановлениявычислительного процесса после проявления неисправности, включая аппаратурную и программную избыточность, наоснове которой реализуются различные варианты отказоустойчивых архитектур. Повышение готовности есть способборьбы за снижение времени простоя системы. Единицей измерения является коэффициент готовности, которыйопределяет вероятность пребывания системы в работоспособном состоянии в любой момент времени.Все упомянутые типы систем высокой готовности имеют общую цель — минимизацию времени простоя.Различают два типа времени простоя компьютера: плановое и неплановое.
Минимизация каждого из них требуетразличной стратегии и технологии. Плановое время простоя обычно включает время, принятое руководством, дляпроведения работ по модернизации системы и для ее обслуживания. Неплановое время простоя является результатомотказа системы или компонента. Хотя системы высокой готовности в большей мере ассоциируются с минимизациейнеплановых простоев, они оказываются также полезными для уменьшения планового времени простоя.Так, некоторые конфигурации дисковых подсистем высокой готовности, особенно системы с зеркальнымидисками, позволяют производить резервное копирование данных в режиме реального времени (on-line).
Другимисточником снижения планового времени простоя является организация работ по обновлению (модернизации)программного обеспечения. Сегодня некоторые отказоустойчивые системы и все системы с непрерывной готовностьюпозволяют производить модернизацию программного обеспечения в режиме on-line.Неплановое время простоя, прежде всего, снижается за счет использования надежных элементов, резервныхмагистралей или избыточного оборудования, обслуживаемого надежным программным обеспечением.
Однако даже вэтом случае плановое время простоя может оказаться значительным.Специальное программное обеспечение является существенной частью систем высокой готовности. Приобнаружении неисправности системы оно позволяет управлять конфигурацией аппаратных средств и программногообеспечения, а также процедурами начальной установки и при необходимости перестраивает структуры данных.Технологии построения отказоустойчивых систем базируются на программной, аппаратной и аппаратно-программнойизбыточности.60Подсистемы внешней памяти высокой готовности. Первым шагом на пути обеспечения высокой готовности являетсязащита наиболее важной части системы, а именно данных. Разные типы конфигураций избыточной внешней памятиобеспечивают разную степень защиты данных.Как указывалось в предыдущем параграфе, в настоящее время используются три основных типа подсистемвнешней памяти с высокой готовностью.
Они реализуются на основе технологии избыточных массивов дешевых дисков(RAID — Redundant Arrays of Inexpensive Disks). Наиболее часто применяются: RAID уровня 1 или зеркальные диски,RAID уровня 3 с четностью и RAID уровня 5 с распределенной четностью. Эти три типа внешней памяти в общемслучае имеют практически мгновенное время восстановления в случае отказа.Кроме того, подобные устройства иногда позволяют администраторам смешивать и подбирать типы RAID впределах одного дискового массива.
В общем случае дисковые массивы представляются в прикладной задаче как одиндиск.Диапазон возможных конструкций современных дисковых массивов достаточно широк. Он простирается отпростых подсистем до весьма избыточных дисковых подсистем, которые позволяют пользователям смешивать иподбирать уровни RAID внутри одного устройства. Наиболее мощные дисковые подсистемы могут также содержать всвоем составе процессоры, которые освобождают основную систему от выполнения рутинных операций ввода-вывода,форматирования дисков, защиты от ошибок и выполнения алгоритмов RAID. Большинство дисковых массивовснабжаются двумя портами, что позволяет пользователям подключать их к двум различным системам.Дополнительная стоимость дисковой подсистемы для организации зеркальных дисков достигает 100%, посколькутребуемые диски должны дублироваться в избыточной конфигурации 1:1.
Для RAID уровней 3 и 5 она составляет либо33%, либо 20% при наличии диска четности для каждых двух или четырех накопителей соответственно.Реализация внешней памяти высокой готовности может приводить также к увеличению системных накладныхрасходов. Например, основной процессор системы вынужден обрабатывать две операции при каждой записиинформации на зеркальные диски, если эти диски не являются частью зеркального дискового массива, который имеетсобственные средства обработки. Однако наиболее сложные дисковые массивы позволяют снизить накладные расходыза счет использования процессоров ввода-вывода, являющихся частью аппаратуры дискового массива.Журнализация файловой системы. Следствием журнализации изменений файловой системы является то, что файлывсегда находятся в готовом для использования состоянии.
Когда система отказывает, журнализируемая файловаясистема гарантирует, что файлы сохранены в последнем согласованном состоянии. Это позволяет осуществлятьпереключение на резервную систему без какой-либо порчи данных, вообще без каких-либо потерь данных или с потерейтолько одной последней транзакции. Такие системы отличаются от систем, которые осуществляют журнализациютолько метаданных файловой системы (процедура, которая помогает управлять целостностью файловой системы, но нецелостностью данных).
Функция журнализации чаще всего реализуется при помощи программного обеспечения.Изоляция неисправного процесса. Для активно используемых компонентов программного обеспечения, таких какфайловая система, применяется технология изоляции неисправных процессов, гарантирующая изоляцию ошибок водной системе и невозможность их распространения за пределы этой системы. Данная технология, как и предыдущая,носит программный характер реализации.Дополнительные функции программного обеспечения. В современных системах все возрастающую роль играет диагностикав режиме реального времени (on-line), позволяющая предвосхищать проблемы, которые могут привести к простоюсистемы. В настоящее время она специфична для каждой системы.
В будущем, возможно, диагностика станет частьюраспределенного управления системой.Сетевая организация и коммуникация. Системы высокой готовности требуют также высокой готовности коммуникаций.Чем быстрее осуществляются коммуникации между машинами, тем быстрее происходит восстановление после отказа.Некоторые конфигурации систем высокой готовности имеют дублированные коммуникационные связи. В результатесвязь перестает быть точкой, отказ которой может привести к выходу из строя всей системы. Использование сетей LAN61и WAN с повышенной пропускной способностью обеспечивает как локальные, так и удаленные компьютеры болеебыстрыми коммуникациями, что приводит в итоге к более быстрому восстановлению в распределенных системах.Современная сетевая технология сама по себе требует устранения таких точек, выход из строя которых можетпривести к отказу всей сети.
Сегодня при создании сетей характерно использование более сложных сетевых устройствот различных поставщиков, таких как маршрутизаторы и сетевые коммутаторы. Маршрутизаторы, которые определяютпуть данных в сетях, способны вычислить новый путь в случае отказа связи. Коммутаторы, имеющие конфигурации сизбыточными устройствами, позволяют изолировать отказы в физической сети и предотвратить отказ всей сети. Важнуюроль в поддержании оптимального функционирования систем играют также сетевые анализаторы, позволяющие вызватьсистемного менеджера по любому симптому, который может потенциально привести к простою.Высокая готовность сетевой организации зависит от размера сети.