И. Соммервилл - Инженерия программного обеспечения (1133538), страница 97
Текст из файла (страница 97)
ляет это значение к данным. Приемник данных применяет к данным ту же самую функцию и сравнивает полученное значение с контрольной суммой. Если они отличаются, значит, произошло некоторое нарушение целостности данных. Этот же механизм может использоваться для обнаружения вторжения в защищенные данные и преднамеренного их изменения. Когда используются связанные структуры данных, их представление можно сделать избыточным путем включения обратных ссылок. Тогда для каждой прямой ссылки от А к В будет существовать обратнал ссылка от В к А Если также имеется счетчик числа элементов в структуре, можно проверить соответствие прямых и обратных ссылок и совпадение эталонного и вычисленного размеров структуры.
Если процессы имеют ограничения на время их выполнения, можно установить контрольный таймер. Он начинает действовать одновременно с процессом, определяя время его исполнения, и возвращается в исходное состояние после выполнения процесса. Он опрашивается блоком управления через постоянные интервалы времени. Если по какимто причинам процесс не завершится, контрольный таймер не возвратится в исходное положение.
В таком случае блок управления обнаруживает сбой и принимает меры для при. нуднтельного завершения процесса. 18.2.4. Восстановление системы Это процесс изменения состолний системы для минимизации последствий сбоев. В этом случае система может продолжать функционировать, возможно с пониженной эффективно. стью.
Прямое восстановление системы (при отсутствии дублирующих компонентов) — это попытка исправить поврежденное состояние системы. Обратное восстановление переводит систему из сбойного состояния к известному "правильному" состоянию. Прямое восстановление системы обычно применяется в следующих ситуациях. 1. Когда ~азууиеям зпкодированнме длняма Использование методов кодирования, которсае добавляют данным избыточность и позволяют не только определить, но и исправить ошибки.
2. Когдп Ужз1ьукиясч салзпняы| сифукзбРьс Если в систему данных включены как прямые, так и обратные указатели, то структура может бьггь восстановлена в случае сохранения достаточного количества указателей. Эта методика часто используется длл восстановления баз данных и файловых систем. Обратное восстановление системы является более простым методом, который восстанавливает систему путем перевода ее в безопасное состояние.
Большинство систем баз данных имеют средство обратного восстановления. Когда пользователь 378 Часть 11/. Крмтическке системы начинает работу с базой данных, инициализируются транзакции. Изменения, сделанные в течение выполнения транзакции, не переносятся немедленно в базу данных. База данных изменяется только после окончания транзакций в том случае, если не возникло никаких проблем.
Если при выполнении транзакции произошел сбой, база данных пс изменяется. Такой процесс выполнения транзакций позволяет восстановление при возникновении ошибок, поскольку изменения в базах данных не происходят до окончания выполнения транзакции. Но процесс выполнения транзакций не позволяет восстановление из состояния, которое было изменено.
Введение контрольных точек — метод, который позволяет выйти нз этой ситуации. Состояние системы периодически дублируется. Когда возникают проблемы, корректное состояние можно восстановить, воспользовавшись одной нз этих копий. Пример обратного восстановления на основе обработки исключительной ситуации показан в листинге !8.7, в котором приведен код ца языке )ага для обнаружения ошибок и обратного восстановленил. Листинг 18. 7.
Процедура безопасной сортировки с обратным восстановлением с1авв Яа1евогт ( всасдс тодд вогс зпс [] Бпсаггау, эпс огс]ег ) сцгомв яогсетгот ( Бпс [) сору = пем 1пс [эпсатгау.1епдтЬ]; //копирование исходного массива тот (эпс 1 = О ; э < 1псатгау.1епдсп ," 1++) сору[11 = дпсаггау[э]г Сту ( Ботс.ЬиЬЬ1евогс (1псаггау, Япсаггау.
1епдсп, отбег]г 1Е (огг)ет == Ботс.авсепг)1пд! уог (Япт э = О ; э <= Бптаггау.1епдСЬ - 2 ; 1++) 1б (1пгаттау [1] > эпсаттау [э+1]) тьгом пем ЯогСЕттот(); е1ве тот (Бпт 1 = О г 1 <= 1птатгау.1епдтп — 2 ; э++) (зптаттау [1+1] > Бптатгау (11) спгом пем Ботсетгот ()! ) //блок Сгу сатсп (Богсаггог е) Еог (Бпт э = О ; э < Ептаттау.1епдтп ; э++) 1птагтау [11 = сору [11 спгом пеи яогсеггог (" Массив не отсортирован") ! // сассп ) // сортировка ) // Яа1едогс Метод копирует массив перед выполнением сортировки. В этом примере для простоты сортировка выполняется методом "пузырька", но, очевидно, можно использовать любой алгоритм сортировки.
Если в алгоритме сортировки есть ошибки, то массив не будет от. сортирован, что опрслсляется точным порядком элелгеитов в массиве. В этом случае воз. никаст исключительная ситуация Зог[Епог (ошибка сортировки). Обработчик исключе- 18. Разработка критических систем 377 ний не пробует устранить проблему, а восстанавливает первоначальные значения массива и повторно передает БоЦЕпог, чтобы указать вызывающему методу, что сортировка не была успешно завершена.
В этом случае ответственность за устранение ошибок перекладывается на вызывающий метод. 18.3. Отказоустойчивые архитектуры Безопасное программирование — эффективный метод обеспечения отказоустойчиво. сти. Он относительно прост и обычно не намного усложняет систему. Однако он не может эффективно справиться с ошибками системы, которые являются результатом взаимодействия оборудования и программного обеспечения. Кроме того, ошибки в системной спецификации или неправильная интерпретация требований могут привести к тому, что безопасное программирование не сможет спасти правильносп* программного кода. Поэтому для большинсгва критических систем, особенно со строгими требованиями к работоспособности, требуется системная архитектура, обеспечивающая устойчивость к сбоям.
Примерамн систем, которым необходим такой вид системной архитектуры, являются самолетные системы, которые должны сохранять работоспособность в течение всего времени полета, телекоммуникационные системы, а также разнообразные системы управленияи контроля. Для построения отказоустойчивого оборудования обычно требуется много лет, Используемая в большинстве случаев технология устойчивого к сбоям оборудования базируется на методе тройного модульного резервирования, когда модуль оборудования д)блируется три (иногда больше) раза. Выходные данные каждого модуля сравниваются: сели один из модулей выходит из строя и на его выходе данные не совпадают с выходными данными других модулей, эти данные игнорируются.
Если невозможно сразу восстановить сбойный модуль, система автоматически перекоифи~урируется, исключая поврежденный модуль. Далее система продолжает функционировать с двумя работающими молулями (рис. 18.3). Рис. 18З. Тройноелюоулыне)леве)лвиуловпниейвп обеспечения отелло уегвойчивоеэги ойЯдоепнил Этот метод обеспечения отказоустойчивости предполагает, что большинство сбоев в работе оборудования являются результатом отказа компонентов, а не ошибок проектирования системы; при этом считается, что отказы компонентов проявляются независимо. Также предполагается, что все составляющие системы удовлетворяют спецификации требований.
Вследствие этого вероятность одновременного отказа всех компонентов оборудования считается оченьмалой. Конечно, компоненты могут иметь общую ошибку проектирования и тогда могут одновременно отказать. Вероятность такой ситуации можно уменьшить, если использовать 378 Часть ЯУ. Критические системы компоненты, которые удовлетворяют общим требованиям, но проектировались и разрабатывались разнымн командами разработчиков. В этом случае предполагается, что вероятность допустить одну и ту же проектную или производственную ошибку различными командамн разработчиков очень мала.
Подобно тому как к аппаратным средствам предъявляются требования работоспособности и безотказности, аналогичные требования устойчивости к сбоям предъявляются и к программному обеспечению. Существует два сравнимых подхода к обеспечению отказо. устойчивости ПО (рис. 1В.4 и 18.5). Оба подхода заимствованы из моделей аппаратных средств, где вследствие избыточности неисправные компоненты можно временно исюпочить из системной конфигурации.
Ркс.!В.4. Мварклктнпе ярогрлмнировпкое Выюлнанне алгоритма 1 Твстнроаанне лхониа Вмйолнання, риамочнмй тост о зааврамн об нскпочнтальной ситуации, асан асс алгорнтмм шлн тестирсамяе Блоюи восстановления Рис. 18.5. Блоки вассвшновленил Опишем подходы к созданию отказоустойчивого программного обеспечения. 1, Хвприлнтксе ярсчрпмнировлние. В соогвегствии с общей спецификацией различными командами разработчиков разрабатывается несколько версий программно. го обеспечения.