Л.А. Растригин - Теория и применение случайного поиска (1121205), страница 16
Текст из файла (страница 16)
Входной сигнал представляет собой детерминированный процесс, а помеха е— нормально распределенную последовательность случайных величин с нулевым математическим ожиданием и дисперсией а~. Функция потерь выбрана квадратичной: !р;=(г'.-ц,)". (4.4.4) 1!айдениые в 1172] оценки по различным схемам являются оценками одного и того же параметра, но получены по различным критериям оптимальности: одна цз них и.* определена путем минимизации математического ожидания суммы квадратов отклонений выходных сигналов модели от выходных сигналов объекта, а другая —. у,* — по крнтершо минимума средней дисперсии опенки. Как показано в (!72), обе оценки сходятся к истинному значению почти одинаково.
Отличие заключается в том. что оценка по схеме с самонастраивающейся моделью сходится к истинному значению с перерегулнрованием, характер же сходимостп оценки по разомкнутой схеме монотонный. К достоинству оценки по разомкнутой схеме следует отнести ее ббльшую точность в смысле минимума дисперсии. Это вытекает из того, что оценка у,." находится из условия минимума дисперсии. Любая оценка, в том числе и и,*, определяемая по другому критерию оптимальности, будет обладать большей дисперсией по сравнению с дисперсией х)[у„"]. В [172] показано, что апостерпорные условные дисперсии [при фиксированном векторе г, ~) оценок связаны следующим соотношением; ,0[и*,,]=А х) [у,], (4.4.5) где й -- некоторый положительный коэффициент, причем й>!.
Отсюда следует, что ?)[и,"]>17[у,*]. Преимущество схемы с самонастраивающейся моделью по сравнению с разомынутой состоит в меньшей ее чувствительности к начальным условиям н различным ошибкам. Вопросам сходимости оценок параметров посвящено ряд работ [176, 17?]. В [176] показана сходнмость оценок параметров объекта по методу Бейеса к истинным значениям параметров прн числе наблюдений и- оо. Кроме этого, показана единственность предельного апостериорного распределения, т. е. доказано, что два различных априорных распределения порождают одинаковые предельные апостериорные распределения. Аснмтотическое поведение апостернорных плотностей вероятностей неизвестных параметров, когда число обучающих реализаций стремится к бесконечности, исследовано в работе [177]. Доказано, что апастернорная плотность вероятности неизвестного параметра при числе обучаюшнх реализаций л — «оо аснмптотически нормальна. В заключение настоящего обзора следует отметить, что для рассмотренных методов нахождения оценок (метод минимума риска, максимума апостериорной вероятности, наибольшего правдоподобия) характерны большие вычислительные трудности.
Так, при нахождении оценок по методу минимума риска приходится производить громоздкие вычисления многократных интегралов. Методам максимума апостериорной вероятности и наибольшего правдоподобия присущи трудности, связанные с решением сложных, как правило трансцендентных, уравнений.
В том и другом случае реализация алгоритмов для нахождения оценок требует достаточно мощных ЦВМ. й 4.5. ОЦЕНКА ПАРАМЕТРОВ ОБЬЕКТА ОПТИМИЗАЦИИ В ПРОЦЕССЕ СЛУЧАИНОГО ПОИСКА Оценка параметров объектов в рассмотренных выше работах производилась при пассивном накоплении информации в процессе управления, при этом сам по себе процесс наблю- дения входных и выходных величии объекта не зависит от алгоритма илн стратегии регулятора (в общем случае — управляющего устрой<ства). Информация, снятая с объекта в процессе пассивного наблюдения, может быть лишь разумно обработана, но она не может быть увеличена, какова бы ни была стратегия управляющего устройства. В случае системь< с неполной информацией об объекте н пассивным ее накоплением в процессе управления объем вычислений при оценке параметров не играет существенной роли, так как характеристики объекта определяются один раз или, в ряде случаев, при медленном дрейфе характеристик — периодически, через большие промежутки времени.
Однако в самонастраивающихся и экстремальных системах управления, в которых изменение характеристик является неотъемлемым свойством 1178 — 1971, кпасснвное» определение характеристик объекта принципиально неприемлемо. В адаптивных системах необходимо непрерывное вычисление характеристик объекта путем активного рациональноговоздействия на объект с целью более быстрого и точного изучения его характеристики [70). Вместе с этим следует отметить, что активное воздействие на объект необходимо не только для изучения объекта, но и для приведения его к требуемому состоянию. Именно такой двойственный характер имеют управляющие воздействия в системах экстремального управления.
Данные, снимаемые с экстремального объекта при поисковых движениях, содержат информацию, которая может быть использована не только для определения динамических характеристик, значений функции качества н требуемого направления изменения входных величин, но и для оценки ряда других существенных параметров объекта. Оценку таких параметров экстремального объекта целесообразно проводить на основе информации, получаемой на каждом этапе в процессе поиска. Специфика задач оценки параметров объекта оптимизации состоит в том, что объем статистики, накапливаемой в каждом состоянии систем для определения неизвестных параметров, всегда существенно ограничен и значительно меньше, чем в задачах идентификации объекта в процессе нормальной эксплуатации.
Действительно, при длительном изучении стационарного объекта можно достаточно точно оценить его параметры. Однако для этого потребуются большие затраты времени, что обычно недопустимо прн экстремальном управлении реальными производственными процессами. В случае же нестационарного объекта прн длительном снятии данных параметры объекта могут измениться н оптимальное управление, полученное в результате обработки накопленной информации, окажется несоответствующим реальному состоянию объекта.
Вместе с тем слишком малый объем информации пе позволяет получить достоверных оценок параметров, и управляющее воздействие, определенное по такой информации, ухудшит качество процесса управленпя. Отсюда ясно, что объем информации, или, точнее, объем статистики, накапливаемой в каждом состоянии объекта в процессе поиска экстремума, имеет оптимальное значение по некоторым критериям оптимальности управления. Некоторые аспекты оценки параметров объектов самонастраивающихся и экстремальных систем изучены в [80, 98, !98 — 2091. В 11981, по-впдимому, впервые рассматриваются вопросы оценки параметров (постоянной времени) динамической части одномерной системы автомзтпческой оптимизации с помощью динамической модели при подаче па вход объекта и модели синусоидальных тестовых сигналов или случайных флуктуаций.
Процесс идентификации идет одновременно с поиском экстремума параболической функции качества в обстановке помех. Система оптимизации является нелинейной с переменными параметрами. Сигнал обратной связи, поступающий на вход объекта, включает в себя информацию о направлении движения к экстремуму и сведения о дияамических характеристиках объекта, получаемых путем сравнения выхода объекта и модели. Результаты обобщаются затем па двумерную систему. Изучены вопросы устойчивости собственно системы оптимизации и идентифицирующей части системы, В ~1991 предложен итерационный способ определения характеристик многомерных нелинейных динамических систем, связанный с уточнением модели объекта.
Характеристики определяются для целей самонастройки объекта. В ряде работ 180, 98, 202 †2] рассматриваются вопросы идентификации изменяющихся во времени параметров обьектов самонастраивающихся систем со случайными входами методами статистических решающих функций. Так, в работах 198, 2021 область изменения параметра разбивается на несколько интервалов. Решение в том, в каком вз интервалов находится действительное зна. чение параметра, выносится на основе проверки статистических гипотез, а также по методу минимума функции среднего риска.
В зависимости от принятого решения регулятор производит подключение той или иной корректирующей цепи, кото- !00 ран компенсирует отклонение параметра с тем, чтобы режим работы системы удовлетворял заданному критерию качества. В (202) решение о принятии той или иной гипотезы производится прп фиксированном числе наблюдений. Далее в работах этого цикла (203, 204) авторы развивают подход с применением последовательных решающих процедур, когда число наблюдений заранее не фиксировано и определяется результатами измерений. Показано, что при одном и том же числе наблюдений последовательные решающие правила дают меньшую вероятность ошибки, чем непоследовательные решения.
Результаты, полученные в (203), применены затем в (204) для синтеза релейной системы, оптимальной в смысле минимума средиеквадратической ошибки. Идентифицируемым параметром в 1204) является постоянная времени динамического звена. Достоинство работ [202--204) заключается в том, что полученные алгоритмы оценки параметров доведены до схемной разработки решающих устройств. В процессе оптимизации систем, на функции качества которых накладываются случайные помехи, необходимо знать не только динамические характеристики объектов, но и некоторые параметры, что позволяет построить оптимальную стратегию поиска, К таким параметрам относится уровень полезного сигнала, т. е.
наибольшее изменение функции качества при постоянном пробном шаге поиска, что дает возможность определить оптимальную длину рабочего шага и расстояние до цели (точки экстремума), оценка которого позволяет установить момент попадания системы в заданную окрестность экстремума. В связи с этим возникает задача статистической оценки указанных параметров на каждом рабочем шаге поиска. В рассмотренных выше работах определение характеристик объекта производилось прн детерминированных стратегиях поиска экстремума. Здесь будут рассмотрены экстремальные системы управления, работающие по методу случайного поиска с накоплением (2!О, 211].
й 4В. ОЦЕНКИ В ЛИНЕЯНОМ И ЦЕНТРАЛЬНОМ ПОЛЕ Функция качества для линейной и центральной модели объекта записывается в следующем виде: Ц = (Егад Я Х); (4.6.1) !О! (4.6.2) где круглыми скобками обозначено скалярное произведение. Полагается, что значение градиента функции качества зависит от положения, но не зависит от времени, Х=-(хь...
, х„) —. вектор текущего состояния, а Х* — положение цели, где функция качества принимает наименьшее значение. В процессе поиска система из исходного состояния смещается в случайном направлении на величину пробного шага в пространстве параметров х„...,х„. Вто приводит к изменению значения качества объекта на величину и( — Х..:-и~й), где ).=д ~ угад Я ~. (4.6.3) На функцию качества объекта управления аддитнвно в каждом измерении накладывается некоррелированная помеха е(оз/2) с нормальным законом распределения, Накопление статистики производится следующим образом.