Л.А. Растригин - Теория и применение случайного поиска (1121205), страница 12
Текст из файла (страница 12)
3.14 в виде графа показана изменение состояний в зависимости от знака Л9 детерминированного автомата с 2пг состояниями. Изменение переменных хь хь....,х происходит согласно соотношениям ха+1 — х,з 1 пп,э+1 (3.4.7) где а +' — выход )что автомата, равный +1 или — 1, в зависимости от того, находится лн )-й автомат на (э+1)-мтактеводном 73 чайного поиска с покоординатным обучением можно описать схемой, предлогкенной Ю. И. Неймарком, В. П.
Григоренко и Л. М. Рапопортом и изображенной на рис. 3. 13. Необходимо только поставить на координатах хь хм..., х„оптпмизиоуемого ааха Рис 8.16. объекта Я (хь..., «„) вместо детерминированных автоматов Аь Аь..., А„автоматы со случайными реакциямн. На рис. 3.16 в внде графа показаны переходы автомата А; в зависимости от входа ЛЯ. У одного автомата (он обозначен через А,) переходы являются детерминированными, не зависящими от знака ЛЯ. Для других автоматов А, (1=2,..., и) переходы являются вероятностными, зависящими от знака ЛЯ и от состояния ге; автомата.
Вероятности перехода йч(геь ЛЯ) равны, соответственно, вероятностям р;(ю;) и д;(гв,) =1 — р;(гн;) выбора автоматов положительной нлн отрицательной реакции, Р. В. Макларен предлагает использовать стохастические автоматы с переменной структурой в качестве обучающихся систем автоматического управления (79 — 82). Такая система также применена для определения глобального экстремума 75 функции многих переменных.
Пусть система находится в стохастической среде с неизвестными параметрами. Взаимодействие системы и среды показано на рис. 3,17. Пусть вектор Х=. (х»,...,х,,) является выходом обучающейся Г ! ! ! ! » или как М с,(м) = — ~ ц! (й). й», » (3.4.9) системы (входом внешней среды), а вектор У= (р»,..., у,) выходом внешней среды (входом обучающейся системы). Внешняя среда и обучающаяся система рассматриваются как автоматы. Предполагается, что связь между векторами Х и т' задается условным распределением вероятностей Н(т/Х), которое не известно, но стационарно.
Пространство й значений вектора т' разделяется на непересекающиеся области )»»,...,)»»»,. Каждой области Р» приписывается некоторый вес Ф'»="О (»= =1,..., Л), соответствующий желаемой частоте пребывания вектора т' в этой области. Секцня обучения стремится выбирать такие значения вектора Х, при которых с наибольшей вероятностью появляется т' из желаемой области )т». Функция качества работы системы определяется как среднее значение веса )к' (зависящего от вектора Х): 0(Х) = К РУ„ ~ (Н(У(Х) (3.4.8) »»- » Р„ р;(Л>+1) =айч(Л>)+(! — а)Лб Г 0(а(1, Л;= 0; ХЛ;=1. (3.4.10) Этот алгоритм можно записать в виде Р(Л') =(Цп»Ц)ь Р(0), (3.4.11) где Б=ЦиоЦ вЂ” матрица переходных вероятностей автомата: а+ (1 — а) ьь (1 — а) Ль..., (1 — а) Л> ~ и= (1 ) и+(! ) '(1 ) (3412 ~~, (1 — а) >., „..., (1 — а) Л,, а+ (! — а) Л, ! Из выражений (3.4,1!) и (3.4.!2) следует, что !пп Р(Л>) =(Ль..., Л,). (3.4.13) Константы а п Л> (1=1,..., г) в общем случае зависят от входа В'; обучающейся системы.
Поэтому (>;(Л'+1) =а(>,(Л) + (! — п)Б(г)), 1=1,..., г, (3.4.14) Обучавшаяся система стремится выбирать такие значения вектора Х, которые соответствуют экстремальным значениям Я(Х) и Е(М). Функция Я(Х) может быть и мпогоэкстремальной. Предполагается, что блок об>учения является стохастическим автоматом с входами из множества (Юь..., В'х) и выходом Х. Значение вектора выхода Х на Л1-м шаге определяется в соответствии с функцией плотности вероятностей Р(Х, Л>).
Пусть обучающаяся система имеет г состояний и каждое состояние определяет один определенный выход автомата Хь На Ф-м шаге выход Х; автомата определяется вектором вероятностей Р(>т') = (»,ж,..., р,сг)), где рбк) — вероятность появления Х, на Л'-м шаге. Обучение автомата осуществляется по линейному алгоритму где 1 соответствует Х(Л') =Хб 5(М) — нормированные вели- чины !рк. 1Рм 5(Л!) = — - — —. ' а ~, й"н р,.(Л'+1) =ар!(Лг) + (1 о) 1 — 5(Л') (3.4.15) (3.4.16) гу(Ли+1) =аз, (Л) + (1 — а)г;(Л+! ), (3.4.!8) (3.4.! 9) Я(р) — значение функции качества, измеренное в момент времени Л'; Н и у — константы; г.,(Л) — среднее значение г,(Л!) по времени У. Прп )'Ф1 г,(Л(+1) =г,(М). (3.4.20) Вероятность выбора на %+1-и шаге выхода Х; определяется по формуле р,(Л'+1)= —.' —,—, 1=1,2,...,г, (342!) г,, (Л'+ 1) Е(Ж+!) ' где Е(Л'+1) = ~, г,(Л'+!).
~'.1 Изложенная схема поучения автомата с переменной структурой применима к описанию алгоритмов случайного поиска с обучением, если под состоянием и выходом автомата понимать смещение ЛХ в пространстве параметров, а под входом автомата — приращение функции качества Ь(,!.
Обучаясь по этому алгоритму, Р()т') сходится к такому предельному распределению 1пп Р(М) = (уь..., у,), (3.4.17) для которого Я(Х) принимает экстремальное значение, Г. И. Макмурти и К. С. Фу !83, 84) вместо алгоритма обучения Буша — Мостеллера применяют накопление ГЛАВА 1т ИДЕНТИФИКАЦИЯ ОБЪЕКТА В ПРОЦЕССЕ СЛУЧАЙНОГО ПОИСКА й ая. ВВЕДЕНИЕ Реальные производственные объекты отличаются своей сломсностью н, как правило.
функционируют в условиях воздействия случайных возмущений. Параметры, характеризующие статические и динамические свойства объекта, обычно изменяются во времени непредвиденным образом. Вследствие отмеченного, а также из-за погрешностей измерений практически в любых системах автоматического управления информация об объекте является неполной и неточной, Отсутствие того илн иного вида информации оо объекте чрезвычайно существенно, так как для определения оптимального алгоритма управления необходимо знать характеристики автоматизируе мого объекта. Неполнота информации об объекте вызывает необходимость его изучения тем нлн иным методом в процессе управления.
Отсюда видно, что задача определения статических и динамических характеристик управляемого объекта (идентификация) неразрывно связана с самим процессом регулирования и ее решение либо предшествует выработке оптимальной стратегии, либо осуществляется одновременно с построением оптимального алгоритма управления. При идентификации объекта рассматриваются два аспекта [1 — 5]: 1) определение структуры (топологии) системы (объекта), рассматриваемой как «черный ящик»; 2) оценка параметров — определение величин параметров системы [объекта), причем структура предполагается известной. Задачи идентификации объекта в том нли ином аспекте изучаются во многих работах [1 — 16].
В систематизированном и обобщенном виде методы определения характеристик объектов изложены в раоотах [6, 7, 10 — 14), Разработанные мстоды идентификации условно можно разделить на следующие три группы [13[: 1) методы переходных процессов; 2) методы частотных характеристик; 3) статистические методы. Статистические методы определения динамических характеристик находят все более широкое практическое приложение, что объясняется тем, что входные и выходные переменные реальных производственных процессов являются по своей природе случайными величинами и связь между ними стохастпческая.
На практике в некоторых случаях оператор объекта известен. Общая проблема определения динамических характеристик таких объектов сводится к задаче определения конечного числа параметров, от которых зависят эти характеристики, Г!редметом нашего дальнейшего рассмотрения будут статистические методы идентификации объекта управления, главныч образом в смысле оценки его параметров, и лишь в небольшоп степени будет затронут вопрос определения динамических характеристик. При этом известные, широко распространенные методы идентификации, основанные на решении интегрального управления Винера--Хопфа, здесь не затрагиваются. Отметим следующие статистические методы определения характеристик: 1) оценка параметров методамп теории статистических решений [метод минимума риска, максимума апостериорной вероятности, наибольшего правдоподобия): 2) метод Калмена.
Ограничимся рассмотрением этих методов. Теория статистических решений развита американским~ математиками А. Вальдом, Д. Блекуэллом, М. Гиршиком и другими [1? †4. Итогом первого практичесиого приложения этой теории явилось создание обширной теории выделения сигналов на фоне помех, выводы которой нашли широкое применение при решении задач связи, радиолокации, обработки информации и т. п.
[43 †6. Эта теория позволяет 80 синтезировать устройства для оптимальной обработки сигналов на фоне случайных помех при условии, что статистические характеристики сигналов н помех известны априори и стадно нарны. Затем аппарат теории статистических решающих функций с успехом был применен для построения теории оптимальных систем управления [68--100]. В работах 170, 71] поставлена и решена весьма общая задача, сводящаяся,посуществу, к изысканию оптимальных алгоритмов управления в неопределенной обстановке прн неполной априорной информации об объекте управления в замкнутой системе с активным накоплением нн формации.
Эти системы названы системами дуального управления 17!]. В таких системах решаются две тесно взаимосвязанные, но различные по характеру задачи. Во-первых, на основании снимаемой с объекта информации выясняются его характеристики и состояние. Во-вторых, па основе найденных данных об объекте определяется оптимальный закон управления. На базе статистических решений создана теория обучающихся и самообучающихся систем, оптимальных в бейесовом смысле !10! — 134]. Оптимальное обучение н самообучение ав томатической системы состоит в отысканий оптимального алгоритма — решающей функции, которая является условным распределением выходного сигнала системы относительно входного, зависящим от неизвестных характеристик сигналов, помех и объекта. В конечном счете процесс обучения (самообучение) автоматической системы в общем случае сводится к нахождению апостериорной плотности вектора неизвестных параметров п > полученным системой в процессе обучения (самообучения) реализациям сигналов и последующему определению оптимальной решающей функции системы путем минимизации соответствующего апостерпорного риска )10!].
Со статистической теорией оптимальных адаптивных и обучающихся (самообучающихся) систем неразрывно связано решение проблемы распознавания образов, являющееся обобщением задач обнаружения сигналов на фоне шумов !135 — !52]. Задачи распознавания образов характеризуются сложностью сигналов и весьма значительной априорной неопределенностью характеристик классов образов, Одним из путей преодоления «априорной трудносп?» в таких задачах является использование методом обучения и самообучения систем, которые позволяют 81 восполнить недостающую априорную информацию во время предварительного обучения системы или же непосредственно в процессе распознавания !бб]. В !!Зб] с использованием бейесовского подхода получены оптимальные алгоритмы обучения и самообучения систем распознавания образов.