Хайкин С. - Нейронные сети (778923), страница 160
Текст из файла (страница 160)
Ниже приложение к игре в нарды будет описано более детально. Программа-игрок в триктак, основанная на нейронных сетях, впервые была описана в [1048] и впоследствии была улучшена в [1046]. Этот успех для частного случая послужил толчком к дальнейшим исследованиям в области нейродинамического программирования. Триктрак (нарды) — это древняя настольная игра, в которой принимают участие два игрока. Она может быть представлена как одномерный маршрут, который шашки игроков проходят в противоположных направлениях. Игроки поочередно бросают пару костей и соответствуюшим образом передвигают свои шашки по маршруту доски. Допустимые перемещения зависят от выпавшего на костях количества очков и конфигурации доски.
Каждый из игроков должен переместить все свои шашки из конца маршрута, принадлежащего противнику, в свой конец маршрута. Первый, кто выполнит эту задачу, считается победителем. Эту игру можно промоделировать как Марковский процесс принятия решений, в котором состояния определяются описанием конфигурации доски, выпавшими на костях очками и идентификатором игрока, совершаюшего ход.
Первая версия нейронардов, описанная в [1048], использует обучение с учителем. Она способна обучаться на промежуточном уровне при наличии только приближенного описания состояния. Пожалуй, самым интересным открытием, описанным в этой работе, было хорошее поведение при масштабировании: при увеличении размера нейронной сети и количества примеров обучения наблюдалось соответствуюшее увеличение производительности. Нейронную сеть, используемую при обучении, представлял многослойный персептрон (М).Р), обучаемый согласно алгоритму обратного распространения.
Наилучшей эффективности удалось добиться при использовании М[.Р с 40 скрытыми нейронами. При этом обучение проводилось в ходе более чем 200000 игр. В последующих исследованиях [1046] для обучения нейронной сети использовалась одна из форм итерации по стратегиям, названная онтимистической Т17(к). Аббревиатура Т)3 означает !ешрога1 д!йегепсе!еаппп8 — обучение на временные разностях [1032]. Оптимистическая стратегия Тх)(Х) — это метод аппроксимации функции стоимости перехода .[к, основанный на моделировании, в котором стратегия )г заменяется новой стратегией, являющейся жадной по отношению к аппроксимации [" при каждом переходе состояний [126].
Компьютерную программу, основанную на этом методе нейродинамического программирования, часто называют 796 Глава 12. Нейродинамическое про~раммирование ?Р-шулером. В представление входного сигнала для нейронной сети Тезауро (Теванго) добавил искусственно созданные функции состояний (т.е. признаки), что позволило этой программе играть на уровне мастера, приближающегося к уровню чемпиона мира. Убедительным основанием для этой оценки послужил ряд тестов, в которых эта программа играла против нескольких гроссмейстеров мирового класса (1045).
Задачи Критерий олтимальности Беллмана 12.1. При стремлении дисконтного множителя т к нулю вычисление функции стоимости перехода (12.22) замедляется. Почему зто происходит? Обоснуйте свой ответ. 12.2. В этой задаче будет представлено еще одно доказательство уравнения оптимальности Беллмана (12.22) [905). а) Пусть я — произвольная стратегия.
Предположим, что и выбирает действие а в момент времени 0 с вероятностью р„где а Е Ао Тогда У'(г) = ~~~ р с(г,а)+ ~~ р; (а)И'~(2) аеА, у=1 где Игл(~) представляет собой функцию ожидаемой стоимости перехода с шага 1 вперед при использовании стратегии я и состояния з'. Покажите, что У'(г) > ппп с(г, а) + т~р;,(а)%'(2) т=1 где д"л(2) ) т,)(() б) Пусть к — стратегия, которая выбирает действие ае в момент времени 0 и, если следующим состоянием будет з, рассматривает процесс, начинающийся в состоянии т' и соответствующий стратегии я„такой, что Задачи 797 где е — малое положительное число.
Покажите, что при этих условиях У'(г) > ппп с(г, а) + 7~ р,т(а))Я ув. 1=1 в) Используя результаты, полученные в пп. (а) н (б), получите равенство (12.22). 12.3. Уравнение (12.22) представляет собой систему Ж линейных уравнений, по одному для каждого состояния. Пусть ов = [У'(1), У'(2) ... У'()У)[т с(Н) = [с(1,Н),с(2,Н),...,с()У,Н)[т, Рп(Н) Р1г(Н) Ргк(Н) Рг1(Н) Ргг(Н) .. Ргк(Н) Р(Н) = Ркг(Н) Ркг(Н) ° Ркк(Н) Покажите, что уравнение (12.22) можно переписать в эквивалентной матричной форме: (1 — ур(Н))Ю" = с(Н), где 1 — единичная матрица.
Прокомментируйте единственность вектора Л", представляющего функции стоимости перехода для )У состояний. 12.4. В разделе 12.3 был выведен алгоритм динамического программирования для задачи с конечным горизонтом. В этой задаче мы снова выведем этот алгоритм для дисконтиой задачи, в которой функция стоимости перехода выглядит следующим образом: К-1 Р(Хо) = 1пп ',> 7"д(Х„, Н(Х„), Х„+,) =о В частности, покажите, что У'(Хо) = ппп Е [д(Хо, Н(Хо), Х,) + 7.7к 1(Х,)]. и х, Глава 12.
Нейродинамнческое программирование Т98 Итерация по стратегиям В разделе 12.4 говорилось, что функция стоимости перехода удовлетворяет условию 12.5. Обоснуйте это утверждение. Прокомментируйте значимость выражения (12.25). 12.6. Используя систему контроллера с модулем критики (сопПо!!ег спбс зузгегп), проиллюстрируйте взаимодействие коррекции и оценки стратегий в алгорит- ме итерации по стратегиям.
12.7. Итерация по значениям Задача динамического программирования включает в себя Аг возможных со- стояний и М допустимых действий. Предполагая использование стационар- ной стратегии, покажите, что одна итерация алгоритма итерации по значени- ям требует порядка АгзМ операций. 12.8. 12.9. В табл. 12.2 представлен в сжатом виде алгоритм итерации по значениям, сформулированный в терминах функции стоимости перехода г" (() для состояний 1 ЕХ. Переформулируйте этот алгоритм в терминах О-факторов Я(г, а). 12.10.
х1-обучение 12.11. Покажите, что .7'(г) = пппЯ(г, а). аЕА, Алгоритм О-обучения иногда называют адаптивной формой стратегии ите- рации по значениям. Обоснуйте справедливость этого утверждения. ! 2.12. Постройте граф передачи сигнала для приближенного алгоритма О-обучения (см. табл. 12.4). 12.13. Приближенный алгоритм О-обучения (см. табл. 12.4) предполагает отсут- ствие знаний о вероятностях перехода между состояниями.
Переформули- руйте этот алгоритм в предположении доступности этих вероятностей, 12. 14. Алгоритм итерации по стратегиям всегда завершается за конечное число шагов, в то время как алгоритм итерации по значениям может потребовать бесконечного их числа. Прокомментируйте другие различия между этими двумя методами динамического программирования. гг1 сы гггц ":." гк.ь1* ярд' гулаг).'.зй]]((йр([[шгьтгв .г; и сия ге йсгт .:1",исйгп лг[фот4звйадув '. Временная обработка с использованием сетей прямого распространения 13.1. Введение Время является существенной составляющей процесса обучения.
Оно может быть непрерывным и дискретным. Какую бы форму ни принимало время, оно является упорядоченной сущностью, лежащей в основе большинства задач распознавания образов и речи, обработки сигнала и управления движением. Включение параметра времени в работу нейронной сети позволяет учитывать статистические вариации в таких нестационарных процессах, как речевые сигналы, сигналы радара, сигналы для мониторинга работы двигателя автомобиля и колебания цен на фондовом рынке, а также многих других.
Возникает вопрос: иКак встроить время в описание работы нейронной сети?" Существуют два варианта ответа на этот фундаментальный вопрос. ° Используя неявное представление (ппр!гсй гергеаеп[абоп), Время представляется эффектом, который оно оказывает на обработку сигнала, т.е. неявным образом'. Для примера предположим, что входной сигнал имеет равномерное кванигование (пш[опп]у багпр]ес]), а последовательность синаптических весов каждого из нейронов, соединенных с входным слоем сети, получена с помощью свертки другой последовательности входных примеров. В такой системе временная структура входного сигнала вложена в пространственную структуру сети.
° Используя явное представление (ехрйсй гергезеп[а1]оп). Время имеет собственное конкретное представление~. Например, система эхо-локации летучей мыши посылает короткий частотно модулированный сигнал, при этом устанавливая единый уровень интенсивности для каждого из частотных каналов на короткий период г М- ' Обсуяшение роли времени в нейронной обработке содержится в классической работе [281]. т В [475] описана методика явного представления времени в нейронной обработке. В частности, аналоговая информация представляется с использованием синхронизации потенциалов действия [асбоп розена!) цо отношению к постоянной составляющей колебательной модели действий, чему имеется очевидное нейробиологические обьяснение. Потенциалы действии описаны в главе 1.
800 Глава 13. Временная обработкас использованием сетейпрямого распространения развертки. Для того чтобы извлечь точную информацию о расстоянии до цели, проводятся многочисленные сравнения нескольких различных частот, юдированных массивом слуховых рецепторов [1030]. Когда эхо получается от объекта с неизвестной задержкой, отвечает тот нейрон (слуховой системы), юторый имеет соответствующую задержку в линии. Таким образом оценивается расстояние до объекта.
В этой главе мы будем работать с неявным представлением времени, при котором "статическая" нейронная сеть (например, многослойный персептрои) обладает свойством динамичности. Это, в свою очередь, приводит к тому, что за временную структуру информационных сигналов отвечает сама сеть. Чтобы нейронная сеть была динамичной, она должна иметь память (шепюгу). Как уже говорилось в главе 2, память можно разделить на кратковременную и долговременную. Долговременная память встраивается в нейронную сеть посредством обучения с учителем, при котором информативное содержание множества данных обучения сохраняется (частично или в полном объеме) в синаптических весах сети. Однако если рассматриваемая задача также имеет и размерность времени, для придания сети свойств динамичности требуется какая-либо форма кратковременной памяти.
Одним из простейших способов встраивания кратковременной памяти в структуру нейронной сети является использование временных задержек (йше де1ау), которые можно реализовать на синаптическом уровне сети или в слое входных нейронов. Использование задержек по времени в нейронных сетях имеет свое нейробиологическое объяснение — хорошо известно, что задержки повсеместно встречаются в мозге и играют важную роль в нейробиологической обработке информации [146], [148], [150], [738].
Структура главы Материал, излагаемый в настоящей главе, разбит на три части. В первой части (разделы 13.2, 13.3) рассматриваются структуры и модели нейронных сетей. В разделе 13.2 представлено обсуждение структур памяти, а в разделе 13.3 — описание двух различных архитектур сети, предназначенных для временной обработки сигнала. Во второй части главы (разделы 13.4 — 13.6) рассматривается один из классов нейронных сетей, называемых сетями прямого распространения с фокусированным временем запаздывания (госизед йпе 1а88ед Теейогчкагд пепчогк). В этом названии термин "фокусированный" указывает на тот факт, что кратковременная память целиком расположена на переднем плане (ггопг епд) сети.