Главная » Просмотр файлов » Хайкин С. - Нейронные сети

Хайкин С. - Нейронные сети (778923), страница 160

Файл №778923 Хайкин С. - Нейронные сети (Хайкин С. - Нейронные сети) 160 страницаХайкин С. - Нейронные сети (778923) страница 1602017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 160)

Ниже приложение к игре в нарды будет описано более детально. Программа-игрок в триктак, основанная на нейронных сетях, впервые была описана в [1048] и впоследствии была улучшена в [1046]. Этот успех для частного случая послужил толчком к дальнейшим исследованиям в области нейродинамического программирования. Триктрак (нарды) — это древняя настольная игра, в которой принимают участие два игрока. Она может быть представлена как одномерный маршрут, который шашки игроков проходят в противоположных направлениях. Игроки поочередно бросают пару костей и соответствуюшим образом передвигают свои шашки по маршруту доски. Допустимые перемещения зависят от выпавшего на костях количества очков и конфигурации доски.

Каждый из игроков должен переместить все свои шашки из конца маршрута, принадлежащего противнику, в свой конец маршрута. Первый, кто выполнит эту задачу, считается победителем. Эту игру можно промоделировать как Марковский процесс принятия решений, в котором состояния определяются описанием конфигурации доски, выпавшими на костях очками и идентификатором игрока, совершаюшего ход.

Первая версия нейронардов, описанная в [1048], использует обучение с учителем. Она способна обучаться на промежуточном уровне при наличии только приближенного описания состояния. Пожалуй, самым интересным открытием, описанным в этой работе, было хорошее поведение при масштабировании: при увеличении размера нейронной сети и количества примеров обучения наблюдалось соответствуюшее увеличение производительности. Нейронную сеть, используемую при обучении, представлял многослойный персептрон (М).Р), обучаемый согласно алгоритму обратного распространения.

Наилучшей эффективности удалось добиться при использовании М[.Р с 40 скрытыми нейронами. При этом обучение проводилось в ходе более чем 200000 игр. В последующих исследованиях [1046] для обучения нейронной сети использовалась одна из форм итерации по стратегиям, названная онтимистической Т17(к). Аббревиатура Т)3 означает !ешрога1 д!йегепсе!еаппп8 — обучение на временные разностях [1032]. Оптимистическая стратегия Тх)(Х) — это метод аппроксимации функции стоимости перехода .[к, основанный на моделировании, в котором стратегия )г заменяется новой стратегией, являющейся жадной по отношению к аппроксимации [" при каждом переходе состояний [126].

Компьютерную программу, основанную на этом методе нейродинамического программирования, часто называют 796 Глава 12. Нейродинамическое про~раммирование ?Р-шулером. В представление входного сигнала для нейронной сети Тезауро (Теванго) добавил искусственно созданные функции состояний (т.е. признаки), что позволило этой программе играть на уровне мастера, приближающегося к уровню чемпиона мира. Убедительным основанием для этой оценки послужил ряд тестов, в которых эта программа играла против нескольких гроссмейстеров мирового класса (1045).

Задачи Критерий олтимальности Беллмана 12.1. При стремлении дисконтного множителя т к нулю вычисление функции стоимости перехода (12.22) замедляется. Почему зто происходит? Обоснуйте свой ответ. 12.2. В этой задаче будет представлено еще одно доказательство уравнения оптимальности Беллмана (12.22) [905). а) Пусть я — произвольная стратегия.

Предположим, что и выбирает действие а в момент времени 0 с вероятностью р„где а Е Ао Тогда У'(г) = ~~~ р с(г,а)+ ~~ р; (а)И'~(2) аеА, у=1 где Игл(~) представляет собой функцию ожидаемой стоимости перехода с шага 1 вперед при использовании стратегии я и состояния з'. Покажите, что У'(г) > ппп с(г, а) + т~р;,(а)%'(2) т=1 где д"л(2) ) т,)(() б) Пусть к — стратегия, которая выбирает действие ае в момент времени 0 и, если следующим состоянием будет з, рассматривает процесс, начинающийся в состоянии т' и соответствующий стратегии я„такой, что Задачи 797 где е — малое положительное число.

Покажите, что при этих условиях У'(г) > ппп с(г, а) + 7~ р,т(а))Я ув. 1=1 в) Используя результаты, полученные в пп. (а) н (б), получите равенство (12.22). 12.3. Уравнение (12.22) представляет собой систему Ж линейных уравнений, по одному для каждого состояния. Пусть ов = [У'(1), У'(2) ... У'()У)[т с(Н) = [с(1,Н),с(2,Н),...,с()У,Н)[т, Рп(Н) Р1г(Н) Ргк(Н) Рг1(Н) Ргг(Н) .. Ргк(Н) Р(Н) = Ркг(Н) Ркг(Н) ° Ркк(Н) Покажите, что уравнение (12.22) можно переписать в эквивалентной матричной форме: (1 — ур(Н))Ю" = с(Н), где 1 — единичная матрица.

Прокомментируйте единственность вектора Л", представляющего функции стоимости перехода для )У состояний. 12.4. В разделе 12.3 был выведен алгоритм динамического программирования для задачи с конечным горизонтом. В этой задаче мы снова выведем этот алгоритм для дисконтиой задачи, в которой функция стоимости перехода выглядит следующим образом: К-1 Р(Хо) = 1пп ',> 7"д(Х„, Н(Х„), Х„+,) =о В частности, покажите, что У'(Хо) = ппп Е [д(Хо, Н(Хо), Х,) + 7.7к 1(Х,)]. и х, Глава 12.

Нейродинамнческое программирование Т98 Итерация по стратегиям В разделе 12.4 говорилось, что функция стоимости перехода удовлетворяет условию 12.5. Обоснуйте это утверждение. Прокомментируйте значимость выражения (12.25). 12.6. Используя систему контроллера с модулем критики (сопПо!!ег спбс зузгегп), проиллюстрируйте взаимодействие коррекции и оценки стратегий в алгорит- ме итерации по стратегиям.

12.7. Итерация по значениям Задача динамического программирования включает в себя Аг возможных со- стояний и М допустимых действий. Предполагая использование стационар- ной стратегии, покажите, что одна итерация алгоритма итерации по значени- ям требует порядка АгзМ операций. 12.8. 12.9. В табл. 12.2 представлен в сжатом виде алгоритм итерации по значениям, сформулированный в терминах функции стоимости перехода г" (() для состояний 1 ЕХ. Переформулируйте этот алгоритм в терминах О-факторов Я(г, а). 12.10.

х1-обучение 12.11. Покажите, что .7'(г) = пппЯ(г, а). аЕА, Алгоритм О-обучения иногда называют адаптивной формой стратегии ите- рации по значениям. Обоснуйте справедливость этого утверждения. ! 2.12. Постройте граф передачи сигнала для приближенного алгоритма О-обучения (см. табл. 12.4). 12.13. Приближенный алгоритм О-обучения (см. табл. 12.4) предполагает отсут- ствие знаний о вероятностях перехода между состояниями.

Переформули- руйте этот алгоритм в предположении доступности этих вероятностей, 12. 14. Алгоритм итерации по стратегиям всегда завершается за конечное число шагов, в то время как алгоритм итерации по значениям может потребовать бесконечного их числа. Прокомментируйте другие различия между этими двумя методами динамического программирования. гг1 сы гггц ":." гк.ь1* ярд' гулаг).'.зй]]((йр([[шгьтгв .г; и сия ге йсгт .:1",исйгп лг[фот4звйадув '. Временная обработка с использованием сетей прямого распространения 13.1. Введение Время является существенной составляющей процесса обучения.

Оно может быть непрерывным и дискретным. Какую бы форму ни принимало время, оно является упорядоченной сущностью, лежащей в основе большинства задач распознавания образов и речи, обработки сигнала и управления движением. Включение параметра времени в работу нейронной сети позволяет учитывать статистические вариации в таких нестационарных процессах, как речевые сигналы, сигналы радара, сигналы для мониторинга работы двигателя автомобиля и колебания цен на фондовом рынке, а также многих других.

Возникает вопрос: иКак встроить время в описание работы нейронной сети?" Существуют два варианта ответа на этот фундаментальный вопрос. ° Используя неявное представление (ппр!гсй гергеаеп[абоп), Время представляется эффектом, который оно оказывает на обработку сигнала, т.е. неявным образом'. Для примера предположим, что входной сигнал имеет равномерное кванигование (пш[опп]у багпр]ес]), а последовательность синаптических весов каждого из нейронов, соединенных с входным слоем сети, получена с помощью свертки другой последовательности входных примеров. В такой системе временная структура входного сигнала вложена в пространственную структуру сети.

° Используя явное представление (ехрйсй гергезеп[а1]оп). Время имеет собственное конкретное представление~. Например, система эхо-локации летучей мыши посылает короткий частотно модулированный сигнал, при этом устанавливая единый уровень интенсивности для каждого из частотных каналов на короткий период г М- ' Обсуяшение роли времени в нейронной обработке содержится в классической работе [281]. т В [475] описана методика явного представления времени в нейронной обработке. В частности, аналоговая информация представляется с использованием синхронизации потенциалов действия [асбоп розена!) цо отношению к постоянной составляющей колебательной модели действий, чему имеется очевидное нейробиологические обьяснение. Потенциалы действии описаны в главе 1.

800 Глава 13. Временная обработкас использованием сетейпрямого распространения развертки. Для того чтобы извлечь точную информацию о расстоянии до цели, проводятся многочисленные сравнения нескольких различных частот, юдированных массивом слуховых рецепторов [1030]. Когда эхо получается от объекта с неизвестной задержкой, отвечает тот нейрон (слуховой системы), юторый имеет соответствующую задержку в линии. Таким образом оценивается расстояние до объекта.

В этой главе мы будем работать с неявным представлением времени, при котором "статическая" нейронная сеть (например, многослойный персептрои) обладает свойством динамичности. Это, в свою очередь, приводит к тому, что за временную структуру информационных сигналов отвечает сама сеть. Чтобы нейронная сеть была динамичной, она должна иметь память (шепюгу). Как уже говорилось в главе 2, память можно разделить на кратковременную и долговременную. Долговременная память встраивается в нейронную сеть посредством обучения с учителем, при котором информативное содержание множества данных обучения сохраняется (частично или в полном объеме) в синаптических весах сети. Однако если рассматриваемая задача также имеет и размерность времени, для придания сети свойств динамичности требуется какая-либо форма кратковременной памяти.

Одним из простейших способов встраивания кратковременной памяти в структуру нейронной сети является использование временных задержек (йше де1ау), которые можно реализовать на синаптическом уровне сети или в слое входных нейронов. Использование задержек по времени в нейронных сетях имеет свое нейробиологическое объяснение — хорошо известно, что задержки повсеместно встречаются в мозге и играют важную роль в нейробиологической обработке информации [146], [148], [150], [738].

Структура главы Материал, излагаемый в настоящей главе, разбит на три части. В первой части (разделы 13.2, 13.3) рассматриваются структуры и модели нейронных сетей. В разделе 13.2 представлено обсуждение структур памяти, а в разделе 13.3 — описание двух различных архитектур сети, предназначенных для временной обработки сигнала. Во второй части главы (разделы 13.4 — 13.6) рассматривается один из классов нейронных сетей, называемых сетями прямого распространения с фокусированным временем запаздывания (госизед йпе 1а88ед Теейогчкагд пепчогк). В этом названии термин "фокусированный" указывает на тот факт, что кратковременная память целиком расположена на переднем плане (ггопг епд) сети.

Характеристики

Тип файла
DJVU-файл
Размер
10,59 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6665
Авторов
на СтудИзбе
292
Средний доход
с одного платного файла
Обучение Подробнее