Хайкин С. - Нейронные сети (778923), страница 17
Текст из файла (страница 17)
Рекуррентная сеть, содержащая ренами обратные связи нейронов с самими собой 1.14. Сеть, показанная на рис. 1.28, не содержит порогов. Теперь предположим, что эти пороги существуют и равны — 1 и +1 для верхнего и нижнего нейронов первого скрытого слоя соответственно, а для нейронов второго скрытого слоя — +1 и — 2 (для верхнего и нижнего нейронов соответственно). Выпишите новую форму отображения вход-выход, определяемого такой сетью. 1.15. Рассмотрим многослойную сеть прямого распространения, все нейроны которой работают в линейной области. Докажите, что такая сеть эквивалентна однослойной сети прямого распространения.
1.1б. Сконструируйте полную рекуррентную сеть с пятью нейронами, в которой нейроны не имеют обратных связей сами с собой. 1.17. На рис. 1.29 показан граф передачи сигнала по рекуррентной сети, состоящей из двух нейронов. Выпишите нелинейное разностное уравнение, определяюшее эволюцию переменной х, (и) или хз(п), которая описывает выход верхнего и нижнего нейронов соответственно. Каков порядок этих уравнений? 1.18.
На рис. 1.30 показан граф передачи сигнала по рекуррентной сети с двумя нейронами, каждый из которых имеет обратную связь с самим собой и соседним нейроном. Определите систему из двух нелинейных разностных уравнений первого порядка, описывающих эту сеть. 1.19. Рекуррентная сеть имеет три входных узла, два скрьпых и четыре выходных нейрона.
Постройте структурный граф, описывающий такую сеть. 88 Глава 1. Введение Представление знаний 1.20. Одна из форм предварительной обработки сигналов основана на авторегрессионной модели, описываемой следующим разностным уравнением: у(п) = ю,у(п — 1) + ю,у(п — 2) +...
+ юму(п — М) + о(п), где у(п) — выход модели; о(п) — воздействие белого шума с нулевым математическим ожиданием и некоторой предопределенной дисперсией; ю„юз, ..., юм — коэффициенты авторегрессионной модели; М вЂ” порядок модели. Покажите, что эта модель обладает свойством геометрической инвариантносги относительно масштаба и преобразования времени. Как зти две формы инвариантности можно использовать в нейронных сетях? 1.21. Пусть х — входной вектор, а в(а, х) — оператор преобразования, зависящий от параметра а.
Этот оператор удовлетворяет двум условиям: ° в(О,х) = х; ° в(а, х) — дифференцируемый по а оператор. Вектор касательной определяется как частная производная дв(а, х)!да (992). Пусть вектор х представляет некоторое изображение, а а является параметром поворота. Как вычислить вектор касательной, когда значение а мало? Вектор касательной локально инвариантен относительно угла поворота исходного изображения. Почему? Процессы обучения 2.1. Введение Самым важным свойством нейронных сетей является их способность обучаться (1еагп) на основе данных окружающей среды и в результате обучения повьиаать свою производительность. Повышение производительности происходит со временем в соответствии с определенными правилами.
Обучение нейронной сети происходит посредством интерактивного процесса корректировки синаптических весов и порогов. В идеальном случае нейронная сеть получает знания об окружающей среде на каждой итерации процесса обучения. С понятием обучения ассоциируется довольно много видов деятельности, поэтому сложно дать этому процессу однозначное определение. Более того, процесс обучения зависит от точки зрения на него. Именно это делает практически невозможным появление какого-либо точного определения этого понятия. Например, процесс обучения с точки зрения психолога в корне отличается от обучения с точки зрения школьного учителя. Со своей точки зрения (с позиций нейронной сети) мы можем использовать следующее определение, приведенное в 1726». Обучение — это процесс, в котором свободные параметры нейронной сети настраиваются посредством моделирования среды, в которую эта сеть встроена.
Тип обучения определяется способом подстройки этих параметров. Это определение процесса обучения предполагает следующую последовательность событий. 1. В нейронную сеть поступают стимулы из внешней среды. 2. В результате этого изменяются свободные параметры нейронной сети.
3. После изменения внутренней структуры нейронная сеть отвечает на возбуждения уже иным образом. 90 Глава 2. Процессы обучения Вышеуказанный список четких правил решения проблемы обучения называется аягоринимом обучения' (!еапппй а)йопйпп). Несложно догадаться, что не существует универсального алгоритма обучения, подходящего для всех архитектур нейронных сетей. Существует лишь набор средств, представленный множеством алгоритмов обучения, каждый нз которых имеет свои достоинства. Алгоритмы обучения отличаются друг от друга способом настройки синаптических весов нейронов. Вше одной отличительной характеристикой является способ связи обучаемой нейросети с внешним миром. В этом контексте говорят о парадигме обучения (1еапппй ратас!!8ш), связанной с моделью окружающей среды, в которой функционирует данная нейронная сеть.
Структура главы Эта глава состоит из четырех взаимосвязанных частей. В первой части (разделы 2.2- 2.6) речь идет о пяти основных моделей обучения: на основе коррекции ошибок, с использованием памяти, Хеббовском обучении, конкурентном обучении и методе Больцмана.
Обучение, основанное на коррекции ошибок, реализует метод оптимальной фильтрации. Обучение на основе памяти предполагает явное использование обучающих данных. Метод Хебба и конкурентный подход к обучению основаны на нейробиологнческих принципах. В основу метода Больцмана положены идеи статистической механики.
Вторая часть этой главы раскрывает парадигмы обучения. В разделе 2.7 рассматривается задача присваивания коэффициентов доверия (сгедй азз!8лшеп!), лежащая в основе процесса обучения. Разделы 2.8 и 2.9 содержат обзор двух фундаментальных парадигм обучения: обучения с учителем и без него. Третья часть настоящей главы (разделы 2.10-2.12) посвящена решению задач обучения, реализации памяти и адаптации.
Заключительная часть главы (разделы 2.13-2.15) охватывает вероятностные и статистические аспекты процесса обучения. В разделе 2.13 речь идет о дилемме смещения и дисперсии. В разделе 2.14 обсуждается теория статистического обучения, основанная на использовании ЧС-размерности как меры информационной емкости обучаемой машины. В разделе 2.15 вводится еще одно важное понятие приближенно корректного в вероятностном смысле обучения (ргоЬаЬ!у арргохипаге!у соггес! !еашшй), обеспечивающего консервативную модель процесса обучения.
В разделе 2.16 подводятся итоги и приводятся некоторые замечания. ' Слово "алгоритм" произошло от имени персидского математика Мохаммеда Аль Коварисими (Мобапипеб А! Кожапагш!), которыв жил в девятом веке нашей зрм. Именно он разработал пошаговые правила сложения, вычитания, умножения и деления действительных десятичных чисел. Когда его имя было записано по-латынн, оно приобрело вид А!копашоя, откуда и произошел термин "алгоритм" [420!. 2.2. Обучение, основанное на коррекции ошибок 91 2.2. Обучение, основанное на коррекции ошибок Для того чтобы проиллюстрировать первое правило обучения, рассмотрим простейшийй случай нейрона Й вЂ” единственного вычислительного узла выходного слоя нейронной сети прямого распространения (рис. 2.1, а).
Нейрон )с работает под управлением вектора сигнала (з!йпа! чесгог) х(п), производимого одним или несколькими скрытыми слоями нейронов, которые, в свою очередь, получают информацию из входного вектора (возбуждения), передаваемого начальным узлам (входному слою) нейронной сети. Под и подразумевается дискретное время, или, более конкретно,— номер шага итеративного процесса настройки синаптических весов нейрона Й. Выходной сигнал (оцгрц1 з(йпа!) нейрона Й обозначается уь(п).
Этот сигнал является единственным выходом нейронной сети. Он будет сравниваться с желаемым выходом (дез!гед гезропзе), обозначенным г(ь(п). В результате получим сигнал ошибки (епог з!япа1) еь(п). По определению еь(п) = Иь(п) — у„(п). (2.1) Сигнал ошибки инициализирует механизм управления (сон!го! шесЬап!эш), цель которого заключается в применении последовательности корректировок к синаптическим весам нейрона к. Эти изменения нацелены на пошаговое приближение выходного сигнала уь(п) к желаемому дь(п). Эта цель достигается за счет минимизации функции стоимости (соз1 йзпс1(оп) или индекса производительности (регГоппапсе (пдех) Е(п), определяемой в терминах сигнала ошибки следующим образом: Е(п),г(п) (2.2) где Е(п) — текущее значение энергии ошибки (1пз1ап1апеоцз ча!пе о! 1)зе епог епегйу).
Пошаговая корректировка синаптических весов нейрона Й продолжается до тех пор, пока система не достигнет устойчивого состояния (з1еаду з1а1е) (т.е. такого, при котором синаптические веса практически стабилизируются). В этой точке процесс обучения останавливается.
Процесс, описанный выше, называется обучением, основанном на коррекции ошибок (епог-сопесг!оп!еагп!пя). Минимизация функции стоимости Е(п) выполняется по так называемому дельта-правилу, или правилу Видроу-Хоффа, названному так в честь его создателей (1141]. Обозначим шь,(п) текущее значение синаптического веса изь, нейрона Й, соответствующего элементу х,(п) вектора х(п), на шаге дискретизации п.
В соответствии с дельта-правилом изменение Ьзльз(п), применяемое к синаптическому весузсь. на этом шаге дискретизации, задается выражением Ьи~„,(п) = т)ея(п)хз(п), (2.3) 92 Глава 2. Процессы обучения Г Вектор аход сигнала (л) Многослойная сеть прямого распространения а) Блочная диаграмма нейронной сети; показаны только нейроны аыхолного слоя х, (л) хт(л) и (л) х(л) ;(и) х„(л) б) Граф передачи сигнала аыхолного нейрона Рмс. 2.1.
Обучение, основанное на коррекции ошибок где 11 — некоторая положительная константа, определяющая скорость обучения (га(е оГ 1еапппй) и используемая при переходе от одного шага процесса к другому. Из формулы (2.3) видно, что эту константу естественно именовать параметром скорости обучения (1еагп(пя га(е рагаше(ег). Вербально дельта-правило можно определить следующим образом, Корректировка, применяемал к синаптическому весу нейрона, пропорциональна произведению сигнала ошибки на входной сигнал, его вызвавший. Помните, что определенное таким образом дельта-правило предполагает возможность прямого измерения (д(тес( шеазше) сигнала ошибки. Для обеспечения такого измерения требуется поступление желаемого отклика от некоторого внешнего источника, непосредственно доступного для нейрона )с.
Другими словами, нейрон )с должен быть видимым (ч(з(Ые) для внешнего мира (рис. 2.1, а). На этом рисунке видно, что обучение на основе коррекции ошибки по своей природе является локальным (1оса!). Это прямо указывает на то, что корректировка синаптических весов по дельта-правилу может быть локализована в отдельном нейроне )с. 2.3.