Хайкин С. - Нейронные сети (778923), страница 40
Текст из файла (страница 40)
Однослойный персептрон где с — константа. Такого выбора достаточно, чтобы гарантировать сходимость алгоритма стохастичесюй аппроксимации [607], [665]. Если юнстанта с велика, существует опасность выхода алгоритма из-под контроля на первых шагах аппроксимации (при маленьких и). В качестве альтернативы выбору (3.47) и (3.48) можно использовать так называемый подход на основе поиска и сходимости, впервые предложенный в [238]: Чо ) (и) = , („ , , (3.49) где з) и т — заданные пользователем константы. На первых шагах адаптации число и является малым по сравнению с константой времени поиска (зеагсв 1ппе сопзтШ) т.
ПоэтомУ паРаметР скоРости В(п) пРактически Равен константе 1)с, и алгоРитм ведет себя как стандартный алгоритм минимизации среднеквадратической ошибки (рис. 3.5). Выбирая большое значение 1) (естественно, в допустимых пределах), можно надеяться, что настраиваемые весовые юэффициенты фильтра будут находиться вблизи "хороших" значений. Таким образом, при количестве итераций п, значительно превосходящих константу времени поиска т, параметр интенсивности сюрости з)(п) будет сходиться к функции с/и, где с = тз) (рис. 3.5). Алгоритм при этом будет вести себя как обычный алгоритм стохастнческой аппроксимации, а веса будут сходиться к своим оптимальным значениям.
Таким образом, изменение коэффициента скорости обучения на основе метода поиска и сходимости обеспечивает сочетание полезных свойств обычного алгоритма минимизации среднеквадратической ошибки с методами традиционной теории стохастической аппроксимации. 3.8. Персептрон Итак, мы переходим ко второй части настоящей главы, в которой речь пойдет о персептроне Розенблатта (далее — просто персептрон (регсерпоп)). Если алгоритм ЬМБ, описанный в предыдущем разделе, разработан для линейного нейрона, то персептрон строится для нелинейного, а именно модели нейрона Мак-Каллока-Питца. Из главы 1 известно, что такая нейронная модель состоит из линейного сумматора и ограничителя (реализованного в внле пороговой функции вычисления знака) (рис.
3.6). Суммирующий узел этой нейронной модели вычисляет линейную комбинацию входных сигналов, поступающих на синапсы с учетом внешнего возмущения (порога). Полученная сумма (так называемое индуцированное локальное поле (шдпсед 1оса! бе16)) передается на узел ограничителя. Таким образом, выход нейрона принимает значение +1, если сигнал на выходе сумматора положителен, и — 1, если отрицателен. 3.8. Персептрон 19$ г)И) иичесхах апгхха) с! пь Рис. 3.3. Изменение коэффициента скорости обучения по методу моделирования отхгига ' 'чх х, Вахах ь У Вхохм Рис. 3.6. Граф передачи сигнала для персеп- трона (3.50) На диаграмме передачи сигнала (рис. 3.6) синалтические веса персептрона обозначены нг„нгз, ..., гл, сигналы, поступающие на вход персептрона, обозначены х„хх, ..., х, а пороговое значение — Ь.
Исходи из структуры модели, можно заключить, что входной сигнал ограничителя (т.е. индуцированное локальное поле) нейрона определяется выражением 196 Глава 3. Однослойный пврсептрон Целью персептрона является корректное отнесение множества внешних стимулов хм ха, ..., х к одному из двух классов: С, или Сз. Решающее правило такой классификации заключается в следующем: входной сигнал относится к классу Сы если выход у равен +1, и к классу Сз в противном случае (если выход равен — 1). Чтобы глубже изучить поведение классификатора, целесообразно построить карту областей решения в гп-мерном пространстве сигналов, определяемом переменными хм ха, ..., х . В простейшем случае (когда в качестве классификатора выступает персептрон) имеются всего две области решения, разделенные гиперплоскостью, определяемой формулой и~,х, + Ь = О.
(3.51) Это проиллюстрировано на рис. 3.7 для случая двух переменных, х, и хз, когда разделяющая гиперплоскость вырождается в прямую. Точки (х„хз), лежащие выше этой прямой, относятся к классу Сы а точки, расположенные ниже прямой, принадлежат классу Сз. Обратите внимание, что пороговое значение определяет смещение разделяющей поверхности по отношению к началу координат.
Синаптические веса персептрона в„шз, ..., в можно адаптировать итеративным методом. В частности, для настройки весовых коэффициентов можно использовать алгоритм, основанный на коррекции ошибок и получивший название алгоритма сходимости перселтрона (регсер1гоп сопчегяепсе а!яопйпп). З.Э. Теорема о сходимости персептрона Чтобы вывести алгоритм обучения персептрона, основанный на коррекции ошибок, удобно построить модифицированный граф передачи сигнала (рис.
3.8). В этой модели, которая эквивалентна модели нейрона, показанной на рис. 3.6, порог Ь(п) рассматривается как синаптический вес связи с фиксированным входным сигналом +1. Это можно описать следующим входным вектором размерности (гп + 1): х(п) = [+1, х,(п), хз(п),..., х (п)]т, где п — номер итерации алгоритма.
Аналогично можно определить (гп + 1)-мерный вектор весовых коэффициентов: и(п) = [Ь(п),ш,(п),вз(п),...,ю (п)]т. х, Рис. 3.7. Разделяющая поверхность е виде гиперплос- кости (в данном случае — прямой) для двумерной зада- чи кпассификации образов на деа класса ний =0 Выход У 2 Входной свлид Линейный сумматор Следовательно, выход линейного сумматора можно записать в более компактной форме с(п) = ~~у тот(п)хт(п) = тт (п)х(п), т=о (3.52) где тсо(п) — пороговое значение Ь(п). При фиксированном значении п уравнение тттх = О в т-мерном пространстве с координатами хд, хз, ..., х определяет гиперплоскость (для некоторого предопределенного значения порога), которая является поверхностью решений для двух различных классов входных сигналов.
Рис. 3.$. Эквивалентный граф пере- дачи сигнала для персептрона. Заввь симссть от времени опущена для яс- ности 3.9. Теорема о сходимости персептрона 197 Фиксированный хв = +1 ВХОД х~ 196 Глава 3. Однослойный персептрон Граница б) Рис. 3.9. Пара линейно-разделимых (а) и нелинейно-разделимых образов (б) Чтобы персептрон функционировал корректно, два класса, С, и Сз, должны быть линейно-разделимыми (1шеаг!у зерагаЫе). Это, в свою очередь, означает, что для правильной классификации образы должны быть значительно отдалены друг от друга, побы поверхность решений могла представлять собой гиперплоскость.
Это требование проиллюстрировано на рис. 3.9 для случая двумерного персептрона. На рис. 3.9, а два класса — С, и Сз — значительно удалены друг от друга, и их можно разделить гиперплоскостью (в данном случае — прямой). Если этн два класса сдвинуть ближе друг к другу (рис. 3.9, б), они стануг нелинейно-разделимыми. Такая ситуация выходит за рамки вычислительных возможностей персептрона. Теперь предположим, что входные переменные персептрона принадлежат двум линейно-разделимым классам. Пусть Х, — подмножество векторов обучения х,(1), х,(2), ..., которое принадлежит классу С,, а Хз — подмножество векторов обучения хз(1), хз(2), ..., относящееся к классу Сз.
Объединение подмножеств Х, и Хз составляет все обучающее множество Х. Использование подмножеств Х1 и Хз для обучения классификатора позволит настроить вектор весов и таким образом, что два класса — С„и Сз — будут линейно-разделимыми. Это значит, что существует такой вектор весовых коэффициентов ж, для которого истинно следующее утверждение: тзтх > О для любого входного вектора х, принадлежащего классу С„ игх < О для любого входного вектора х, принадлежащего классу Сз.
(3.53) Во второй строке утверждения (3.53) мы произвольно указали, что при равенстве ззтх = О входной вектор х принадлежит именно классу Сз. При определенных таким образом подмножествах Х, и Хз задача обучения элементарного персептрона сводится к нахождению такого вектора весов и, для которого выполняются оба неравенства (3.53). 3.9, Теорема о сход«мости персептрона 199 Алгоритм адаптации вектора весовых коэффициентов элементарного персептрона можно сформулировать следующим образом. Если и-й элемент х(п) обучающего множества корректно классифицирован с помощью весовых коэффициентов н(п), вычисленных на и-м шаге алгоритма, то вектор весов не корректируется, т.е.
действует следующее правило: тч(п + 1) = тг(п), если тч~х(п) > 0 и х(п) Е С„ чт(п + 1) = тч(п), если тч~х(п) < 0 и х(п) Е Сз. (3.54) В противном случае вектор весов персептрона подвергается коррекции в соответствии со следующим правилом: тн(п + 1) = «(и) — т1(п)х(п), если « ~(п)х(п) > 0 и х(п) Е Сз, «(и+ 1) = «(и) + т)(п)х(п), если «т(п)х(п) < 0 и х(п) Е С„(3.55) где интенсивность настройки вектора весов на шаге и определяется лараметнром скорости обучении т1(п). Если т1(п) = т1 > О, где т1 — константа, не зависящая от номера итерации и, вышеописанный алгоритм называется правилом адаптации с фиксированным нрираитением (бхеб шсгешепт адартайоп гп1е). Ниже мы сначала докажем сходнмость правила адаптации с фиксированным приращением для т) = 1. Ясно, что само значение т) не играет особой роли, если оно положительно. Значение параметра т1, отличное от единицы, обеспечивает масштабирование образов, не влияя на нх разделимость.
Случай с переменным коэффициентом з)(п) будет рассмотрен немного позже. В приведенном доказательстве считается, что в начале процесса обучения вектор весовых коэффициентов равен нулю, тч(0) = О. Предположим, что для и = 1, 2,..., тнт(п)х(п) < О, а входной вектор х(п) принадлежит подмножеству Х,. Это значит, что персептрон некорректно классифицировал векторы х(1), х(2), ..., т.е.
условие (3.53) не выполнено. Следовательно, для т1 (и) = 1 можно использовать вторую строку правила (3.55): тг(п + 1) = «'(и) + х(п), для х(п) Е Ст. (3.56) Поскольку начальное состояние «(0) = О, то уравнение (3.56) для чг(п+ 1) можно решить итеративно н получить следующий результат: «(и + 1) = х(1) + х(1) +... + х(п). (3.57) 200 Глава 3. Однослойный лерселтрон а = гп(п изх(п). г(и)ох1 (3.58) Умножая обе части уравнения (3.57) на вектор-строку то~~, получим: от~~те(п + 1) = те~~я(1) + и тх(2) +...
+ и ~~х(п). В свете определения (3.58) имеем: те~те(п+ 1) > па. (3.59) Теперь можно использовать неравенство Коши-Шварца (СаисЫ-Яс)пцапх (пейпа1- (ту). Для двух векторов, ив и тт(п + 1), его можно записать следующим образом: Рооп Цтт(п+ 1)п > (это то(п+ 1)) (3.60) где Ц Ц вЂ” Евклидова норма векторного аргумента; жги(п + 1) — скалярное произведение вектоРов. Заметим, что согласно (3.59) ~ъюотж(п + 1)] > пгаг.
УчитываЯ это в (3.60), получим: /)что Ц //тт(п+ 1) Ц' > и'а' или пга Ц (п+1П'> аэто ц (3.61) Теперь подойдем к проблеме с другой стороны. В частности, перепишем уравнение (3.56) в следующем виде: тт()о + 1) = и (й) + х()о), для )о = 1,..., п и х(Й) Е Хн (3.62) Вычисляя Евклидову норму векторов в обеих частях уравнения (3.62), получим: Ц,()о + Ц Цг Цз,(ь) Цг + Ц ()о) Цг + 2 „т()о) (~ ) (3.63) Так как по предположению классы С, и Сг являются линейно-разделимыми, то существУет такое Решение и о, пРи котоРом бУдет выполнЯтьсЯ Условие итх(п) > 0 дла векторов х(1), х(2),..., х(п), принадлежащих подмножеству Х,.