Хайкин С. - Нейронные сети (778923), страница 41
Текст из файла (страница 41)
Для фиксированного решения и о можно определить такое положительное число а, *по 3.9. Теорема о сходимости персептроиа 201 Если персептрон некорректно классифицировал входной вектор х(й), принадлежащий подмножествУ Хм то иг(й)х(й) < О. Следовательно, из (3.63) полУ- чим выражение Цтт(й+ 1))!' < Цзт(й)Ц'+ Цх(й)Ц' Цтт(й + 1)Цг — Цтт(й)Цг < Цх(й)Цг для й = 1,... и. (3.64) Применяя зги неравенства последовательно для й = 1, ..., п и учитывая изначальное допущение, что тт(0) = О,приходим к неравенству (и + 1Н < 'К' Цх(й)Ц < п~), ь=1 (3.65) где ~3 — положительное число, определяемое следующим образом: ~3 = шах Цх(й)Ц хсь)ех, (3.66) Уравнение (3.65) означает, что Евклидова норма вектора весов ът(п + 1) линейно возрастает с увеличением номера итерации п.
Результат, описываемый неравенством (3.65), при больших п вступает в противоречие с полученным ранее результатом (3.61). Следовательно, номер итерации и не может превышать некоторого значения и ... при котором неравенства (3.61) и (3.65) удовлетворяются со знаком равенства. Это значит, что число и должно быть решением уравнения 1!ЮОЦ Итах0 Разрешая это уравнение для п, относительно ив, получим: Р Цч ОЦ' Птах аг (3.67) Таким образом, мы доказали, что для г) (и) = 1 и и (О) = О в предположении существования вектора решения и 0 процесс адаптации синаптических весов персептрона должен прекращаться не позднее итерации и . Обратите внимание, что согласно (3.58), (3.66) и (3.67) решение для ис и и не единснгвенно.
202 Глава 3. Однослойный персаптрон Теперь можно сформулировать теорему сходимости для алгоритма обучения»ерсентрона с фиксированным приращением (йхед-шсгешепг сопчегйепсе бзеогеш) для персептрона [899). Пустыюдмножества векторов обучения Х~ и Хз линейно-разделимы. Пусть аидные сигналы постуяают нерсеятрону только их этих подмножеств. Тогда алгоршпм обучения персептрона сходится после некоторого числа по итераций в таи смысле, что те(по) = чг(по+1) = тч(по+ 2) = .. является вектором ртиения для по < п Теперь рассмотрим абсолютную процедуру адаптации однослойного персептрона на основе коррекции ошибок (аЬзо1пге еггог-соггесг(оп ргоседпге), в которой п(п) — переменная величина.
В частности, пусть ~1(п) — наименьшее целое число, для которого выполняется соотношение т)(п)х~(п)х(п) > ~тг~(п)х(п)~. )+1, еслио>0, [ -1, если о < О. (3.68) Таким образом, дискретный отклику(п) нерсентрона (цпапбхед гезропсе оТ регсерпоп) можно выразить в компактной форме: у(п) = вбп(зч (п)х(п)). (3.69) Согласно этой процедуре, если скалярное произведение зчт(п)х(п) на шаге и имеет неверный знак, то тгт(п + 1)х(п) на итерации п + 1 будет иметь правильный знак.
Таким образом, предполагается, что если знак произведения тчт(п)х(п) некорректен, то можно изменить последовательность обучения для итерации п+ 1, приняв х(п + 1)=х(п). Другими словами, каждый из образов представляется персептрону до тех пор, пока он не будет классифицировал корректно. Заметим, что использование отличного от нулевого исходного состояния чг(0) приводит к увеличению или уменьшению количества итераций, необходимых для сходи- мости, в зависимости от того, насколько близким окажется исходное состояние зч(0) к решению тго. Однако, независимо от исходного значения зч(0), сходимость все равно будет обеспечена.
В табл. 3.2 представлен алгоритм сходимости нерсентрона (регсерггоп сопчегйепсе а18опбпп) [657) в краткой форме. Символ зйп( ), использованный на третьем шаге для вычисления фактического отклика персептрона, означает функцию вычисления знака (сигнум): 3.9. Теорема о сходимости персептроиа 203 ТАБЛИЦА 3.2.
Алгоритм сходимости персептрона в краткой форме Переменные и параметры х(п) =[+1, х|(п),..., х (п))г — вектор-строка размерности от+ 1; и (п) =[Ып), ю, (п),..., ю„,(п))т — вектор-строка размерности т + 1; Ь(п) — порог; у(п) — фактический отклик (дискретизированный); д(п) — желаемый отклик; 0 ( э) < 1 — параметр скорости обучения. 1.
Инициализация Пусть тт(0) = О. Последующие вычисления выполняются для шагов п = 1, 2,... 2. Активация На шаге п активируем персептрон, используя вектор х(п) с вещественными компонентами и желаемый отклик о(п). 3. Вычисление фактического ответа Вычисляем фактический отклик персептрона: у(п) = вйп(ттг(п)х(п)), где зйп( ) — функция вычисления знака аргумента. 4. Адаптация вектора весов Изменяем вектор весов персептрона: тт(п + 1) = тт(п) + 1) [д(п) — у(п)]х(п), где )'+1, если х(п) Е С„ [ — 1, если х(п) Е Сз. 5.
Продолжение Увеличиваем номер итерации п на единицу и возвращаемся к п. 2 алгоритма. [+1, если х(п) Е Сп с)(п) = [ — 1, если х(п) Е Сз. (3.70) Заметим, что входной сигнал х(п) является векгором-строкой размерности (т+1), первый элемент которого — фиксированная величина (равная +1) на всем протяжении алгоритма. Соответственно первым элементом вектора-строки весовых коэффициентов тч(п) размерности гп+ 1 является порог 6(п). Следует отметить еще одну ванную деталь, приведенную в табл. 3.2, — дискретный желаемый отклик А(п) определяется выражением 204 Глава 3. Однослойный персептрон Таким образом, алгоритм адаптации вектора весовых юзффициентов тг(п) соответствует правилу обучения на основе коррекции ошибок (епог-соггесбоп 1еагпшй пйе) тг(п+ 1) = тт(п) + з)[а(п) — у(п)]х(п), (3.71) где 11 — параметр скорости обучения, а разность г1(п) — у(п) выступает в роли сигнала оигибки.
Параметр скорости обучения является положительной константой, принадлежащей интервалу 0 < з) < 1. Выбирая значение параметра сюрости обучения из этого диапазона, следует учитывать два взаимоисключающих требования (657). ° Усреднение (атегай)пй) предыдущих входных сигналов, обеспечивающее устойчивость оценки вектора весов, требует малых значений з). ° Быстрая адалтация (Каа1 адарГаг)оп) к реальным изменениям распределения процесса, отвечающего за формирование векторов входного сигнала х, требует больших значений 11.
3.10. Взаимосвязь персептрона и байесовского классификатора в гауссовой среде Байесовский классификатор В байесовскам классификаторе (Вауея с!ааз)бег) или байесовской процедуре про- верки гинотез (Ьуробзез)з 1езйпй ргоседпге) минимизируется средний риск, который обозначается символом К. Для задачи двух классов (С, и Сз) средний риск в (1080) определяется следующим образом: И = спрг ~х(х[С,)Их+старз Ух(х[Сз)йх+ ,гх, l Х2 +ем р~ ух(х[С1) лх + сира ух(х[Сз)йх, гха ~х, (3.72) Персептрон имеет определенную связь с классической системой классификации образов, получившей название байесовского классификатора (Вауея с1азз)бег).
В условиях гауссовой среды байесовский классификатор превращается в обычный линейный классификатор. Такую же форму имеет персептрон. Однако линейная природа персептрона не зависит от стохастических свойств среды. В этом разделе речь пойдет о взаимосвязи персептрона и байесовсюго классификатора, что позволит глубже изучить природу и работу персептрона. Начнем этот раздел с краткого описания байесовского классификатора. 3.10. Взаимосвязь персептрона и байесовского классификатора в гауссовой среде 206 х=х,+х. (3.73) Соответственно выражение (3.72) можно переписать в эквивалентной форме: К = с11р1 ~х(х~С1)1(х+сггрг )х(х]С2)дх + "х, ах-х, +сггр1 Ух(х~С1)Нх+ сггрг Ух(х~С2)Нх, .гх-х, .гх, (3.74) где с11 < сг, и сгг < сгг Принимая во внимание тот факт, что Г ~к(х~С1)дх = ~х(Х~С2)ЫХ = 1, х ух (3.75) уравнение (3.74) можно свести к выражению К С21р1 + Сггрг + + [Рг(сгг — сгг)гх(х]Сг) Р1(сг1 — сы)Ух(х]С1)] с(х.
(3.76) "х, Первые два слагаемых в правой части выражения (3.76) представляют собой фиксированную стоимость. Теперь для минимизации среднего риска К можно вывести следующую стратегию оптимальной классификации. где р; — анриорнан вероятность (а рпоп' ргоЬаЬ11йу) того, что вектор наблюдения х (представляющий реализацию случайного вектора Х) принадлежит подпространству Х, при г = 1, 2, и р, + рг — — 1; с„— стоимость решения в пользу класса С,, представленного подпространством Хг, когда истинным является класс С (т.е. вектор наблюдения принадлежит подпространству Х,) при (2, 2) = 1, 2; Гк(х]С1) — функция плотности условной вероятности случайного вектора Х при условии, что вектор наблюдения х принадлежит подпространству Х; для г = 1, 2. Первые два слагаемых в правой части уравнения (3.72) представляют корректные (сопесг) решения (т.е.