Хайкин С. - Нейронные сети (778923), страница 31
Текст из файла (страница 31)
"Действительно ли ЧС-измерение аналоговой нейронной сети с сигмоидальной функцией активации о(р) = 1/(1+ е в) ограничено полиномом с определенным числом программируемых парамезровт' Авторы [586) дали положительньгй ответ на этот вопрос. Положительный стает иа этот вопрос также был получен в [543), где использовался сложный метод, основанный на дифференциальной тодслогии. Ззо было сделано для топя, чтобы показать, что ЧС-измерение в сигмоидальных нейронных сетях, используемых в качестве классификатора образов, ограничено сверху порядком 0()хгя). Между этим верхним пределом и нижним пределом, полученным в [586), существует большой разрыв. Однако в [543) было высказана предположение, что данный верхний предел может быть снижен.
2.14. Теория статистического обучения 161 Конструктивные, независимые от распределения пределы обобщающей способности обучаемых машин Теперь следует остановиться на особом типе задач двоичной классификации образов, в которых ожидаемый отклик определяется множеством И = (О, Ц. Как следствие, функция потерь может принимать одно из двух следующих значений: )'О, если (Гх,чг) = г1, ] 1, если Р(х,и) ф д. (2.90) ° Функционал риска Рт(зч) — это вероятность ошибки классификации (ргоЬаЬ!1!гу оГ с(азз!бсаг!оп еггог), обозначаемой Р(чг). ° Функционал эмпирического риска В р(зч) — это ошибка обучения (Гга!п1п8 епог) (т.е. частота появления ошибок в процессе обучения), обозначаемая о(зч). Согласно закону больших чисел (1ачч оГ !агйе пшLЬегз) [380], эмпирическая частота возникновения каких-либо событий почти наверняка сходится к фактической вероятности этих же событий при количестве попыток, стремящемся к бесконечности (подразумевается, что эти попытки независимы и одинаково распределены).
В контексте нашего обсуждения этот результат говорит о том, что для любого вектора и', не зависящего от обучающего множества, и для любой точности е > 0 выполняется следующее условие !1087]: Р(/Р(зч) — о(ъг)! > е) — 0 при Х - оо, (2.91) где Х вЂ” размер множества обучения. Следует заметить, что выполнение условия (2.91) совершенно не означает, что минимизация ошибки обучения о(чг) при использовании некоторого правила классификации (т.е.
данного вектора весов зч) влечет минимизацию вероятности ошибки классификации Р(чг). Для существенно большого размера )ч' обучающего множества близость между о(лг) и Р(чг) следует из более строгого условия (1087] Р(впр/Р(ъч) — о(тч)! > е) — 0 при Х вЂ” оо. (2.92) В данном случае речь идет о равномерной сходимости частоты ошибок обучения к вероятности того, что о(чг) = Р(чг).
При этих условиях функционалы риска В(тч) и эмпирического риска 1т', р(чг), определяемые формулами (2.72) и (2.74) соответственно, могут иметь следующую интерпретацию. 152 Глава 2. Процессы обучения Понятие ЧС-измерения накладывает ограничения на скорость равномерной сходимости. В частности, для множества функций классификации с ЧС-измерением, равным Ь, выполняется следующее неравенство [1084), [1087): /2е)Ч зз Р(ацр ~Р(») — с(»)~ > а) < ~ — ~ ехр( — аз)Ч), (2.93) % ~й~ апр ~Р(зу) — тз(зу)~ > е. Тогда с вероятностью (1 — а) можно утверждать, что все векторы весовых коэффициентов»гбао удовлетворяют следующему неравенству: Р(зу) < зг(зу) +а.
(2.94) Используя неравенство (2.93) и определение вероятности а, можно записать: /2е)Чз) а = — ехр( — а')Ч). ~ь1 (2.95) Пусть вс()Ч, Ь, а) — некоторое значение а, удовлетворяющее соотношению (2.95). ~г Лемма Оауера звучит следующим обриом [64), (934), (1094). "Обозначим через Р ансамбле дшотаиий, реализуеммл обучаемой машиной. Если ЧСедлз(Р) = И, где И— конечнав величина, 1 > И >1, то функция роста глр0) ограничена сверку величиной (е)/И)", где е — основание натуралнного логарифма" где )Ч вЂ” размер обучающего множества; е — основание натурального логарифма. Для того чтобы достичь равномерной сходимостн, требуется обеспечить малое значение правой части неравенства (2.93) для больших значений )Ч.
В этом может помочь множитель ехр( — аз)Ч), так как он экспоненциально убывает с ростом )Ч. Оставшийся множитель (2ейг71)и представляет собой предел роста функции Ьр(1) для семейства функций Р=[Р(х, уу); зри'йу) при ( > 6 >1. Этот результат описывается леммой Сауера (балует'з (епппа)'з. Ограничив слишком быстрый рост этой функции, мы обеспечиваем сходимость правой части неравенства к нулю при )Ч, стремяшемся к бесконечности. Это требование будет удовлетворено, если ЧС-измерение 6 не является бесконечно большим. Другими словами, конечность ЧС-измерения является необходимым и достаточным условием равномерной сходимости принципа минимизации эмпирического риска. Если входное пространство Х обладает конечной мощностью, то семейство дихотомнй У будет иметь конечное ЧС-измерение по Х.
Обратное утверждение не всегда верно. Пусть а — вероятность события 2.14. Теория статистического обучения 153 Тогда можно получить следующий важный результат [1086]; ао()Ч, Ь, а) = (2.96) Величина ао ()Ч, и, а) называется Доверительным интервалом (сопйс)епсе шгегоа1). Его значение зависит от размера обучающей выборки Х, ЧС-измереиия Ь и вероятности а. Предел, описываемый выражением (2.93), при а = ао(М, Ь, а) достигается в худшем случае с вероятностью Р(тг) = 1/2, ио, к сожалению, ие для малых значений Р(н), которые интересны при решении практических задач. Для малых значений Р(тг) более полезное ограничение можно получить в результате некоторой модификации неравенства (2.93) [1084], [1087]: ~Р(зт) — п(и ) ~ '1 гг 2е)Ч '1 — а')Ч ;/Р(тг) (2.97) Р(зт) ( с(зт) + а,(Х, Ь,а,с), (2.98) где ад(Х, Ь, а, с) — новый доверительиый интервал, определяемый в терминах ра- исе рассмотренного доверительного интервала ао(Х, Ь, а) следующим образом (см.
задачу 2.25): аг()Ч Ь « ") 2ао()Ч,Ь,а) 1+ с(зу) (2.99) Этот доверительный интервал зависит от ошибки обучения с(тг). При с(зт)=0 ои принимает упрошенный вид аг()Ч,Ь,а,О) =4а,'()Ч,Ь,а). (2. 100) Теперь можно подвести итог и определить два ограиичеиия иа скорость равномерной сходимости.
В литературе представлены различные виды ограничения (2.97), зависящие от конкретной формы неравенства, используемого для их получении. Тем ие менее все оии имеют сходную форму. Из неравенства (2.97) следует, что с вероятностью (1 — а) одновременно для всех зт е % выполняется соотношение [1084], [1087] 164 Глава 2. Процессы обучения 1. В общем случае скорость равномерной сходимости удовлетворяет следующему ограничению: Р(зт) < о(зт) +в,()Ч,6,а,и), где в,()Ч, 6, а, о) определяется формулой (2.99). 2. При малых (близких к нулю) значениях ошибки обучения о(зт) выполняется неравенство Р(зт) < о(зт) + 4в~~()Ч, 6, а).
Это ограничение является более точным и более пригодным для реальных задач обучения. 3. При больших значениях ошибки обучения и(зт), близких к единице, выполняется ограничение Р(ъ) < о(м)+ав()Ч,6,а). Минимизация структурного риска Под ошибкой обучения (1гапппй епог) понимается частота сделанных машиной ошибок в течение сеанса обучения для определенного вектора весов и.
Аналогично, под ошибкой обобщения (йепега11каг(оп еггог) понимается частота сделанных машиной ошибок при ее тестировании на не встречавшихся ранее примерах. При зтом предполагается, что тестовые данные принадлежат тому же семейству, что и данные обучения. Эти две величины обозначаются как гим„(и ) и ов,„,(тг) соответственно. Заметим, что о„,;„(и) является мой же величиной, которая в предыдущем разделе для упрощения записи формул обозначалась о(зт). Обозначим символом 6 ЧС-измерение семейства функций классификации (Р(х, зт); и Е%') по отношению для пространства входных сигналов Х. Тогда в свете теории скорости равномерной сходимости можно утверждать, что с вероятностью (1 — а) для количества примеров обучения )Ч ) 6, одновременно для всех функций классификации Р(х, зт) ошибка обобщения св,„,(зт) имеет меньшее значение, чем гарантированный риск (йпагапгеед пзк), определяемый как сумма пары конкурирующих величин [10841, (1087) (2.101) где доверительный интервал а,()Ч, 6, а, о„,;„) определяется формулой (2.99).
Для фиксированного числа 1Ч примеров обучения ошибка обучения монотонно уменьшается при увеличении ЧС-измерения 6, а доверительный интервал монотонно увели- 2.14. Теория статистического обучения 165 Гарантированный риск ограниченный ошибкой Ошибка ЧС-размерность, й Рнс. 2.25. 8занмосзязь между ошибкой обучения, доверительным интервалом н гарантнрованным риском чивается. Следовательно, как гарантированный риск, так и ошибка обобщения имеют точку минимума. Общий случай этого утверждения проиллюстрирован на рис.