Лекции. ММО. Сенько (all in one) (1185303), страница 10
Текст из файла (страница 10)
Нулевое приближение вектора(0)(0)весовых коэффициентов (w0 , . . . , wn ) выбирается случайнымобразом Преобразованные описания объектов обучающей выборки Setпоследовательно подаются на вход перцептрона. В случае еслиописание x(k) , поданное на k-ом шаге классифицируется неправильно,то происходит коррекция по правилу w(k+1) = w(k) + x. В случаеправильной классификации w(k+1) = w(k) .
Отметим, что правильнойклассификации всегда соответствует выполнение равенства(w(k) , x(k) ) ≥ 0 , а неправильной (w(k) , x(k) ) < 0. Процедураповторяется до тех пор, пока не будет выполнено одно из следующихусловий:- достигается полное разделение объектов из классов K1 и K2 ;- повторение подряд заранее заданного числа итераций неприводит к улучшению разделения;- оказывается исчерпанным заранее заданный лимит итераций.Сенько Олег Валентинович ()МОТП, лекция 67 / 26Перцептрон Розенблатта. Многослойный перцептрон.Для описанной процедуры обучения cправедлива следующая теорема.Теорема.
В случае, если описания объектов обучающей выборкилинейно разделимы в пространстве признаковых описаний, топроцедура обучения перцептрона построит линейнуюгиперплоскость разделяющую объекты двух классов законечное число шагов.Отсутствие линейной разделимости двух классов приводит кбесконечному зацикливанию gроцедуры обучения перцептрона.Существенно более высокой аппроксимирующей способностьюобладают нейросетевые методы распознавания, задаваемыекомбинациями связанных между собой нейронов. Таким методомявляется Многослойный перцептрон.Сенько Олег Валентинович ()МОТП, лекция 68 / 26Многослойный перцептронВ методе Многослойный перцептрон сеть формируется из несколькихслоёв нейронов.
В их число входит слой входных рецепторов,подающих сигналы на нейроны из внутренних слоёв. Слои внутреннихнейронов осуществляют преобразование сигналов. Слой реагирующихнейронов производит окончательную классификацию объектов наосновании сигналов, поступающих от нейронов, принадлежащихвнутренним слоям.Обычно соблюдаются следующие правила формирования структурысети.Допускаются связи между только между нейронами,находящимися в соседних слоях.Связи между нейронами внутри одного слоя отсутствуют.Активационные функции для всех внутренних нейроновидентичны.Для решения задач распознавания с L классами K1 , .
. . , KLиспользуется конфигурация с L реагирующими нейронами.Сенько Олег Валентинович ()МОТП, лекция 69 / 26Многослойный перцептронСхема многослойного перцептрона с двумя внутренними слоямипредставлена на рисунке 2.Отметим, что сигналы g1 , . . . , gL , вычисляемые на выходереагирующих нейронов, интерпретируются как оценки за классыK1 , . . . , KL . Весовые коэффициенты w сопоставлены каждой изсвязей между нейронами из различных слоёв.Сенько Олег Валентинович ()МОТП, лекция 610 / 26Многослойный перцептронРассмотрим процедуру распознавания объектов с использованиеммногослойного перцептрона.
Предположим, что конфигурациянейронной сети включает наряду со слоем рецепторов и слоемреагирующих нейронов также H внутренних слоёв искусственныхнейронов. Заданы также количества нейронов в каждом слое. Пусть n– число входных нейронов-рецепторов, r(h) - число нейронов ввнутреннем слое h. На первом этапе вектор рецепторы формируют поинформации, поступающей из внешней среды, вектор входныхпеременных (сигналов) u01 , . .
. , u0n . Отметим, что входные сигналыu11 , . . . , u0n могут интерпретироваться как признаки X1 , . . . , Xn в общейпостановке задачи распознавания.Предположим, что для i-го нейрона 1-го внутреннего слоя связь срецепторами осуществляется с помощью весовых коэффициентовw1i0 , . . . , wni0 . Сумматор i-го нейрона Pпервого внутреннего слояi0вычисляет взвешенную сумму ξ = nt=0 wti0 u0t .Сенько Олег Валентинович ()МОТП, лекция 611 / 26Многослойный перцептронСигнал на выходе i-го нейрона первого внутреннего слоя вычисляетсяпо формуле u1i = Φ(ξ i0 ) .
Аналогичным образом вычисляются сигналына выходе нейронов второго внутреннего слоя. Сигналы g1 , . . . , gLрассчитываются с помощью той же самой процедуры, котораяиспользуется при вычислении сигналов на выходе нейронов извнутренних слоёв. То есть при вычислении gi на первом шагесоответствующий сумматор вычисляет взвешенную суммуnXiHξ =wtiH uHt ,t=0iHw1iH , . .
. , wr(H)где- весовые коэффициенты, характеризующие связь i–го реагирующего нейрона с нейронами последнего внутреннего слояHH, uH1 , . . . , ur(H) - сигналы на выходе внутреннего слоя H. Сигнал навыходе i -го реагирующего нейрона вычисляется по формулеgi = Φ(ξ iH ). Очевидно, что вектор выходных сигналов являетсяфункцией вектора входных сигналов u0 (вектора признаков x) иматрицы весовых коэффициентов связей между нейронами.Сенько Олег Валентинович ()МОТП, лекция 612 / 26Аппроксимирующие способности многослойных перцептроновОдин реагирующий нейрон позволяет аппроксимировать области,являющиеся полупространствами, ограниченными гиперплоскостями.Нейронная сеть с одним внутренним слоем позволяет аппроксимировать произвольную выпуклую область в многомерномпризнаковом пространстве (открытую или закрытую).
Было доказанотакже, что МП с двумя внутренними слоями позволяетаппроксимировать произвольные области многомерного признаковогопространства. Аппроксимирующая способность способностьмногослойного перцептрона с различным числом внутренних слоёвпроиллюстрирована на рисунке 3. На рисунке области,соответствующие классам ω1 и ω2 разделяются с помощью простогонейрона, а также с помощью многослойных перцептронов с одним идвумя внутренними слоями.Сенько Олег Валентинович ()МОТП, лекция 613 / 26Аппроксимирующая способность многослойных перцептроновРис.3Сенько Олег Валентинович ()МОТП, лекция 614 / 26Метод обратного распространения ошибкиНаиболее распространённым способом обучения нейросетевыхалгоритмов является метод обратного распространения ошибки.Обозначим через α∗ = (α∗1 , .
. . , α∗L ) вектор индикаторных функцийклассов K1 , . . . , KL на объекте s∗ c описанием x∗ . То есть α∗i = 1,если s∗ ∈ Ki и α∗i = 0 в противном случае. Пусть на выходе i-гореагирующего нейрона вычисляется оценка gi (x∗ ) за класс Ki ,принадлежащая отрезку [0, 1]. Отметим, что оценка gi (x∗ )вычисляется активационной функцией реагирующего нейрона. Далеебудет предполагаться, что данная активационная функция являетсясигмоидной. Такое же предположение делается для активационныхфункций каждого из внутренних нейронов.
Потери, связанные склассификацией объекта s∗ естественно оценивать с помощьюфункционалаLX[α∗i − gi (x∗ )]2 .i=1Сенько Олег Валентинович ()МОТП, лекция 615 / 26Метод обратного распространения ошибкиКачество аппроксимации на обучающей выборкеSet = {(α1 , x1 ), . . . , (αm , xm )} оценивается с помощью функционалаe =E(Set , w)m XLX[αji − gi (xj )]2 .j=1 i=1e = {wtih | h = 0, . . .
, H; t = 1, . . . , r(h); i = 1, . . . , (rh+1 )} Где wмножество весовых коэффициентов связей меду нейронами . Обучениеe при которыхзаключается в поиске значений коэффициентов из w,e В основе обучения лежитдостигает минимума функционал E(Set , w).метод градиентного спуска. Метод градиентного спуска являетсяитерационным методом оптимизации произвольного функционала F ,зависящего от параметров (θ1 , .
. . , θr ) и дифференцируемого покаждому из параметров в произвольной точке Rn . Новые значениявектора параметров на k-ой итерации θ (k) вычисляется через векторθ (k−1) , полученный на предыдущей итерации.Сенько Олег Валентинович ()МОТП, лекция 616 / 26Метод обратного распространения ошибкиПри этом используется формулаθ (k) = θ (k−1) + η × grad[F (θ1 , .
. . , θr )],где η > 0 - вещественный параметр, задающий размер каждого шага.eНа предварительном этапе обучения весовым коэффициентам из wслучайным образом присваиваются исходные значения. На обучениеподаётся некоторый объект обучающей выборки sj = (αj , xj ) , поописанию которого вычисляются входные и выходные сигналывнутренних нейронов сети, а также выходные сигналы реагирующихe .
. . , gL (xj , w).e Проведём коррекцию весовыхнейронов g1 (xj , w),коэффициентов связей i-го реагирующего нейрона с нейронамипредшествующего внутреннего слоя:iH(w0iH , . . . , wr(H)).e будем обозначать gi (xj ) или простоДля упрощения формул gi (xj , w)gi .Сенько Олег Валентинович ()МОТП, лекция 617 / 26Метод обратного распространения ошибкиiH ) зависит толькоОт весовых коэффициентов (w0iH , . . . , wr(H)компонента [αji − gi (xj )]2 ошибки прогнозирования для объекта sj ,P2e = Lравная E(sj , w)i=1 [αji − gi (xj )] .
Поэтомуe ∂gie∂E(sj , w)∂E(sj , w)==iH∂gi (xj ) ∂wtiH∂wt= −2[αji − gi (xj )]∂gi (xj )∂wtiHОднако∂gi (xj )∂gi (xj ) ∂ξ iH=,∂ξ iH ∂wtiH∂wtiHPr(H)Hгде ξ iH = t=1 wtiH uHt , ut - сигнал на выходе нейрона с номером tиз слоя H.Сенько Олег Валентинович ()МОТП, лекция 618 / 26Метод обратного распространения ошибкиПоскольку gi является сигмоидной функцией от ξ iH , то∂gi= (1 − gi )gi uHt .∂wtiHТаким образомe∂E(sj , w)= δ iH uHt ,iH∂wtгдеδ iH =e∂E(sj , w)= −2[αji − gi (xj )][1 − gi (xj )]gi (xj ).∂ξ iHВоспользовавшись методом градиентного спуска, запишем новыезначения весовых коэффициентов wtiH (k) , вычисляемые на kитерации k в видеwtiH (k) = wtiH (k − 1) + η × δ iH uHt.Сенько Олег Валентинович ()МОТП, лекция 619 / 26Метод обратного распространения ошибкиРассмотрим теперь коррекцию весовых коэффициентовi(H−1)i(H−1)[w0, .
. . , wr(H−1) ], соответствующих связям нейрона i из слоя H снейронами предшествующего внутреннего слоя (H − 1). Вклад этихкоэффициентов в величину ошибки осуществляется только черезсигнал uHi на выходе нейрона i из слоя H. Поэтомуe∂E(sj , w)i(H−1)∂wt=e∂E(sj , w)∂uHii(H−1)∂uH∂wtiОднакоLX ∂E(sj , w)e ∂ξ lHe∂E(sj , w)=∂ξ lH∂uH∂uHttl=1Сенько Олег Валентинович ()МОТП, лекция 620 / 26Метод обратного распространения ошибкиПринимая во внимание, чтоe∂E(sj , w)= δ lH ,∂ξ lHа также, чтополучаем∂ξ lH∂uHt= wtlH ,LXe∂E(sj , w)=δ lH wtlHH∂utl=1Исходя из предположения о том, что активационная функция каждогоиз нейронов является сигмоидной, нетрудно показать также, что∂uHii(H−1)∂wtСенько Олег Валентинович ()H H−1= uHi (1 − ui )utМОТП, лекция 621 / 26Метод обратного распространения ошибкиВ итогеe∂E(sj , w)i(H−1)∂wtLXH H−1=(δ lH wilH )uH= δ i(H−1) uH−1,i (1 − ui )uttl=1гдеδi(H−1)LXe∂E(sj , w)H=(δ lH wilH )uH=i (1 − ui )∂ξ i(H−1)l=1Воспользовавшись методом градиентного спуска, запишем новыеi(H−1)значения весовых коэффициентов wt(k) , вычисляемые наитерации k в формеi(H−1)wti(H−1)(k) = wtСенько Олег Валентинович ()(k − 1) + η × δ i(H−1) uH−1tМОТП, лекция 622 / 26Метод обратного распространения ошибкиРассмотрим теперь процедуру коррекции весовых коэффициентов wдля связей между искусственными нейронами из слоя h cискусственными нейронами из слоя h + 1 при h < H − 1.
Пустьi(H−h)[w0i(H−h), . . . , wr(H−h) ]- весовые коэффициенты, связывающие нейрон с номером i из слояH − h + 1 c нейронами из слоя H − h. Очевидно, что справедливоравенство:ee ∂uiH−h+1∂E(sj , w)∂E(sj , w)=i(H−h)i(H−h)∂uH−h+1∂wt∂wtiНетрудно показать, чтоe∂E(sj , w)=H−h+1∂uir(H−h+1)Xl=1Сенько Олег Валентинович ()e ∂ξ H−h+1∂E(sj , w)=∂ξ H−h+1 ∂uH−h+1iМОТП, лекция 6r(H−h+1)Xl(H−h+1)δ l(H−h+1) wil=123 / 26Метод обратного распространения ошибкиУчитывая, что активционная функция для кажого внутреннегонейрона является сигмоидной, и принимая во внимание определениеξ i(H−h) , получаем∂uiH−h+1i(H−h)=∂wt∂uH−h+1∂ξ i(H−h)i= uH−h+1(1 − uH−h+1)uH−htiii(H−h)i(H−h)∂ξ∂wtВ итоге получаемe∂E(sj , w)i(H−h)∂wt= δ i(H−h) utH−h ,гдеr(H−h+1)δi(H−h)=[Xl(H−h+1)δ l(H−h+1) wi]uH−h+1(1 − uH−h+1)iil=1Сенько Олег Валентинович ()МОТП, лекция 624 / 26Метод обратного распространения ошибкиКоррекция согласно процедуре градиентного спуска производится поформуле:i(H−h)wti(H−h)(k) = wt(k − 1) + η × δ i(H−1) uH−htТаким образом может быть представлен общая схема методаобратного распространения ошибки для многослойного перцептрона.На предварительном этапе выбирается архитектура сети: задаётсячисло внутренних слоёв и количества нейронов в каждом слое.Случайным образом задаются исходные весовые коэффициенты.