Лекция 6. Нейросетевые методы (2014 Лекции (Сенько)), страница 2
Описание файла
Файл "Лекция 6. Нейросетевые методы" внутри архива находится в папке "2014 Лекции (Сенько)". PDF-файл из архива "2014 Лекции (Сенько)", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
Отметим, что оценка gi (x∗ )вычисляется активационной функцией реагирующего нейрона. Далеебудет предполагаться, что данная активационная функция являетсясигмоидной. Такое же предположение делается для активационныхфункций каждого из внутренних нейронов. Потери, связанные склассификацией объекта s∗ естественно оценивать с помощьюфункционалаLX[α∗i − gi (x∗ )]2 .i=1Сенько Олег Валентинович ()МОТП, лекция 615 / 26Метод обратного распространения ошибкиКачество аппроксимации на обучающей выборкеSet = {(α1 , x1 ), .
. . , (αm , xm )} оценивается с помощью функционалаe =E(Set , w)m XLX[αji − gi (xj )]2 .j=1 i=1e = {wtih | h = 0, . . . , H; t = 1, . . . , r(h); i = 1, . . . , (rh+1 )} Где wмножество весовых коэффициентов связей меду нейронами . Обучениеe при которыхзаключается в поиске значений коэффициентов из w,e В основе обучения лежитдостигает минимума функционал E(Set , w).метод градиентного спуска. Метод градиентного спуска являетсяитерационным методом оптимизации произвольного функционала F ,зависящего от параметров (θ1 , .
. . , θr ) и дифференцируемого покаждому из параметров в произвольной точке Rn . Новые значениявектора параметров на k-ой итерации θ (k) вычисляется через векторθ (k−1) , полученный на предыдущей итерации.Сенько Олег Валентинович ()МОТП, лекция 616 / 26Метод обратного распространения ошибкиПри этом используется формулаθ (k) = θ (k−1) + η × grad[F (θ1 , . . . , θr )],где η > 0 - вещественный параметр, задающий размер каждого шага.eНа предварительном этапе обучения весовым коэффициентам из wслучайным образом присваиваются исходные значения. На обучениеподаётся некоторый объект обучающей выборки sj = (αj , xj ) , поописанию которого вычисляются входные и выходные сигналывнутренних нейронов сети, а также выходные сигналы реагирующихe . .
. , gL (xj , w).e Проведём коррекцию весовыхнейронов g1 (xj , w),коэффициентов связей i-го реагирующего нейрона с нейронамипредшествующего внутреннего слоя:iH(w0iH , . . . , wr(H)).e будем обозначать gi (xj ) или простоДля упрощения формул gi (xj , w)gi .Сенько Олег Валентинович ()МОТП, лекция 617 / 26Метод обратного распространения ошибкиiH ) зависит толькоОт весовых коэффициентов (w0iH , . . . , wr(H)компонента [αji − gi (xj )]2 ошибки прогнозирования для объекта sj ,P2e = Lравная E(sj , w)i=1 [αji − gi (xj )] . Поэтомуe ∂gie∂E(sj , w)∂E(sj , w)==iH∂gi (xj ) ∂wtiH∂wt= −2[αji − gi (xj )]∂gi (xj )∂wtiHОднако∂gi (xj )∂gi (xj ) ∂ξ iH=,∂ξ iH ∂wtiH∂wtiHPr(H)Hгде ξ iH = t=1 wtiH uHt , ut - сигнал на выходе нейрона с номером tиз слоя H.Сенько Олег Валентинович ()МОТП, лекция 618 / 26Метод обратного распространения ошибкиПоскольку gi является сигмоидной функцией от ξ iH , то∂gi= (1 − gi )gi uHt .∂wtiHТаким образомe∂E(sj , w)= δ iH uHt ,iH∂wtгдеδ iH =e∂E(sj , w)= −2[αji − gi (xj )][1 − gi (xj )]gi (xj ).∂ξ iHВоспользовавшись методом градиентного спуска, запишем новыезначения весовых коэффициентов wtiH (k) , вычисляемые на kитерации k в видеwtiH (k) = wtiH (k − 1) + η × δ iH uHt.Сенько Олег Валентинович ()МОТП, лекция 619 / 26Метод обратного распространения ошибкиРассмотрим теперь коррекцию весовых коэффициентовi(H−1)i(H−1)[w0, .
. . , wr(H−1) ], соответствующих связям нейрона i из слоя H снейронами предшествующего внутреннего слоя (H − 1). Вклад этихкоэффициентов в величину ошибки осуществляется только черезсигнал uHi на выходе нейрона i из слоя H. Поэтомуe∂E(sj , w)i(H−1)∂wt=e∂E(sj , w)∂uHii(H−1)∂uH∂wtiОднакоLX ∂E(sj , w)e ∂ξ lHe∂E(sj , w)=∂ξ lH∂uH∂uHttl=1Сенько Олег Валентинович ()МОТП, лекция 620 / 26Метод обратного распространения ошибкиПринимая во внимание, чтоe∂E(sj , w)= δ lH ,∂ξ lHа также, чтополучаем∂ξ lH∂uHt= wtlH ,LXe∂E(sj , w)=δ lH wtlHH∂utl=1Исходя из предположения о том, что активационная функция каждогоиз нейронов является сигмоидной, нетрудно показать также, что∂uHii(H−1)∂wtСенько Олег Валентинович ()H H−1= uHi (1 − ui )utМОТП, лекция 621 / 26Метод обратного распространения ошибкиВ итогеe∂E(sj , w)i(H−1)∂wtLXH H−1=(δ lH wilH )uH= δ i(H−1) uH−1,i (1 − ui )uttl=1гдеδi(H−1)LXe∂E(sj , w)H=(δ lH wilH )uH=i (1 − ui )∂ξ i(H−1)l=1Воспользовавшись методом градиентного спуска, запишем новыеi(H−1)значения весовых коэффициентов wt(k) , вычисляемые наитерации k в формеi(H−1)wti(H−1)(k) = wtСенько Олег Валентинович ()(k − 1) + η × δ i(H−1) uH−1tМОТП, лекция 622 / 26Метод обратного распространения ошибкиРассмотрим теперь процедуру коррекции весовых коэффициентов wдля связей между искусственными нейронами из слоя h cискусственными нейронами из слоя h + 1 при h < H − 1.
Пустьi(H−h)[w0i(H−h), . . . , wr(H−h) ]- весовые коэффициенты, связывающие нейрон с номером i из слояH − h + 1 c нейронами из слоя H − h. Очевидно, что справедливоравенство:ee ∂uiH−h+1∂E(sj , w)∂E(sj , w)=i(H−h)i(H−h)∂uH−h+1∂wt∂wtiНетрудно показать, чтоe∂E(sj , w)=H−h+1∂uir(H−h+1)Xl=1Сенько Олег Валентинович ()e ∂ξ H−h+1∂E(sj , w)=∂ξ H−h+1 ∂uH−h+1iМОТП, лекция 6r(H−h+1)Xl(H−h+1)δ l(H−h+1) wil=123 / 26Метод обратного распространения ошибкиУчитывая, что активционная функция для кажого внутреннегонейрона является сигмоидной, и принимая во внимание определениеξ i(H−h) , получаем∂uiH−h+1i(H−h)=∂wt∂uH−h+1∂ξ i(H−h)i= uH−h+1(1 − uH−h+1)uH−htiii(H−h)i(H−h)∂ξ∂wtВ итоге получаемe∂E(sj , w)i(H−h)∂wt= δ i(H−h) utH−h ,гдеr(H−h+1)δi(H−h)=[Xl(H−h+1)δ l(H−h+1) wi]uH−h+1(1 − uH−h+1)iil=1Сенько Олег Валентинович ()МОТП, лекция 624 / 26Метод обратного распространения ошибкиКоррекция согласно процедуре градиентного спуска производится поформуле:i(H−h)wti(H−h)(k) = wt(k − 1) + η × δ i(H−1) uH−htТаким образом может быть представлен общая схема методаобратного распространения ошибки для многослойного перцептрона.На предварительном этапе выбирается архитектура сети: задаётсячисло внутренних слоёв и количества нейронов в каждом слое.Случайным образом задаются исходные весовые коэффициенты.
Навход многослойного перцептрона поочерёдно подаются векторныеописания объектов обучающей выборки. С использованием описанноговыше способа производится коррекция весовых коэффициентов. Сeиспользованием новых скорректированных весовых коэффициентов weвычисляется значение функционала E(sj , w).Сенько Олег Валентинович ()МОТП, лекция 625 / 26Метод обратного распространения ошибкиОбучение заканчивается при выполнении одного из заранее заданныхусловий:а) Величина функционала ошибки оказывается меньшеe < ε;выбранного порогового значения: E(sj , w)б) Изменения функционала ошибки на протяжений несколькихпоследних итераций оказывается меньшим некоторого пороговогозначения.в) общее время обучения превышает допустимый предел;Сенько Олег Валентинович ()МОТП, лекция 626 / 26.