Лекция 6 (2012 Лекции МОТП (Сенько))
Описание файла
Файл "Лекция 6" внутри архива находится в папке "2012 Лекции МОТП (Сенько)". PDF-файл из архива "2012 Лекции МОТП (Сенько)", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
МАТЕМАТИЧЕСКИЕОСНОВЫ ТЕОРИИПРОГНОЗИРОВАНИЯЛекторСенько Олег ВалентиновичЛекция 6Нейросетевые методыраспознавания• В основе нейросетевых методов лежит попытка компьютерногомоделирования процессов обучения, используемых в живыхорганизмах. Когнитивные способности живых существ связанысфункционированиемсетейсвязанныхмеждусобойбиологических нейронов – клеток нервной системы. Длямоделирования биологических нейросетей используются сетиискусственныхнейронов,Можноискусственныхнейронов:нейроны-рецепторы,нейроны и реагирующие нейроны.выделитьтритипавнутренниеМодель искусственного нейронаКаждый внутренний или реагирующий нейрон имеет множествовходных связей, по которым поступают сигналы от рецепторовqили других нейронов. Предположим, что нейронимеетвнешних связей, по которым поступают сигналы(u1 ,, uq ) .( w1,, wq ) . На выходе нейрона вырабатывается сигнал ( z ) , гдеqПоступившие сигналы суммируются с весамиz wiui w0, w0 - параметр сдвига.i 1также форма записитождественно равен 1.•qМожет быть использованаz wiui , где фиктивный «сигнал»i 0u0Модель искусственного нейронаФункцию ( ) обычно называют, активационнойфункцией.Модель внутреннего или реагирующего нейрона бытьсхематично изображена на рисунке 1.Модель искусственного нейронаМогут использоваться различные виды активационныхфункций.
Например,Пороговая функцияau при b( ) al при bСигмоидная функция( ) 1/ [1 exp(a )]Гиперболический тангенсТождественное преобразование( ) th( )( ) Перцептрон Розенблатта• Первой нейросетевой моделью стал перцептронРозенблатта, предложенный в 1957 году. В данноймодели используется единственный реагирующийнейрон. Модель, реализующая линейную разделяющуюфункцию в пространстве входных сигналов, может бытьиспользована для решении задач распознавания с двумяклассами, помеченными метками 1 или -1.
В качествеактивационной функции используется пороговая функция.1 при 0( ) 1 при 0Перцептрон РозенблаттаОсобенностью модели Розенблатта является очень простая, новместе с тем эффективная, процедура обучения, вычисляющаязначения весовых коэффициентов (w0 , , wn ) На первом этапепроизводится преобразование векторов сигналов (признаковыхописаний) для объектов обучающей выборки. Вектораописаний из класса K 2 умножаются на-1. Вектора описанийиз класса K1 не изменяются. Нулевое приближение векторавесовых коэффициентовw(0) (w0(0) ,, wn(0) ) выбирается случайным образом.Перцептрон РозенблаттаПроцедура обучения перцептрона.
Преобразованные описанияобъектов обучающей выборюки последовательно подаются навход перцептрона. В случае если описание x( k ) , поданные наk-ом шаге классифицируется неправильно, то происходиткоррекция по правилуw( k ) w( k 1) . x( k )В случае правильной классификацииw( k ) w( k1)Отметим, что правильной классификации всегда соответствуетвыполнение равенства(w ( k 1) , x( k ) ) 0.
, а неправильной (w( k 1) , x( k ) ) 0Перцептрон РозенблаттаСправедлива следующаяТеорема. В случае, если описания объектов обучающейвыборкилинейноразделимыпризнаковыхописаний,топерцептронапостроитлинейнуювпространствеПроцедураобучениягиперплоскостьразделяющую объекты двух классов за конечное числошагов.Многослойный перцептронОтсутствие линейной разделимости двух классов приводит кбесконечному зацикливанию Процедуры обученияперцептрона.Существенноспособностьюболеевысокойобладаютаппроксимирующейнейросетевыеметодыраспознавания, задаваемые комбинациями связанныхмеждусобойнейронов.Многослойный перцептрон.ТакимметодомявляетсяМногослойный перцептронВ методе Многослойный перцептрон сеть формируется изнескольких слоёв нейронов.В их число входит слой входных рецепторов, подающихсигналы нанейроны из внутренних слоёв.
Слоивнутренних нейронов. Слой реагирующих нейроновпроизводит окончательную классификацию объектов наоснованиисигналов,поступающихпринадлежащих внутренним слоям.отнейронов,Многослойный перцептронСтруктура Многослойного перцептронаМногослойный перцептронОбычно соблюдаются следующие правила формированияструктуры сети.Допускаются связи между только между нейронами,находящимися в соседних слоях.Связи между нейронами внутри одного слоя отсутствуют.Активационные функции для всех внутренних нейроновидентичны.Аппроксимирующие способностиМногослойных перцептроновОдин реагирующий нейрон позволяет аппроксимировать области,являющиеся полупространствами, ограниченнымигиперплоскостями.Нейронная сеть с одним внутренним слоем позволяет аппроксимировать произвольную выпуклую область в многомерномпризнаковом пространстве (открытую или закрытую).Было доказано также, что МП с двумя внутренними слоямипозволяет аппроксимировать произвольные областимногомерного признакового пространстваАппроксимирующие способностиМногослойных перцептроновОбучение многослойных перцептроновМетод обратного распространения ошибкиРассмотрим задачу обучения МП для распознавания классовK1 , , K LПредполагается, что конфигурация нейронной сети задана.
То естьзаданы:число слоев, равное H+2 (входной, реагирующий и двавнутренних);количества нейронов в каждом слое:n – слой входных нейронов;rh- h-ый внутренний слой, h {1, , H} ; L - слой реагирующихнейроновМетод обратного распространенияошибкиПусть на выходеgiвычисляется оценка за классKi,принадлежащая отрезку [0,1] Обозначим черезα* (*1,K1 ,, KL,*L ) вектор индикаторных функций классовна объекте*i 0, если s* Kis*. То есть *i 1, если s* KiМетод обратного распространенияошибкиКачество аппроксимации на обучающей выборкеSt {(α1, x1 ),,(α m , xm )} оценивается с помощью функционалаmLE ( St , w) [ jt gt (x j , w)]2j 1 t 1Где w - множество весовых коэффициентов связей медунейронами .
Обучение заключается в поиске значенийкоэффициентов из w . , при которых достигает минимумафункционал E ( St , w) .Метод обратного распространенияошибкиВ основе обучения лежит метод градиентного спуска. Методградиентного спуска является итерационным методомоптимизации произвольного функционала F , зависящего отпараметров 1 , ,n и дифференцируемого по каждому изпараметров в произвольной точке R n .
Новые значениявектора параметров на k-ой итерации θ( k ) вычисляется через( k 1)вектор θ,формуле,полученный на предыдущей итерации поθ( k ) θ( k 1) grad( F ) , где 0 -вещественный параметр, задающий размер каждого шага.Метод обратного распространенияошибки• На предварительном этапе обучения весовым коэффициентамиз w случайным образом присваиваются исходные значения.На обучение подаётся некоторый объект обучающей выборкиs j (α j , x j ) , по описанию которого вычисляются входные ивыходные сигналы внутренних нейронов сети, а такжевыходные сигналы реагирующих нейронов g1 (x j ), , g L (x j )Проведём коррекцию весовых коэффициентов связей i-гореагирующего нейрона с нейронами предшествующегоiHiH(w,,w0rH )внутреннего слоя:Метод обратного распространенияошибкиОт весовых коэффициентовкомпонента( w0tH ,[ ji gi (x j )]2, wrtHH )зависит толькоошибки прогнозированияLдля объекта s j - E ( s j , w) [ ji gi (x j )]2i 1Поэтому E ( s j , w) E ( s j , w) gt (x j ) 2[ g (x )] gt (x j )jttjwitHgt (x j ) witHwithrHiHg(x)g(x)ijijОднако, где iH wiH u HttiHiHiHwtwtt 0utH - сигнал на выходе t-го нейрона слоя H.Метод обратного распространенияошибкиiHПредположим, что g i является сигмоидной функцией от .
Тогдаgi (x j )wiHtгде iH. [1 gi (x j )]gi (x j )utH . Таким образомE ( s j , w)iHE ( s j , w)wtiH iH utH 2[ ij gi (x j )][1 gi (x j )]gi (x j )Воспользовавшись методом градиентного спуска, запишем новыеiHwзначения весовых коэффициентов t (k ) , вычисляемые наk-ой итерации в виде.wiH (k ) wiH (k 1) iH utHМетод обратного распространенияошибкиРассмотрим теперь коррекцию весовых коэффициентовсвязей t-го нейрона из слоя H с нейронамиt ( H 1)(w,предшествующего внутреннего слоя (H-1) – 0, wrt((HH1)1) )Вклад этих коэффициентов в величину ошибки осуществляетсяHuтолько через сигнал t на выходе .
ПоэтомуE ( s j , w)wit ( H 1)E ( s j , w) utH . ОднакоutH wit ( H 1)E ( s j , w)uHtLl 1.E ( s j , w) lH lHutHМетод обратного распространенияошибкиE ( s j , w)Принимая во внимание, чтоlHwtHutE ( s j , w)lHполучаемutHГдеE ( s j , w)wit ( H 1)t ( H 1)L ( lH wtlH )l 1Исходя из предположенияНетрудно показать также, чтоВ итоге lH lHuiHHHH 1u(1u)uttiwit ( H 1)L ( lH wtlH )utH (1 utH )uiH 1 t ( H 1)uiH 1l 1E ( s j , w) t ( H 1)L ( lH wtlH )utH (1 utH )l 1Метод обратного распространенияошибкиВоспользовавшись методом градиентного спуска, запишем новыезначения весовых коэффициентов wti ( H 1) (k ) , вычисляемыена k-ой итерации в формеwi ( H 1) (k ) wi ( H 1) (k 1) i ( H 1)utH 1t ( H h )(w,В общем виде для весовых коэффициентов 0E ( s j , w)wit ( H h )E ( s j , w) utH h1utH h1 wit ( H h ), wrt((HH1)h ) ), h 2Метод обратного распространенияошибкиОднакоE ( s j , w)H h 1turH h 1E ( s j , w) l ( H h1) l 1l ( H h 1)ut( H h1)rH h 1l ( H h 1) l ( H h 1)wtl 1uiH h1H h 1H h 1H hu(1u)uttiwit ( H 1)E ( s j , w)t ( H h ) H hВ итоге получаемui , гдеt ( H h )wirH h 1 t ( H h ) ( l ( H h1) wtl ( H h1) )utH h1 (1 utH h1 )l 1Метод обратного распространенияошибкии коррекция согласно процедуре градиентного спускапроизводится по формуле:wi ( H h) (k ) wi ( H h ) (k 1) i ( H h1)utH h(1)Таким образом может быть представлен общая схема методаобратного распространения ошибки для многослойногоперцептрона.На предварительном этапе выбирается архитектура сети:задаётся число внутренних слоёв и количества нейронов вкаждом слое.Метод обратного распространенияошибкиСлучайным образом задаются исходные весовые коэффициентыНа вход многослойного перцептрона поочерёдно подаютсявектора между нейронами.параметров обучающей выборки поочерёдно подаются векторныеописания объектов обучающей выборки.
С использованиемформулы (1) производится коррекция весовых коэффициентов.Вычисляется значение функционалаE ( St , w)Обучение заканчивается при выполении одного из заранеезаданных условий.Метод обратного распространенияошибкиа) Величина функционала ошибки оказывается меньшепорогового значения E ( St , w) ;б) общее число шагов (коррекций) превышает N s ;г) Изменения функционала ошибки на протяженийнескольких последних итераций оказывается меньшимнекоторого порогового значения..