Диссертация (1141573), страница 12
Текст из файла (страница 12)
Каждый канал связи имеет свою пропускную способностьили вес wgj . Следовательно, на нейрон скрытого слоя поступает вектор импульсов{xg wgj }G j , где G j - количество связей, приходящих на нейрон j.Предположим, что в данной ИНС каждый нейрон имеет связь со всеминейронами (сенсорами) предыдущего слоя, тогда на сумматоре нейрона jсформируется сигналx wggj, который после преодоления порога активации b jgпревратится в индуцированное локальное поле нейронаv j xg wgj b j .(2.9)gВыбор функции активации один из важнейших этапов построения ИНС. Впервых ИНС, направленных на решение реальных задач, применялись линейныефункции активации, так в персептроне Розенблатта [99] использовалась функцияединичного скачка (функция Хевисайда).
Существенный минус линейных функцийв том, что они не дифференцируемы на всей числовой прямой, что исключаетприменение некоторых эффективных алгоритмов обучения. Широкое применениев ИНС нашли нелинейные функции такие, как логистическая функция,гиперболический тангенс [98], радиально-базисные [88] и другие. Выбор функцииактивации (v) связан с природой явлений (процессов), работу которыхнеобходимо интерпретировать с ее помощью.Полученный на скрытом слое ИНС вектор сигналов { y j } по каналам связипередаетсянатретийслой-нейронP,работакоторогоидентичнафункционированию нейронов j.2.6. Методология обучения ИНСРазличают два основных подхода к обучению моделей - по прецедентам и спомощью экспертных оценок.
Последний метод описан выше, и применяется, восновном, при создании экспертных систем. Метод обучения по прецедентамоснован на применении имеющейся достоверной информации об исследуемой67системе, полученной непосредственно от объекта исследования. Классическоепредставление данной информации - это совокупность (выборка) значенийкомпонентов системы, разделенная на два блока: входы модели и соответствующиеим выходы. В диссертационной работе применяется подход к обучению, когдаисследователь обладает обеими частями такой выборки, и который называетсяобучение «с учителем» (supervised learning). Рассмотрим обучение ИНС на примересети, представленной на Рисунке 2.6.
Предположим, мы имеем обучающуювыборку Ltrain , полученную в результате наблюдения за системой и фиксациипрецедентов ,Ltrain { }nN1 {( xg ), YP }nN1 ,где(2.10)( xg ) ( xg1 , xg2 ...) - вектор значений компонентов системы, выступающихпредикторами модели;YP - отклик реальной системы (объекта исследования) при зафиксированном( xg ) ;N – количество примеровв обучающей выборке или длина выборки;n – номер обучающего примера , n N .Обучение с учителем происходит в следующем порядке: на вход ИНСподается вектор значений ( xg ) n n-го примера обучающей выборки и фиксируетсявыход модели - сигнал нейрона P выходного слоя сети yP . На основанииинформации о фактическом отклике системы YP , взятой из обучающей выборки(2.10), определяется ошибка модели YP yP .(2.11)Далее производится корректировка свободных параметров ИНС, весовсвязей w, таким образом, чтобы максимально приблизить выход модели yP кфактическому отклику исследуемой системы YP .682.6.1.
Алгоритм обучения ИНС методом обратного распространения ошибкиМощным инструментом для такой корректировки признан алгоритмобратного распространения ошибки, который имеет твердую теоретическую базу[100] и опыт успешной практической реализации [92, 81, 85] на протяжении более20 лет.Для описания ошибки созданной модели используется специальная функцияE - функция потерь, которая выражается через свободные параметры ИНС. Цельобучения — это корректировка весов связей w w , таким образом, чтобыминимизировать функцию потерь. Суть алгоритма обратного распространенияошибки заключается в определении значения w для каждой связи, при которомфункция потерь будет изменяться в сторону обратную своему градиенту. Т.е.данный метод заключается в реализации градиентного спуска, величина шагакоторого устанавливается следующим образомw E,w(2.12)где - параметр, характеризующий скорость градиентного спуска.Для определения w для связей j-P между скрытым слоем нейронов j ивыходным нейроном P применим цепное правило дифференцирования дляфункции потерь E по w jP и получимEE vPE yP vP E yP vP E( ) (vP ) y j .w jP vP w jP yP vP w jP yP vP w jP(2.13)Тогда выражение (2.12) для весов связей между II и III слоями сети примет видw jP E P y j ,w jP(2.14)где P - локальный градиент нейрона P, определяемый по формулеP E E yP E( ) (vP ) .vP yP vP(2.15)Для получения корректировки wgj весов связей между I и II слоями сетианалогично находим частную производную функции потерь по wgj и получаем69EE v jE vP v jE vP y j v j P w jP (v j ) xg j xg ,wgj v j wgj vP v j wgj vP y j v j wgj(2.16)где j - локальный градиент нейрона j, определяемый по формуле j P w jP (v j ) .(2.17)Тогда получаем корректировка весов связей g-j между сенсорами g и нейронами jскрытого слояwgj E j xg .wgj(2.18)Параметр характеризует скорость обучения ИНС, так как от его значениязависит величина шага w , с которым идет приближение к минимуму функциипотерь.
При этом параметр может быть общим для всей ИНС, либо выбиратьсяотдельно для каждой связи в сети, что может значительно увеличить скоростьсходимости. При больших значениях есть вероятность пропустить экстремумфункции Е, тем самым потерять устойчивость алгоритма. При малых значениях созданная ИНС может очень долго сходиться к минимальным значениям ошибок.Выбор значения связан с кривизной функции потерь, которую сложно установитьтеоретически до начала обучения ИНС.
Поэтому подбор параметра производитсянепосредственно на стадии обучения ИНС.2.6.2. Статистическая теория обучения ИНСЦентральной проблемой обучения ИНС является определение необходимыхусловий для получения с помощью обученной модели статистически значимыхрезультатовсзаданнымуровнемдостоверности.Дляпереходакэкспериментальной части диссертационной работы по извлечению обучающейвыборки Ltrain из объекта исследования необходимо теоретически обосноватьвозможность успешного обучения ИНС в рамках настоящего исследования.Обучение ИНС можно представить, как поиск такой функцииfˆ ( x, w)впространстве всех возможных функций , которая аппроксимирует работуреальной системы f ( x) с допустимым отклонением (ошибкой) и достаточной70степенью надежности .
Из статистической теории обучения [111] задача состоитв минимизации по параметру w функционала среднего рискаR( w) E ( x, y, w)P( x, y)dydy ,(2.19)где E ( x, y, w) - функция потерь, P( x, y) - совместное распределение вероятностейпараметров реальной системы, соответствующих входам x и выходам y модели.В связи с тем, что восстановление плотности распределения вероятностей повыборке трудоемкая задача, все алгоритмы обучения ИНС по прецедентам, вчастности алгоритм обратного распространения ошибки, направлены наминимизацию эмпирического рискаRemp ( w) 1 E ( x, y, w) .N N(2.20)Так как длина обучающей выборки N всегда ограничена, то главный вопроспо достижению критерия останова это насколько хорошо полученная на опытныхданных функция fˆ ( x, w) минимизирует функционал фактического риска (14),другими словами, насколько ошибка сети на обучающей выборке f ( x) fˆ ( x, w) ,(2.22)будет отличаться от ошибки на контрольной выборке Ltest , состоящей изпрецедентов, не задействованных в процессе обучения модели и, следовательно, ейнезнакомых.Решение данной задачи связано с определением условий сходимостиэмпирических средних к математическим ожиданиям [112], которая имеет видP{sup | Remp (w) R(w) | } ,(2.23)и означает, что с надежностью не менее фактический риск R( w) находится винтервалеRemp (w) R(w)Remp (w) ,(2.24)где - доверительный предел фактического риска.В ходе анализа условий сходимости (2.23) на выборках конечной длины N иобобщения теоремы Гливенко для задачи распознавания образов [7] советскиеученые В.
Вапник и А. Червоненкис ввели понятие емкости h множества функций71 , которое в мировой литературе принято называть размерностью Вапника-Червоненкиса или VC-dimension [113]. С помощью данного параметра былиопределены допустимые условия равномерной сходимости через длину выборкиNh , из которых можно выделить выражение для оценки доверительногоинтервалаR( w) Remp ( w) 4 R ( w)B 0(1 1 emp),2B 0(2.25)где B - верхняя граница функции потерь E ( x, y, w) , зависящая от области значенийвыходов ИНС, которая для индикаторных функций активации равна 1,0 4h(ln2N 1) ln h.N(2.26)Так как в основном Remp ( w) 1 , то из выражения (2.25) можно заключить, чтодоверительный интервал соответствует среднему риску R( w) и зависит от VCdimension и сложности обучающего множества N (длины выборки), при условииNh.Для нейронных сетей с сигмоидальной функцией активации установленыграницы VC-dimension [62, 83], имеющие следующие порядкиinf h W 2 , sup h W 4(2.27)где W – количество свободных параметров сети, т.е.
весовых коэффициентовсвязей.Рассмотрим3-хслойнуюИНСпрямогораспространениясигнала,построенную на основе иерархии предмета исследования, полученной в разделе2.1, 2.3 за исключением внешнего параметра J4, и функционирующую согласноразделу 2.5 с сигмоидальной функцией активации нейронов. В данной ИНС W 16,тогда размерность Вапника-Червоненкиса согласно (2.27) имеет границы порядкаinf h 256 , sup h 65536 . Примем область значений функции активации выходногонейрона, ограниченную сверху 1, то есть B 1 , а также эмпирический рискRemp ( w) 0, 05 ,которыйвбольшинствемоделейсоответствуетсреднейквадратической ошибке модели на обучающей выборке. Тогда согласно (2.25) и72(2.26) для достижения фактического риска прогнозирования модели не болееR( w) 0, 2 с надежностью 0,95 ИНС необходимо обучить на выборке, длинакоторой имеет следующие границыinf N 45000 , sup N 1107 .(2.28)Полученная теоретическая длина достаточной обучающей выборки дляобеспечения статистической сходимости ИНС имеет очень большой разрыв междусвоими границами, в частности потому, что это есть пессимистический прогноз вусловиях установления случайных начальных значений весов связей, отсутствияаприорной информации о системе, кроме количества связей, не учитывающийособенностей различных алгоритмов обучения.
Далее известные результатыпрактической апробации различных нейронных сетей показали, что для реализациистатистической сходимости в практических задачах более подходит вероятностнокорректная в смысле аппроксимации модель обучения (PAC-model) [83, 80], атакже было установлено, что для задачи классификации размер сложностиобучающей выборки больше зависит от размера весов, чем от их количества [67].В связи с этим для оценки емкости множества функций было предложеноиспользовать вместо VC-dimension его масштабированную версию fatF ( ) - fatshattering dimension [61, 89], с помощью которого установлена оценка достаточнойдлины обучающей выборки для выполнения условия сходимости ИНСNгдеcc211( fatF ( ) log 2 ( ) log( )) ,(2.29)- константа, а также установлен порядок длины обучающей выборкиN1 B 2 H l (l 1)1(ln m ln( )) ,22l(2.30)где H - верхняя граница суммы весовых коэффициентов связей одного нейрона;l - число вычислительных слоев нейронной сети;m - количество входов ИНС.Для нейронной сети с входными значениями из интервала [0,1], и выходнымизначениями, ограниченными величиной B, имеющей l вычислительных слоев,каждый нейрон которой имеет функцию активации, удовлетворяющую условию73Липшица | (v1 ) (v2 ) | cL | v1 v2 | , где cL - константа Липшица, и ограниченнуюсумму весов w H , установлено следующая оценкаfat F ( ) 16W (l ln( LH ) 2 ln(32W ) ln(fatF ( ) [62]1)) . ( LH 1)(2.31)Рассмотрим ИНС, построенной по иерархии предмета исследования заисключением внешнего параметра J4, и функционирующей согласно разделу 2.5, укоторой число слоев и связей l 3 и W 16 , соответственно, сигмоидальнаяфункция активации удовлетворяет условию Липшица при сL 1,3 , согласноРисунку 2.1 число входов m 10 , верхнюю границу суммы весов и выходов моделипримем H 1 и B 1 , соответственно.