Диссертация (785777), страница 14
Текст из файла (страница 14)
. . , xn , w) = i=1 wi · fi (x)w1f1 (x1 , . . . , xn )yPNi=1 wi · fi (x)fN (x1 , . . . , xn ) wN(a)x1xnΨ : Rn → Ry = Ψ(x1 , . . . , xn , w) = ϕ(f1 (x), . . . , fN (x), w)x ∈ Rn , y ∈ R; w = (w1 , . . . , wM )u1f1 (x1 , . . . , xn )yϕ(u, w)fN (x1 , . . . , xn ) uNu = (u1 , . . . , ui , . . . , uN )ui = fi (x1 , . . . , xn ), i = 1, . .
. , N(b)РИС. 2.2. Скалярнозначная функциональная зависимость от нескольких переменных каклинейная (a) и нелинейная (b) комбинация элементов базиса fi(x1; : : : ; xn); i = 1; : : : ; N2. Перечисленные выше функциональные разложения традиционного вида в общем видезаписываются какy (x) = F (x1 ; x2 ; : : : ; xn ) =Здесь функцияmXi=0i 'i (x1 ; x2 ; : : : xn ):(2.5)F (x1 ; x2 ; : : : ; xn ) — (линейная) комбинация элементов базиса 'i (x1 ; x2 ; : : : xn ).Разложение вида (2.5) имеют следующие характерные черты:формируемое разложение является одноуровневым;функции 'i: Rn ! R как элементы базиса обладают ограниченной гибкостью (с вари-ативностью типа смещение, сжатие/растяжение), либо являются фиксированными.Такая ограниченная гибкость традиционного ФБ в сочетании с одноуровневым характеромразложения резко сужают возможности получить «достаточно хорошую» модель 26 .26На интуитивном уровне «хорошая модель» — это модель с обобщающими свойствами, адекватнымирешаемой прикладной задаче; см.
также разд. 1.6.2.67Ψ : Rn → Rmy = Ψ(x, W ); x ∈ Rn , y ∈ RmW = (w(1) , . . . , w(m) )(j)(j)w(j) = (w1 , . . . , wN ); j = 1, . . . , mPN(1)yj = i=1 wi fi (x); j = 1, . . . , m(1)x1w1f1 (x1 , . . . , xn )PNPNi=1xnfN (x1 , . . . , xn )PN(m)wN(1)i=1 wi fi (x)i=1y1(j)wi fi (x)(m)wifi (x)yjymРИС. 2.3. Векторнозначная функциональная зависимость от нескольких переменных каклинейная комбинация элементов базиса fi(x1 ; : : : ; xn); i = 1; : : : ; N2.1.3 Многоуровневые настраиваемые функциональные разложения1. Как отмечалось в предыдущем разделе, возможности получить «хорошую» модель ограничиваются одноуровневой структурой и негибким базисом традиционных разложений. Поэтой причине вполне естественным будет для преодоления этих недостатков построить такуюмодель, которая будет обладать требуемой гибкостью (и, соответственно, требуемой изменчивостью порождаемых вариантов) за счет формирования ее в виде многоуровневой сетевойструктуры, а также подходящей параметризации элементов этой структуры.На рис.
2.4 показано, как может быть построено многоуровневое настраиваемое функциональное разложение. Здесь видно, что в таком варианте настройка разложения осуществляетсяне только путем варьирования коэффициентов линейной комбинации, как в разложениях типа(2.5). Теперь параметризованными являются и элементы ФБ, т. е. по ходу решения задачи ФБподстраивается так, чтобы получить приемлемую, в смысле критерия (1.26), модель ДС.Переход от одноуровневого разложения к многоуровневому состоит, как видно из рис. 2.4,в том, что каждый элемент 'j (v; w' );j = 1; : : : ; M подвергается разложению по некоторомуf k (x; w )g; j = 1; : : : ; K . Аналогичным образом можно построить разложение элементов k (x; w ) еще по какому-либо ФБ и так далее, требуемое число раз, что дает сетевуюФБструктуру с необходимым числом уровней, а также требуемую параметризацию элементовФБ.68x = (x1 , .
. . , xN );x1xnψ1 (x, w(ψ) )v = (v1 , . . . , vK );v1ϕ1 (v, w(ϕ) )u = (u1 , . . . , uM )u1ujψk (x, w(ψ) )ϕj (v, w(ϕ) )ψK (x, w(ψ) ) vKϕM (v, w(ϕ) ) uMθ(u, wθ )yy = θ(u1 , . . . , uj , . . . , uM , w(θ) )uj = ϕj (v1 , . . . , vk , . . . , vK , w(ϕj ) )vk = ψk (x1 , . . . , xi , . . . , xN , w(ψk ) )j-я базисная функция:uj = ϕj (v1 , . . . , vK , w(ϕj ) ) == ϕj (ψ1 (x1 , . . . , xN , w(ψ1 ) ), . . . , ψK (x1 , . .
. , xN , w(ψK ) ), w(ϕj ) )РИС. 2.4. Многоуровневое настраиваемое функциональное разложение2.1.4 Функциональные и нейронные сети1. Итак, модель можно интерпретировать как разложение по функциональному базису(2.5), каждый из элементов 'i (x1 ; x2 ; : : : xn ) которого осуществляет преобразование n-мерноговхода x = (x1 ; x2 ; : : : xn ) в скалярный выход y .Можно выделить следующие виды элементов функционального базиса:элемент ФБ как целостное (одноэтапное) отображение 'i: Rn! R, непосредственнопреобразующее n-мерный вход x = (x1 ; x2 ; : : : xn ) в скалярный выход y ;элемент ФБ как композиционное (двухэтапное) отображение n-мерного входаx = (x1 ; x2 ; : : : xn ) в скалярный выход y .В двухэтапном (композиционном) варианте на первом этапе выполняется отображениеRn ! R, «сжимающее» векторный вход x= (x1 ; x2 ; : : : xn ) в промежуточный скалярныйвыход v , который на втором этапе дополнительно обрабатывается выходным отображениемR ! R для получения выхода y (рис.
2.5).В зависимости от того, какие из этих элементов ФБ применяются при формированиисетевых моделей, получаются следующие основные виды этих моделей:Одноэтапное отображение Rn! R — функциональные сети.Двухэтапное отображение R n ! R ! R — нейронные сети.69x1y = ϕi (x1 , . . . , xn )ϕi (x1 , . . .
, xn )xny(a)y = Ψ(Φi (x1 , . . . , xn ))x1Φi (x1 , . . . , xn )xnvΨ(v)y(b)РИС. 2.5. Элемент функционального базиса, преобразующий(x1 ; x2 ; : : : xn)в скалярный выходn-мерныйy:(a) одноэтапное отображениеэтапное (композиционное) отображение Rn ! R ! RвходRn ! R;x=(b) двух-Элемент композиционного типа, т. е. двухэтапное отображение n-мерного входа в скалярный выход — это нейрон, он характерен для функциональных разложений нейросетевого типаи является «фирменной чертой» таких разложений, другими словами, НС-моделей всех видов.2.2 Структурная организация НС-моделей2.2.1 Слоистая структурная организация НС-модели1. Будем считать, что НС-модели в общем случае имеет слоистую структуру. Это означает,что вся совокупность элементов-нейронов, составляющих НС-модели, разделена на непересекающиеся подмножества, которые будем именовать слоями.
Для слоев НС-модели введемобозначения L(0) ; L(1) ; : : : ; L(p) ; : : : ; L(NL ) .Слоистая организация НС-модели определяет логику срабатывания ее нейронов, эта логика будет различной для разных структурных вариантов сети. При этом имеет место следующая специфика в работе слоистой НС-модели 27 — нейроны, входящие в НС-модели, срабатывают послойно, т. е. пока не сработают все нейроны p-го слоя, нейроны(p + 1)-го слояне вступают в работу. Общий вариант, определяющий правила срабатывания нейронов в НСмодели, будет рассмотрен далее.2.
В самом простом варианте структурной организации слоистых сетей все слои L(p) , пе-NL , срабатывают в порядке следования их номеров. Этоозначает, что пока не сработают все нейроны, входящие в слой с номером p, нейроны из слояренумерованные числами от 0 до27Для случая, когда слои идут в порядке следования их номеров, обратные связи между слоями отсут-ствуют. В таком случае слои будут срабатывать последовательно и однократно.70(p + 1) находятся в состоянии ожидания. В свою очередь, p-й слой может начинать работу,только если уже сработали все нейроны (p 1)-го слоя.Визуально такую структуру можно представить как «стопку слоев», упорядоченных по ихномерам.
В простейшем варианте эта «стопка» выглядит так, как это показано на рис. 2.6.Здесь слой L(0) является входным, элементы которого представляют собой компоненты вектора, поступающего на вход НС-модели.p < NL , связан с двумя соседними слоями: от предшествующегоЛюбой слой L(p) ; 1слоя L(p 1) он получает свои входы, а последующему слою L(p+1) передает свои выходы.6Исключением является слой L(NL ) , последний в НС (выходной слой), который не имеет слоя,следующего за ним. Выходы слоя L(NL ) являются выходами сети в целом. Слои L(p) ; 0 < p <NL принято именовать скрытыми.Поскольку НС, показанная на рис. 2.6а, является сетью прямого распространения, все связи между ее слоями идут строго от слоя L(0) к слою L(NL ) без «перескоков» через соседниеслои и возвратов назад (обратных связей).Для сетей рассматриваемого вида принимается также, что любая пара нейронов, междукоторыми установлена связь, относится к разным слоям.
Другими словами, нейроны в пределах любого из обрабатывающих слоев L(p) ; p = 1; : : : ; N , не имеют никаких связей междуLсобой. Вариант, в котором такого рода связи, называемые латеральными, имеются в НС, будетрассмотрен отдельно.3. Схема, показанная на рис. 2.6а, может быть развита в направлении усложнения структуры связей в ней.Первый из возможных вариантов такого развития состоит во введении в структуру НСобратной связи, которая полученный выход сети (т. е. выход слоя L(NL ) ) передает «назад», навход НС, точнее на вход ее первого обрабатывающего слоя L(1) , как это показано на рис. 2.6b.На рис. 2.6c показан другой вариант введения обратной связи в слоистую сеть, в которомобратная связь идет от выходного слоя L(NL ) к произвольному слою L(p) ; 1 < p < N .LДанный вариант можно трактовать также как объединение (последовательное соединение) НСпрямого распространения (слои L(1) ; : : : ; L(p 1) ) и сети с обратной связью типа показанной нарис.
2.6b (слои L(p) ; : : : ; L(NL ) ).Наиболее общий вариант введения обратной связи в структуру типа «стопка слоев» показан на рис. 2.6d. Здесь обратная связь идет от некоторого «внутреннего» (скрытого) слояL(q) ; 1 < q < NL к слою L(p) ; 1 p < NL , q > p.
Аналогично случаю, представленно-6710L(0)0L(0)1L(1)1L(1)p−1L(p−1)p−1L(p−1)pL(p)pL(p)p+1L(p+1)p+1L(p+1)NLL(NL )NLL(NL )(a)(b)0L(0)1L(1)0L(0)1L(1)p−1L(p−1)pL(p)qL(q)(p−1)p−1LpL(p)p+1L(p+1)q+1L(q+1)NLL(NL )NLL(NL )(c)(d)РИС. 2.6. Варианты структурной организации слоистой нейронной сети с последовательнойнумерацией слоев: (a) — сеть прямого распространения; (b) — сеть с обратной связью отвыходного слоя L(NL ) к первому обрабатывающему слою L(1) ; (c) — сеть с обратной связью1от выходного слоя L(NL ) к произвольному слою L(p) ; <связью от слоя L(q) ; < q < NL к слою L(p) ; < p < NL1172p < NL ;(d) — сеть с обратнойму на рис. 2.6b, данный вариант можно трактовать как последовательное соединение нейронной сети прямого распространения (слои L(1) ; : : : ; L(p 1) ), сети с обратной связью (слоиL(p) ; : : : ; L(q) ) и еще одной сети прямого распространения (слои L(q+1) ; : : : ; L(NL ) ).
Работутакой сети можно, например, интерпретировать следующим образом: рекуррентная подсеть(слои L(p) ; : : : ; L(q) ) — это основная часть НС в целом, а две подсети прямого распространения(слои L(1) ; : : : ; L(p 1) и L(q+1) ; : : : ; L(NL ) ) осуществляют предобработку данных, поступающихв основную подсеть (слои L(1) ; : : : ; L(p 1) ), и постобработку данных, выдаваемых основнойрекуррентной подсетью (слои L(q+1) ; : : : ; L(NL ) ).4. Во всех вариантах НС, показанных на рис. 2.6, сохраняется неизменным строгий порядок следования слоев, которые активируются один за другим в порядке, задаваемом прямымии обратными связями имеющимися в рассматриваемой НС. Для сети прямого распространения это означает, что любой нейрон из слоя L(p) получает свои входы только от нейронов изслоя L(p 1) и передает свои выходы слою L(p+1) , т. е.L(p 1) ! L(p) ! L(p+1) ; p 2 f0; 1; : : : ; NL g:(2.6)При этом одновременно (параллельно) два или большее число слоев исполняться не могут,даже если имеется такая техническая возможность (сеть исполняется на некоторой параллельной вычислительной системе) в силу последовательной логики срабатывания слоев НС,отмеченной выше.Использование обратной связи вводит цикличность в порядок срабатывания слоев, всех,начиная с L(1) и по L(NL ) включительно, или их части для некоторого диапазона номеровp16 p 6 p2, в зависимости от того, какие слои НС охвачены обратной связью, однако строгаяпоследовательность сохраняется — если какой-то из слоев НС начал свою работу, то пока этаработа не будет завершена, никакой другой слой запускаться на обработку не будет.Отказ от такого рода строгой последовательности срабатывания слоев НС приводит кпоявлению в сети параллелизма на уровне ее слоев.