Часть 1. Искусственные нейронные сети в задачах системного анализа (1245270), страница 3
Текст из файла (страница 3)
1.1. Классификация ИНС1.3. СТРУКТУРА ТЕХНИЧЕСКОГО НЕЙРОНАВпервые формализованная математическая модель нейрона была разработана У.С. Мак-Каллоком и У. Питтсом [66]. Мак-Каллок и Питтс предложили использовать в качестве модели нейрона бинарный пороговыйэлемент, вычисляющий взвешенную сумму входных сигналов и формирующий на выходе сигнал величины 1, если эта сумма превышает определенное пороговое значение, и 0 – в противном случае. К настоящему времени модель искусственного нейрона не претерпела существенных изменений, за исключением, быть может, введения различных типов активационных функций.
Структурная схема искусственного нейрона представленана рис. 1.2.14wi 4wi 3wi 2ϕ4ϕ3ϕ2ϕ1wi 0∑wi1yiFiРис. 1.2. Формальная модель искусственного нейронаНа вход искусственного нейрона поступает некоторое множество сигналовϕ i (i = 1, n ) ,каждый из которых является выходом другого нейрона иливходным сигналом нейросетевой модели. Каждый вход умножается на соответствующий вес, аналогичный синаптической силе, все произведениясуммируются, определяя уровень активации нейрона s .
Данное преобразование с математической точки зрения эквивалентно скалярному произведению вектора входовϕлее скалярный сигнали вектора весовых коэффициентов нейрона ω . Даsпреобразуется активационной (передаточной)функцией нейрона F в выходной сигнал y. Таким образом, формальныйнейрон реализует отображениеR n → R1в соответствии с соотношением:⎛ n⎞⎛ n⎞y = F ⎜ ∑ wi ϕ i + w0 ⎟ = F ⎜ ∑ wi ϕ i ⎟ ,⎝ i =1⎠⎝ i =0⎠гдеnϕ i , i = 1, n(1.1)− входы нейрона;− размерность вектора входов;wi , i = 1, n– весовые коэффициенты нейрона, настраиваемые в процессеобучения;w0− «нейронное смешение», вводимое для инициализации сети, – под-ключается к неизменяемому входуF (*)ϕ0 =+1;− активационная функция нейрона;Наибольшее распространение получили следующие активационныефункции (рис. 1.3):1) линейная (рис. 1.3а):F ( x) = k ⋅ x ;(1.2)152) функция гиперболического тангенса (рис.
1.3б):F ( x ) = th( x ) = ( e x − e − x ) /( e x + e − x ) ;(1.3)3) сигмоидальная (рис. 1.3в):F ( x ) = 1/(1 + e − x ) ;(1.4)4) бинарные функции различного определения, например (рис. 1.3г):(1.5)F ( x ) = sign( x ).F1 ( x ) = 0, 5 x1,51,5110,50−0,50, 5F 2 ( x ) = tanh( x )0– 0,5−1−1, 5−4x0−224–1– 1,5x–4–2F 3 ( x ) = 1 /(1 + exp( − x ))1,5110,50,500−0, 5−0, 5−1−1, 5x−40−224бa1, 5024−1−1,5F 4 ( x ) = sign ( x )x−4−2в024гРис. 1.3. Активационные функции искусственных нейронов:а) линейная; б) гиперболический тангенс; в) сигмоидальная; г) пороговая(ступенчатая)Рассмотренная простая модель искусственного нейрона игнорируетмногие свойства своего биологического прототипа.
Например, она не принимает во внимание задержки по времени, которые воздействуют на динамику системы: входные сигналы сразу порождают выходной сигнал. Такжене учитывается влияние функции частотной модуляции или синхронизирующей функции биологического нейрона, которые с биологических позиций считаются решающими.Несмотря на эти несоответствия, сети, построенные из формальных нейронов, обнаруживают свойственные биологическим системам особенности.Более того, при подобранных соответствующим образом весовых коэффи-16циентах совокупность параллельно функционирующих нейронов подобноготипа способна выполнять универсальные вычисления.1.4. МНОГОСЛОЙНЫЕ НЕЙРОННЫЕ СЕТИИ ИХ АППРОКСИМИРУЮЩИЕ СВОЙСТВАНейроны могут группироваться в сетевую структуру различным образом.
Функциональные особенности нейронов и способ их объединения всетевую структуру обуславливают ту или иную парадигму нейронной сети.Для решения задач идентификации и управления наиболее адекватными,без сомнения, являются многослойные нейронные сети (МНС) прямогодействия или многослойные перцептроны (МСП).
При проектированииМНС нейроны объединяются в слои, каждый из которых обрабатываетвектор сигналов от предыдущего слоя (или входной вектор). Минимальнойреализацией является двухслойная нейронная сеть, состоящая из входного(распределительного), промежуточного (скрытого) и выходного слоя. Приподсчете числа слоев входной слой обычно не учитывается, так как служитлишь для распределения входных сигналов по нейронам последующегослоя.Реализация модели двухслойной нейронной сети прямого действия имеет следующее математическое представление:⎛ nh⎞⎛ nϕ⎞g i ( θ) = yˆ i ( θ) = yˆ i ( w,W ) = Fi ⎜ ∑Wij f j ⎜ ∑ w jl ϕ l + w j 0 ⎟ + Wi 0 ⎟ ,⎜⎟⎜ j =1⎟⎝ l =1⎠⎝⎠гдеnϕnhθ− размерность вектора входовϕ(1.6)нейронной сети;− число нейронов в скрытом слое;− вектор настраиваемых параметров нейронной сети, включающий ве-совые коэффициенты и нейронные смещения( w jl ,Wij ) ;f j ( x)− активационная функция нейронов скрытого слоя;Fi ( x )− активационная функция нейронов выходного слоя.17На рис.
1.4 представлена структурная схема двухслойной НС прямогодействия. Сигналы в сети распространяются от входа к выходу, связи между нейронами одного слоя и обратные связи отсутствуют.ϕ3w23w13ϕ2W22f 2 (*)w22W12w12W21w21F1(*)W11w11ϕ1ŷ 2F2 (*)ŷ1f1(*)W20w201w10W101Рис. 1.4. Структурная схема двухслойной нейронной сети (числовходов –3; выходов – 2)Необходимо показать, что МНС, имеющая математическое представление в форме (1.6), при условии соответствующего выбора активационныхфункций и весовых коэффициентов может быть использована в качествемодельной структуры для решения задачи идентификации. Предположим,что дискретная динамическая система может быть представлена как некоторая функция (в общем случае, нелинейная) от предыдущих значенийвходов u и выходов y:y (t ) = f ( y (t − 1),..., y (t − n ), u (t − 1),..., u(t − m )) .(1.7)Естественно предположить, что МНС может аппроксимировать функцию (1.7) при условии, что в качестве вектора входов сетиϕвыбираются nпредыдущих значений выходов системы и m предыдущих входов.Рассмотрим функционирование МНС как совокупности взаимосвязанных элементарных элементов (нейронов) с математической точки зрения.Каждый структурный элемент МНС получает на входе вектор сигналовϕ,18вычисляет его скалярное произведение на вектор весовых коэффициентовнейронаωи некоторую функцию F в выходной сигнал y.
Результат посту-пает на входы других нейронов или на выход. Таким образом, нейронныесети вычисляют суперпозиции функций одного переменного и их линейные комбинации. Для обоснования возможности использования МНС в качестве моделей динамических систем нужно получить ответ на вопрос:можно ли произвольную непрерывную функцию n переменных получить спомощью операций сложения, умножения и суперпозиции функций одногопеременного?В серии работ А.Н. Колмогорова и В.И. Арнольда решена следующаяматематическая проблема (составляющая существо тринадцатой проблемыГильберта): любую непрерывную функцию n переменных можно получитьс помощью операций сложения, умножения и суперпозиции из непрерывных функций одного переменного. На основе этих работ (суть которых изложена в [4]) доказан ряд теорем [27, 33, 39, 47] об аппроксимации непрерывных функций многих переменных нейронными сетями с использованием практически произвольной функции одного переменного.
Помимо подтверждения общих аппроксимирующих свойств МНС необходимо получить ответы на ряд частных вопросов, касающихся структуры сети:Сколько скрытых слоев должна содержать нейронная сеть?Сколько нейронов должно быть включено в каждый слой?Какой тип активационной функции должен быть выбран?В работе [33] показано, что любая непрерывная нелинейная функцияможет быть аппроксимирована с достаточной точностью нейронной сетьюс одним скрытым слоем, содержащим нейроны с сигмоидальными (илитипа «гиперболический тангенс») функциями активации, и выходным слоем, содержащим нейроны с линейной активационной функцией. Попыткаисследования влияния числа нейронов в скрытом слое на аппроксими-19рующие свойства сети сделана в работе [27], однако полученный результатпрактически невозможно применить на практике.Тем не менее результаты исследований, представленные в работах [27,33, 39, 47], подтверждают универсальные аппроксимирующие свойстванейронных сетей, что позволяет сделать вывод о возможности использования МНС в качестве модельных структур при реализации процедуры идентификации.В настоящей работе рассматривается минимальная реализация МНС всоответствии с выражением (1.6) и активационными функциями типа «гиперболический тангенс» (1.2) для нейронов в скрытом слое и линейнымиактивационными функциями (1.3) нейронов выходного слоя.
Возможно,репрезентативные способности МНС могут быть улучшены путем введения дополнительных скрытых слоев, особенно в случае моделированиясложных взаимосвязей. Однако усложнение структуры нейросети приводит к значительным трудностям при практической реализации, параметрической оптимизации (обучении) и последующем анализе МНС.
Это объясняет факт использования именно минимальной реализации МНС в большинстве технических приложений.1.5. СРАВНИТЕЛЬНЫЙ АНАЛИЗ НЕЙРОСЕТЕВЫХ ВЫЧИСЛИТЕЛЬНЫХСТРУКТУР И ТРАДИЦИОННОГО ПРОГРАММНОГО ОБЕСПЕЧЕНИЯТрадиционные программы выполняют точно установленные инструкциив определенный момент времени. В процессе выполнения вычислений всоответствии с традиционной программой для ЭВМ шаг за шагом производится последовательность действий, пока не будет получен некоторыйрезультат.