Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение, страница 6
Описание файла
DJVU-файл из архива "Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение", который расположен в категории "". Всё это находится в предмете "нейросетевое моделирование сложных технических систем" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "нейросетевое моделирование сложных технических систем" в общих файлах.
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 6 - страница
При г,=о' 1 (здесь 1 — (пхп) единичная матрица) рецепторное поле представляет гиперсферу с центром с и радиусом о; при Е = йау(а!2,о,',...,о,',) - это гиперэллипсоид, чьи оси совпадают с осями входного пространства и имеют длину 2о, по !-й оси, и, наконец, при Š— недиагональной положительно определенной матрице Е = Д~ЛД, (3.15) 38 и хотя не все они имеют колоколообразную форму, например (3.4), (З.б), (3.9), их применение в задачах идентификации, моделирования, прогнозирования, распознавания образов, кластеризации и нейроуправления (9, 27, 85, 90, 9Ц оказалось вполне оправданным. Как отмечалось выше, наиболее широкое распространение получила функция активации (3.3), расширить возможности которой можно, используя многомерный гауссиан 3 РАДИАЛЬНО-БАЗИСНЫЕ НЕЙРОННЫЕ СЕТИ матрица собственных значений Л определяет форму и размер рецепторного поля, а ортогональная матрица вращения Д вЂ” его ориентацию.
В качестве простейшего, но характерного примера, демонстрирующего возможности радиально-базисных сетей, можно рассмотреть задачу интерполяции многомерной функции и переменных, заданной на 211 точках х(1),х(2),...,х(/с),...,х(М). При этом известны соответствующие значения этой функции 21(1),...,д(®),...,22(А!). Задача состоит в нахождении отображения Г: Я" — > К', удовлетворяющего условиям интерполяции (3.16) Г(х(й)) = сайф), й =1,2,...,М. Радиально-базисная техника в данном случае состоит в выборе такой функции Г, что Ф Ю Г(х) =~ 112„Ф1.(((х — с,.((,о,.) = ~~ 11!,Ф,.((х — хЯфо,), (3.17) где Ф( ° )- радиально-базисная функция, центрами которой являются точки х(й) . С учетом (3.16), (3.17) можно записать систему линейных уравнений для нахождения коэффициентов (синаптических весов) и,: 22(1) с/(2) 11 12 1М 1 2! 22 2Ж 2 (3.18) Ф~! Ф„2 ." Ф~~ и',, 22(М) где Ф,, = Ф(р(у) — х(/с)1,о,); 7с =1,...,%; 1=1,...,А!.
ОбОЗНаЧИВ Ы. = (21!(1),22!(2),...с/(М))', и = (и „и,,...,в,,)', Ф = ~Ф,. ~, несложно переписать (3.18) в виде (3.19) Фи =Ы, откуда (3.20) 39 где Ф'- матрица псевдообратная к Ф, Заметим также, что при М > Ь, с использованием стандартной техники метода наименьших квадратов несложно решать задачи нелинейного регрессионного анализа. Как уже отмечалось, радиально-базисные сети подобно многослойным ИНС являются универсальными аппроксиматорами, однако в силу того, что в них присутствует только один нелинейный скрытый слой, а настраиваются параметры линейного выходного слоя, для их обучения могут быть использованы стандартные процедуры ~15, 4б, 471, обладающие высоким быстродействием и фильтрующими свойствами, что крайне важно в задачах обработки «зашумленных» наблюдений.
Вместе с тем, объединение достоинств многослойных и радиально- базисных сетей может привести к весьма интересным результатам, Так в 192, 93~ предложены архитектуры многослойных радиально-базисных сетей, подобные многослойным персептронам (см.
рис. 2.4), где в качестве отдельных нейронов используются радиально-базисные сети с и входами и одним выходом (см. рис. 3.2). По сравнению с многослойными персептронами они обладают более высокой скоростью обучения, не страдая при этом от «проклятия размерности», ограничивающего возможности обычных радиально- базисных нейронных сетей.
40 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ Основным свойством биологического мозга является его способность к обучению, а поскольку искусственная нейронная сеть является моделью мозга, понятие «обучение» является также ключевым в теории ИНС. Математическими проблемами, связанными с процессами обучения, занимается направление в общей теории искусственных нейронных сетей, получившее название «нейроматематика» [15-181. С позиции нейроматематики процесс обучения рассматривается как адаптация параметров, а возможно, и архитектуры сети для решения поставленной задачи путем оптимизации принятого критерия качества. Такая формулировка является общепринятой и неявно предполагает, что в основе нейроматематики лежат методы оптимизации и идентификации.
Обычно полагается, что процесс обучения имеет перманентный характер и с течением времени сеть улучшает свои характеристики, постепенно «приближаясь» к оптимальному решению поставленной задачи. Тип и характер обучения определяются прежде всего объемом априорной и текущей информации о среде, в которую «погружена» сеть, а также критерием качества (целевой функцией), характеризующим степень соответствия нейросети решаемой ею задаче. Информация о внешней среде задана, как правило, в виде обучающей выборки образов или примеров, обрабатывая которую сеть извлекает сведения, необходимые для получения искомого решения. Именно характер и объем этой информации определяют как тип обучения, так и конкретный алгоритм.
4.1 Основные парадигмы и правила обучения Наиболее популярной и очевидной к настоящему времени является парадигма обучения «с учителем», схематически представленная на рис 4.1. В данной схеме «учителю» известна информация о внешней среде, заданная в виде последовательности или пакета входных векторов х, а также «правильная реакция» на эти сигналы, представленная в виде обучающего сигнала д. Естественно, что реакция необученной сети у отличается от «правильной» реакции учителя, в результате чего возникает ошибка е = И вЂ” у. В процессе обучения необходимо так настроить параметры ИНС, чтобы некоторая скалярная функция от ошибки Е(е) (критерий качества) достигла своего минимального значения. Обученной считается сеть, которая в некотором, как правило, статистическом смысле повторяет реакцию учителя.
Поскольку информация о внешней среде обычно имеет нестационарный характер, процесс обучения идет непрерывно, для чего используются те или иные рекуррентные процедуры. 41 Вектор состояния Желаемая реакция- Рис. 4.1 — Схема обучения с учителем Альтернативой этой парадигме является обучение «без учителя» или самообучение, когда правильная реакция на сигналы внешней среды неизвестна. Процесс самообучения схематически представлен на рис. 4.2. Рис.
4.2 — Схема самообучения Сети, реализующие парадигму самообучения, предназначены, как правило, для анализа внутренней латентной структуры входной информации и решают задачи автоматической классификации, кластеризации, факторного анализа, компрессии данных. Своеобразным компромиссом между двумя этими парадигмами является обучение с подкреплением [151 (не путать с обучением с поощрением [47]), при котором доступна лишь косвенная информации о правильной реакции на входной сигнал х. На рис. 4.3 приведена схема процесса обучения с подкреплением. 42 4 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ Рис. 4.3 — Схема обучения с подкреплением Нейронная сеть производит отображение входной информации х в выходной вектор у в виде у = Г(х), однако, поскольку обучающий сигнал д в явном виде не задан, невозможно получить ошибку е=Ы вЂ” у, на основании которой происходит обучение.
Предполагается, что имеются некоторые априорные знания, позволяющие связать эвристический сигнал подкрепления Ы с ненаблюдаемым желаемым выходом д с помощью некоторой функции г", отображающей Н в Ы. Обычно эта функция учитывает связь выходных сигналов сети у с наблюдаемыми событиями во внешней среде, для чего в схему обучения вводится дополнительный блок — «критик» ~9), отображающий поведение сети в сигнал т = Г(Г(х)). Далее вычисляется эвристическая ошибка е = Ы вЂ” у, на основе которой и реализуется процесс обучения. Процесс обучения с подкреплением разбивается на два относительно независимых этапа: обучение тому, как выходной сигнал сети увлияет на наблюдаемые переменные среды х, т.е.
восстановление отображения г, и собственно обучение сети на основе минимизации принятого критерия Е(е). Эта парадигма тесно связана с идеями динамического программирования ~65) и в теории искусственных нейронных сетей известна как нейродинамическое программирование ~9~. Достаточно широкое распространение получила также парадигма смешанного обучения, когда часть параметров сети настраивается с помощью обучения с учителем, а другая часть или архитектура в целом — с помощью самообучения. Этот подход получил наибольшее распространение при обучении радиально-базисных ИНС.
С введенными парадигмами тесно связаны правила обучения, лежащие в основе конкретных алгоритмов. С. Хайкин ~9] определяет пять основных правил: обучение на основе коррекции по ошибке, обучение по Больцману, обучение по Хэббу, обучение памяти и конкурентное обучение. Правило коррекции по ошибке — типичный случай обучения с учителем, при этом с помощью тех или иных процедур оптимизации и адаптивной 43 идентификации минимизируется априори заданная скалярная целевая функция Е(е).
С этим правилом связано наибольшее число известных алгоритмов обучения, которое к настоящему времени перевалило за сотню. В основе обучения по Больцману лежат принципы теоретической термодинамики, при этом настройка синаптических весов стохастической сети обеспечивает требуемое (желаемое) распределение вероятностей состояний отдельных нейронов. В какой-то мере обучение по Больцману может рассматриваться как распространение идей обучения с учителем на стохастический случай. С самообучением тесно связаны правило Хэбба и обучение памяти, в основе которых лежит нейрофизиологический постулат, гласящий о том, что, если нейроны с обеих сторон синапса находятся в возбужденном состоянии, то сила связи между ними возрастает (увеличивается синаптический вес) и, наоборот, если соседние нейроны находятся в разных состояниях, то связь между ними ослабевает. В конкурентном обучении могут быть реализованы все описанные парадигмы, при этом его отличительной особенностью является процесс «соревнования» нейронов выходного слоя по принципу «ъчппег 1аКея а11», т.е.