Хайкин С. - Нейронные сети (778923), страница 35
Текст из файла (страница 35)
б) Покажите, что отклик у наиболее близок к запомненному образу у„в Евклидовом смысле. 2.20. Автоассоциативная память обучается на следующих ключевых векторах: х, = -'[-2, -3, ~/3]~, х, = —,' [2, — 2, — Л]т, хз = 4[3,— 1,т/6] а) Вычислите углы между этими векторами.
Насколько эти векторы близки к ортогональным? б) Используя обобщение правила Хебба (т.е. правило внешнего произведения), вычислите матрицу памяти для этой сети. Исследуйте, насколько эта матрица близка к идеальной автоассоциативной памяти. в) В систему ассоциативной памяти подается "замаскированная" версия ключевого вектора х,: х = [О, — 3, ~/3]~. (2.108) Вычислите реакцию памяти и сравните ее с ожидаемым откликом хп Адаптация 2.21. На рис.
2.29 представлена блочная диаграмма некоторой адаптивной системы. Входной сигнал модели прогнозирования определяется предыдущими значениями процесса, а именно: х(п — 1) = [х(п — 1), х(п — 2),..., х(п — т)]~. Выход модели х(п) представляет собой оценку текущего значения х(п) процесса. Компаратор вычисляет сигнал ошибки е(п) = х(п) — х(п), который, в свою очередь, корректирует настраиваемые параметры модели. Выходной сигнал также направляется на следующий уровень нейросетевой обработки для интерпретации. При многократном повторении этой операции качество обработки информации системой значительно возрастает [719). Дополните рис. 2 29 информацией об уровне обработки сигнала.
Задачи 189 Выходной еигнад Магри единичн задержки озное значение х(и) Рис. 2.29. Блочная диаграмма адаптивной системы Статистическая теория обучения 2.22. Выполняя процедуру, использованную для вывода соотношения (2.62) из (2.61), выведите формулу (2.66), определяющую среднюю по ансамблю функцию д.,„(г(х), Г(х, Т)). 2.23. В этой задаче необходимо вычислить ЧС-измерение прямоугольной области, ориентированной вдоль одной из осей на плоскости.
Покажите, что ЧС- измерение этой области равно четырем. Рассмотрите следующие варианты. а) На плоскости имеются четыре точки, а дихотомия реализована прямоугольниками, ориентированными по осям. б) На плоскости имеются четыре точки, для которых не существует реализу- емой дихотомии в виде прямоугольников, ориентированных по осям. в) На плоскости имеются пять точек, для которых не существует дихотомии, реализуемой в виде прямоугольников, ориентированных по осям.
2.25. Неравенство (2.97) определяет ограничение на скорость равномерной сходи- мости, лежащей в основе принципа минимизации эмпирического риска. а) Докажите истинность формулы (2.98) при условии выполнения неравенства (2.97). б) Выведите формулу (2.99), определяющую доверительный интервал вз. 2.24. Рассмотрим линейный двоичный классификатор образов, входной вектор х которого имеет размерность т. Первый элемент вектора х является константой, равной единице, так что соответствующий вес классификатора описывает пороговое значение (Ъ|ай).
Каково ЧС-измерение этого классификатора по входному пространству? 170 Глава 2. Процессы обучения 1 2 3 4 к 0 Рис. 2.30. Множество точек для классификации 2.26. Продолжая пример 2.3, покажите, что четыре равноудаленные точки на рис. 2,30 не могут быть разделены однопараметрическим семейством индикаторных функций ~(х, а), где а Е Я. 2.27. Опишите взаимосвязь дилеммы смещения/дисперсии и принципа минимизации структурного риска в контексте нелинейной регрессии.
2.28. а) Алгоритм, используемый для обучения многослойной сети прямого распространения с сигмоидальной активационной функцией, является РАС- обучаемым. Обоснуйте истинность этого утверждения. б) Выполняется лн аналогичное утверждение для произвольной нейронной сети с пороговой функцией активации? Обоснуйте свой ответ.
Однослойный персептрон 3.1. Введение Можно выделить нескольких исследователей, которые внесли действительно выдаюШийся вклад в развитие теории искусственных нейронных сетей в годы становления этой проблемной области (1943-1958).
° Мак-Каллок (МсСаПосЬ) и Питц (Р(ц) в 1943 году впервые представили идею использования нейронных сетей в качестве вычислительных машин [7141. ° Хебб (НеЬЬ) в 1949 году ввел первое правило самоорганизуюшегося обучения [4451. ° Розенблатг (зчозепЫан) в 1958 году ввел понятие персептрона как первой модели обучения с учителем [902). Влияние работы Мак-Каллока и Питца на развитие нейронных сетей уже обсуждалось в главе 1, а идея обучения Хебба вкратце рассматривалась в главе 2.
В этой главе речь пойдет о перселтроне Розенблатта (ЯогепЫап регсерпоп). Персептрон представляет собой простейшую форму нейронной сети, предназначенную для классификации линейно-разделимых (1шеаг1у зерагаЫе) сигналов (т.е. образы можно разделить некоторой гиперплоскостью). Персептрои состоит из одного нейрона с настраиваемыми синаптическими весами и порогом. Первый алгоритм настройки свободных параметров для такой нейронной сети был создан Розенблатгом [8991, [902) для персептронной модели мозга'. Розенблатт доказал, что если образы (векгоры), используемые для обучения персептрона, выбраны из двух линейно- разделимых классов, то алгоритм персептрона сходится и формирует поверхность решений в форме гиперплоскости, разделяюшей зти два класса.
Доказательство схо- ' В походной аерснн персептрона, согдасно Розенбяатгу [8991, содержались трн типа зпементов: сенсорные, ассоцнатнвные н реыггнвные. Веса связей сенсорных элементов с ассоциативными были фиксированными, а веса связей ассоциативных элементов с реыггнвнымн — переменными. Ассоциативные элементы выступали в роли препроцессоров, предназначенных ддя нзакечення модедн нз данных среды. Что касается переменных весов, то функционирование исходного персептрона Розенбдатта в сущности соствстствуег случаю простого реаатнвного зяемента (т.е. опного нейрона). 172 Глава 3. Однослойный персептрон димости этого алгоритма получило название теоремы о сходимости персептрона (регсер1гоп солчегйелсе Г)геогеш).
Персептрон, построенный на одном нейроне, ограничен выполнением задачи разделения только двух классов (гипотез). Увеличивая размерность выходного (вычислительного) слоя персептрона и включая в него несколько нейронов, можно решать задачи классификации на большее число классов. Важно заметить, что при описании теории персептрона достаточно рассмотреть случай сети с единственным нейроном. Обобщение этой теории на класс систем, содержащих несколько нейронов, довольно тривиально. Единичный нейрон также составляет основу адаптивного филыпра (адарбче 61- 1ег) — функционального блока, являющегося основным для предметной области обработки сигналов (з)йпа! ргосеззшй).
Развитие теории адаптивной фильтрации было вызвано новаторской работой, открывшей миру так называемый алгоритм минимизации среднеквадратической ошибки .ЬМЯ (1еаз1-шеап-зопаге а18опйнп), известный также под названием делыпа-правила (де1га п11е) 11141]. Несмотря на свою простоту, алгоритм продемонстрировал высокую эффективность. В самом рабочем названии задачи линейной адаптивной фильтрации (11леаг аг)арйче 611еппй) подразумевается, что нейрон работает в линейном режиме.
Адаптивные фильтры могут успешно примеиязъся в таких разноплановых областях, как управление антеннами, системы связи и управления, радары, сейсмология и биомедицинская инженерия (434), (4351, (1144). Алгоритм ЬМЯ и персептрон тесно связаны между собой, поэтому имеет смысл рассмотреть их вместе в одной главе. Структура главы Настоящая глава состоит из двух частей. В первой части (разделы 3.2 — 3.7) рассматриваются линейные адаптивные фильтры и алгоритм ЬМБ. Вторая часть (разделы 3.8— 3.10) посвящена персептрону Розенблагга.
Такой порядок изложения сохраняет историческую хронологию появления этих понятий. В разделе 3.2 описывается задача адаптивной фильтрации. В разделе 3.3 рассматриваются три метода безусловной оптимизации: методы наискорейшего спуска, Ньютона и Ньютона-Гаусса. Эти методы имеют самое прямое отношение к изучению адаптивных фильтров.
В разделе 3.4 речь пойдет о линейном фильтре, основанном иа методе наименьших квадратов, который асимптотически сходится к фильтру Винера по мере увеличения выборки данных. Фильтр Винера реализует идеальный, в смысле производительности, линейный адаптивный фильтр, работающий в стационарной среде. В разделе 3.5 рассматривается алгоритм ЬМБ и обсуждаются его возможности и ограничения.
В разделе 3.6 раскрывается идея кривых обучения, широко используемых для оценки производительности адаптивных фильтров. В разделе 3.7 обсуждается принцип имитации отжита для алгоритма ЬМБ. 3.2. Задача адаптивной фильтрации 1т3 Выход И(В а) х1(4) хх( ) х„()) Ы(В б) Раздел 3.8 посвящен персептрону Розенблатта — в нем вводится ряд базовых понятий, связанных с его работой.