Хайкин С. - Нейронные сети (778923), страница 43
Текст из файла (страница 43)
Модель Мак-Каллока — Питца накладывает жесткие ограничения на форму нелинейности нейрона. Возникает вопрос: "Будет ли персептрон работать лучше, если зти жесткие ограничения заменить сигмоидальной нелинейностью?" Оказывается, что устойчивое принятие решений персептроном не зависит от вида нелинейности нейрона [983], [984]. Таким образом, можно формально утверждать, что при использовании модели нейрона, юторая состоит из линейного сумматора и нелинейного элемента, независимо от формы используемой нелинейности однослойный персептрон будет выполнять классификацию образов только для линейно-разделимых классов. Завершим обсуждение краткой исторической справкой.
Персептрон и алгоритм минимизации среднеквадратической ошибки появились приблизительно в одно н то же время — в конце 1950-х годов. Алгоритм минимизации среднеквалратической ошибки достойно выдержал испытание временем. Он хорошо зарекомендовав себя в качестве "рабочей лошадки" адаптивной обработки сигналов благодаря своей эффективности и простоте реализации. Персептрон Розенблазта имеет более интересную историю. Первая критика персептрона Розенблатта появилась в [746], где утверждалось, что персептрон Розенблатга не способен к обобщению даже в задаче "исключающего ИЛИ" (двоичной четности), не говоря уже о более общих абстракциях. Вычислительные ограничения персептрона Розенблатга были математически обоснованы в знаменитой книге Минского и Пейперта Персептроны [744], [745].
После блестящего и в высшей степени подробного математического анализа персептрона Минский и Пейперт доказали, что персептрон в определении Розенблатта внутренне не способен на глобальные обобщения на базе локальных примеров обучения. В последней главе своей книги Минский и Пейперт высказали предположение, что недостатки персептрона Розенблатга остаются в силе и для его вариаций, в частности для многослойных нейронных сетей. Приведем цитату из этой книги (раздел 13.2) [744]. 212 Глава 3. Однослойный персептрон Персептрон достоин изучения вопреки 1и даже благодаря) своим ограничениям.
Он имеет множество свойств, заслуживающих внимания: линейность, интригующую теорему обучения, образцовую простоту в смысле организации параллельных вычислений. Нет оснований полагать, что некоторые из его преимуществ сохранятся в многослойной версии. теи не менее мы рассматриваем его как важный обьект исследований, для того чтобы обосновать (или отвергнуть) нащ интуитивный приговор: расширение персептрона в сторону многослойных систем потенциально безрезультатно.
Это заключение в основном и несет ответственность за возникновение серьезных сомнений в вычислительных возможностях не только персептрона, но и нейронных сетей в целом вплоть до середины 1980-х годов. Однако история показала, что предположение, высказанное Минским и Нейпертом, было бездоказательным. В настоящее время мы имеем ряд усовершенствованных форм нейронных сетей, которые с вычислительной точки зрения мощнее персептрона Розенблатта.
Например, многослойные персептроны, обучаемые с помощью алгоритма обратного распространения ошибки (глава 4), сети на основе радиальных базисных функций (глава 5) и машины опорных векторов (глава 6) преодолевают вычислительные ограничения однослойного персептрона различными способами. Задачи Безусловная оптимизация 3.1. Исследуйте метод наискорейшего спуска для единственного весового козффициента зо с помощью следующей функции стоимости: Е(зо) = — и — г,взо+ — г ш, г 1 г где Пг, гкв и г, — константы.
3.2. Рассмотрим функцию стоимости Е(зе) = -и — г,взч+ — зг К,зу, т 1 т 2 * 2 где и — некоторая константа и г 0,384 ' * 0,8182 1 Задачи а) Найдите оптимальное значение зг*, при котором функция Е(лч) достигает своего минимального значения. б) Используйте метод наискорейшего спуска для вычисления н' при следующих значениях параметра скорости обучения: т) =0,3, з) = 1,0. Для каждого случая постройте траекторию вектора весов зч(п) в плосюсти %. Лримечание. Траектории, полученные для обоих значений параметра скорости обучения, должны соответствовать рис.
3.2. 33. Рассмотрите функцию стоимости (3.24), которая является модифицированной формой суммы квадратов ошибок, определяемой соотношением (3.17). Покажите, что применение метода Гаусса-Ньютона к выражению (3.24) приводит к формуле модификации весов (3.23). Алгоритм ~МЗ 3.4. Матрица юрреляции К, входного вектора х(п) в алгоритме минимизации среднеквадратичесюй ошибки определяется выражением 0,51 Определите диапазон значений параметра скорости обучения з) алгоритма 1.МБ, при котором он сходится в смысле среднеквадратнчесюго значения.
3.5. Нормированный алгоритм минимизации среднеквадратической ошибки описывается следующим рекурсивным выражением для вектора весовых коэффициентов: зч(п + 1) = чг(п) + е(п)х(п), Ч йх(п) ~) где з) — положительная константа, ))х(п) 0 — Евклидова норма входного век- тора х(п). Сигнал ошибки определяется соотношением е(п) = Й(п) — чг (п)х(п), где Ы(п) — желаемый отклик. Покажите, что для сходимости нормированного алгоритма в смысле среднеквадратического значения требуется, чтобы 0 < 1) <2.
214 Глава 3. Однослойный лерселтрон 3.6. Алгоритм минимизации среднеквадратической ошибки используется для реализации обобщенной системы подавления боковых лепестков, показанной на рис. 2.16. Задайте уравнения, описывающие работу этой системы, если нейронная сеть состоит из единственного нейрона. 3.7. Рассмотрим систему линейного прогнозирования, входной вектор которой состоит из набора примеров т(п — 1), х(п — 2), ..., т(п — гп), где т— порядок прогнозирования. Используйте алгоритм минимизации среднеквадратической ошибки для прогнозирования оценки т(п) входного образа х(п).
Опишите рекурсивную функцию, которую можно использовать для вычисления весовых коэффициентов юы шз,..., и системы. 3.8. Усредненное по всему множеству значение суммы квадратов ошибок можно использовать в качестве функции стоимости. Оно представляет собой среднеквадратическое значение сигнала ошибки ,Х(зг) = — Е(е'(п)] = -Е](И(п) — хт(п)эг)']. 2 2 а) Предполагая, что входной вектор х(п) н желаемый отклик Ы(п) поступают из стационарной среды, покажите, что 1(эт) = -пе — г„р + -зт К,и, з т 1 т где г„а — — Е(х(п)Й(п)], К„ = Е[х(п)х~(п)].
б) Для этой функции стоимости покажите, что вектор градиента и матрица Гессе для Л(зт) имеют следующий вид: я — гы + Кжзт~ К= К,. в) В алгоритме Ньютона минимизации среднеквадратической ошибки вместо вектора градиента н используется его моментальное значение (1144). Покажите, что этот алгоритм с параметром скорости обучения ~) описывается выражением Ж(п+ 1) = Ф(п) + ~) К, 'х(п) (д(п) — х~(п)тг(п) ).
Задачи 21 5 Предполагается, что матрица, обратная корреляционной, является поло- жительно определенной и вычислена заранее. 3.9. Вернемся к памяти, основанной на матрице корреляции (см. раздел 2.11). Недостаток этой памяти заключался в том, что при цредъявлении ей ключевого образа х, фактический отклик у может быть недостаточно блиюк (в Евклидовом смысле) к желаемому (запомненному образу) у, и ассоциация реализуется некорректно. Этот недостаток обусловлен алгоритмом обучения Хебба, который не предполагает обратной связи выхода с входом.
Для преодоления этого недостатка в структуру памяти можно добавить механизм коррекции ошибок, обеспечивающий корректную ассоциацию 149). Пусть М(п) — матрица памяти, полученная на итерации 22 процесса обучения на основе коррекции ошибок. Эта матрица обучается на ассоциациях, представленных парами хь — уь,)с = 1,2,..., 9. а) Адаптируя алгоритм минимизации среднеквадратической ошибки к данной задаче, покажите, что обновленное значение матрицы памяти должно определяться следующим соотношением: М(п+ 1) = М(п) + 2) [уь — М(п)хь]хт где 11 — параметр интенсивности обучения.
б) Для частного случая автоассоциации, при котором у„=хы покажите, что при стремлении юличества итераций к бесконечности автоассоциация в памяти происходит идеально, т.е. М(оо) хь — — хь, (с = 1, 2,..., 9. в) Результат, описанный в пункте б), можно рассматривать как задачу вычисления собственных чисел. В этом юнгексте хь представляет собой собственный вектор матрицы М(оо). А что такое собственные значения матрицы М(оо)? 3.10. В этой задаче необходимо исследовать влияние порогового значения на число обусловленности матрицы корреляции, а значит, и на производительность алгоритма 1.МБ.
Рассмотрим случайный вектор Х с матрицей ковариации С 11 12 С21 С22 216 Глава 3. Однослойный парсвптрон и вектором ожидания а) Вычислите число обусловленности матрицы ковариации С. б) Вычислите число обусловленности матрицы корреляции К. Прокомментируйте влияние порогового значения )г на производительность алгоритма 1.МБ. Персептрон Розенблатта 3.11. В этой задаче рассматривается еще один метод вывода алгоритма обновления весовых юэффициентов для персептрона Розенблатта.
Определим крин»ерий качества для персептрона (269) в виде Лр(«) = ~~» ( — «х), еех(н) где Х(зт) — множество примеров, ошибочно классифицированных при данном векторе весов «. Обратите внимание, что при отсутствии ошибочно классифицированных примеров значение функции Лр(«») равно нулю и выходной сигнал ошибочно классифицируется, если «тх ( О. а) Проиллюстрируйте геометрически, что значение Лр(тт) пропорционально сумме Евклидовых расстояний от ошибочно классифицированных примеров до границы областей решений.
б) Определите градиент функции Лр(тт) относительно вектора весов «. в) Используя полученный в пункте б) результат, покажите, что алгоритм обновления весов персептрона можно записать в следующем виде: тт(п+1) =«»(и)+)) (и) ~~» х, ъех1»»О»)) где Х(«(п)) — множество примеров, ошибочно классифицированных при заданном векторе весовых коэффициентов тт(п); т((п) — параметр сюрости обучения. Покажите, что для случая коррекции на одном примере этот результат практически совпадает с выражениями (3.54) и (3.55).