Хайкин С. - Нейронные сети (778923), страница 85
Текст из файла (страница 85)
Сети на основе радиальных базисных функций Оценка ядра 5.12. Предположим, что задано ие содержащее шума обучающее множество Щх,)),'~,. Требуется построить сеть, которая обобщает данные, искаженные сторонним шумом и ие включенные в набор примеров обучения. Пусть г (х) — функция аппроксимации, реализуемая такой сетью и выбранная так, чтобы ожидаемая квадратичная ошибка 1г' г 2 ~~- достигала своего минимума. Здесь ф~) — функция плотности вероятности распределения шума в пространстве входного сигнала Я '. Покажите, что решение этой задачи задается следующей формулой: 2; Дх,))4(х — х,) г (х) = ' 2; Ях — х;) Сравните эту оценку с оценкой регрессии Падарайя-Ватсона. Выбор центров с учителем 5.13. Рассмотрим функционал стоимости ~ ~~ ез где е = Ну — г*(х ) = Н вЂ” ~~ь зл,Щх — 1;)! ).
Свободными параметрами являются линейные веса ь и центры 1; функций Грина и обратная матрица ковариации Е,. = СзС,, где С, — матрица взве- шивания нормы. Задача заключается в нахождении свободных параметров, которые минимизируют функционал стоимости Е. При этом можно восполь- зоваться следующими частными производными: Ф а) а = ~; егСЦху — ФДс ) 1=1 б) ак = 2тл, 2; езС'Яхз — Ф,(~ )Е, ~(х — г,), 1=1 Задачи 41 б в) йй = —;Ее,С(К вЂ” 14,)О,о ,=1 где С'( ) — производная С( ) по ее аргументу и Правила дифференцирования скаляра по вектору см.
в примечании 2 к главе 3. Компьютерное моделирование 5.14. В этом задании мы продолжим компьютерный эксперимент, начатый в разделе 5.13, с целью изучения возможностей выбора центров при создании сети ВВЕ для двоичного классификатора. Целью настоящего эксперимента будет демонстрация того факта, что качество обобщения в сети такого типа будет довольно неплохим. С помощью сети, описанной в разделе 5.13 и предназначенной для решения задачи двоичной классификации, решается задача классификации данных, выбранных из смешанной модели, состоящей из двух равновероятных пересекающихся гауссовых распределений. Одно из распределений имеет вектор среднего значения 10, 1) т и общую дисперсию, равную единице.
Другое распределение имеет среднее значение [0,2]т и общую дисперсию 4. Для классификации необходимо использовать решающее правило: "выбрать класс, дающий максимальное значение выходного сигнала". а) Рассмотрите случайный выбор центров для т, = 20. Подсчитайте среднее значение, стандартное отклонение, максимальное и минимальное значения вероятности корректной классификации Р, для различных значений параметра регуляризации Х = О, 0.1, 1, 10, 100, 1000. Для вычисления общей статистики используйте 50 независимых видов сетей, проверяя каждый вид на фиксированном множестве из 1000 примеров.
б) Постройте границу решений для конфигурации, описанной в предыдущем пункте для значения параметра регуляризацин Х = 1. в) Повторите вычисления пункта а) для т, = 10 центров (выбираемых случайно). г) В свете полученных результатов опишите преимущества случайного выбора центров, применяемого в качестве метода построения сетей кВЕ Оцените роль регуляризации в общей производительности сети, выступающей в качестве классификатора. 416 Глава б. Сети на основе радиальных базисных функций д) Сравните полученные результаты с описанными в разделе 5.13, где использовался метод строгой интерполяции. В частности, подтвердите, что случайный выбор центров относительно нечувствителен к параметру регуляризации. 5.15. Можно доказать, что для эксперимента, описанного в разделе 5.13 и проводимого для классификации двух классов с гауссовым распределением, сеть КВг достаточно хорошо зарекомендовала себя благодаря использованию гауссовых радиальных базисных функций для аппроксимации рассматриваемых условных распределений Гаусса, В настоящей задаче воспользуемся методом компьютерного моделирования для рассмотрения сети КВР с разрывными условными распределениями Гаусса.
В частности, рассмотрим два класса, С, и Сз, со следующими распределениями. Ь ° У(С1), где С1 = Г1 з — окружность с радиусом г = 2, 34 и центром в точке хс = [ — 2 30]т. ° У(Сз), где Сз С Яз — квадрат с центром в точке х, = [ — 2, 30] и длиной стороны г = ~/2к. ЗДесь поД ГГ(Сз) понимаетсл РавномеРное РаспРеДеление на 11 С 3Р. Эти параметры выбираются таким образом, чтобы область решений для класса С, совпадала со случаем распределения Гаусса, рассмотренного в разделе 5.13. Исследуйте применение регуляризации как средства повышения качества классификации в гауссовых сетях КВР при использовании строгой интерполяции. Машины опорных векторов 6.1.
Введение В главе 4 рассматривались многослойные персептроны, обучаемые по алгоритму обратного распространения ошибки. В главе 5 исследовался другой класс многослойных сетей прямого распространения — сети на основе радиальных базисных функций. Оба эти типа нейронных сетей являются универсальными аппроксиматорами, каждый в своем смысле. В этой главе будет представлена еще одна категория универсальных сетей прямого распространения — так называемые машины онорных векторов (апрроП чес1ог шасп)пе — ЯЧМ), предложенные Вапником [1411, [2121, [10841, [10851. Подобно многослойным персептронам и сетям на основе радиальных базисных функций, машины опорных векторов можно использовать для решения задач классификации и нелинейной регрессии.
Машина опорных векторов — это линейная система (1[пеаг шасп(пе), обладающая рядом привлекательных свойств. Описание работы таких машин следует начать с вопроса разделимости классов, возникающего при решении задач классификации. В этом контексте идея машин опорных векторов состоит в построении гиперплоскости, выступающей в качестве поверхности решений, максимально разделяющей положительные и отрицательные примеры. Это достигается благодаря принципиальному подходу, основанному на теории статистического обучения (см, главу 2). Более конкретно, машина опорных векторов является аппроксимирующей реализацией метода минимизации структурного риска (шебтод оГ знцсцца1 пз(с ш(пнп(ха11оп).
Этот индуктивный принцип основан на том, что уровень ошибок обучаемой машины на данных тестирования (т.е. уровень ошибок обобщения) можно представить в виде суммы ошибки обучения и слагаемого, зависящего от измерения Валника-Червоненкиса (Чарпйс-СЬегчопепк(а дппепя(оп). В случае разделяемых множеств машина опорных векторов выдает значение "нуль" для первого слагаемого, минимизируя при этом второе слагаемое. Поэтому машина опорных векторов может обеспечить хорошее качество обобщения в задаче классификации, не обладая априорными знаниями о предметной обпасти конкретной задачи. Именно это свойство является уникальным для машин опорных векторов. 418 Глава 6.
Машины опорных векторов Понятие, лежащее в основе построения алгоритма обучения опорных векторов,— зто ядро скалярного произведения "опорного вектора" х, и вектора х, взятого из входного пространства. Опорные векторы представляют собой небольшое подмножество обучаюших данных, отбираемых алгоритмом. В зависимости от метода генерации этого ядра можно построить различные обучаемые машины со своими собственными нелинейными поверхностями решений.
В частности, алгоритм настройки опорных векторов можно использовать для построения следующих трех типов обучаемых машин (и не только их). ° Полиномиальные обучаемые машины. ° Сети на основе радиальных базисных функций. ° Двухслойные персептроны (т.е. с одним скрытым слоем). Это значит, что для каждой из этих сетей прямого распространения можно реализовать процесс обучения на основе алгоритма настройки опорных векторов, использующего предложенный набор данных обучения для автоматического определения количества необходимых скрытых элементов. Другими словами, если алгоритм обратного распространения создан специально для обучения многослойных персептронов, то алгоритм обучения опорных векторов носит более общий характер, так как имеет более широкую область применения.
Структура главы Данная глава состоит из трех основных частей. В первой части описываются основные идеи, положенные в основу машин опорных векторов. В частности, в разделе 6.2 описывается процесс построения оптимальных гиперплоскостей для простейшего случая линейно-разделимых множеств. В разделе 6.3 рассматривается более сложный случай неразделимых множеств. Таким образом, мы подготовим почву для второй части настоящей главы, в которой детально описывается машина опорных векторов, предназначенная для решения задач классификации.
Эти вопросы освещаются в разделе 6.4. В разделе 6.5 мы вернемся к задаче исключающего ИЛИ, на которой продемонстрируем процесс создания машины опорных векторов. Раздел 6.6 посвящен компьютерному эксперименту по решению задачи классификации, рассмотренной в главах 4 и 5.