Хайкин С. - Нейронные сети (778923), страница 78
Текст из файла (страница 78)
з=1 (5.99) Оптимальным считается такое значение параметра в„которое минимизирует функционал гг(Х). Пусть Гл(хь) — линейная комбинация данного множества наблюдений: Гл(хь) = ~~) аы()л)уо 1=1 (5.100) Хороший выбор параметра регуляризации Х и станет главной темой настоящего раздела. 880 Глава б. Сети на основе радиальных базисных функций В матричном виде можно записать эквивалентное выражение Рл = А(2,)у; (5.101) где рх = [хх(хг), сл(хг), - -, сл(хн)] У=[Уг Уг . Уж] а„а„... а»ч агг агг агн амг амг... анн А(Х) = (5.102) Матрица А(Х) размерности )т' х )т' называется малгриней влияний (1пйцепсе шапзх). Используя матричные обозначения, выражение (5.99) можно переписать в следующем виде: (5. 103) где 1 — следующий вектор размерности )т' х 1: 1= [Дх,), 1(хг),..., Дхн)] (5.104) у =1+8, где 6 = [вг,вг, .,ел] Подставляя (5.104) в (5.103) и раскрывая квадрат разности, получим: Л(Х) = — ]](1 — А(Х))1 — А(Х)8]] (5, 105) = — [](1 — А(Х))1][ — — етАЩ1 — А®)1+ — ]]А®в[[ где 1 — единичная матрица размерности Х х Х.
Теперь можно продвинуться еще на один шаг в матричных выкладках, переписав уравнение (5.95) в виде 5.9. Оцениваиие параметра ре~упяризации 381 Для того чтобы найти искомое значение В(Л), необходимо обратить внимание на следующие вопросы. ° Первое слагаемое в правой части (5.105) является константой, и, таким образом, на него не влияет оператор математического ожидания. ° Математическое ожидание второго слагаемого равно нулю, что следует из (5.96). ° Матожидание скаляра [[А(Л)я[[~ равно Е[[[А(Л)н[['] = Е[я~А (Л)А(Л)я[ = (5.106) = 1г(Е[ятАт(Л)А(Л)я[) = Е(1г[я~Ат(Л)А(Л)я[) При вычислении этого значения сначала используется тот факт, что след скаляра равен ему самому, после чего изменяется порядок операторов математического ожидания и следа.
Далее будем использовать правило, взятое из алгебры матриц: для данных двух матриц совместимого размера В и С след произведения ВС равен следу произведения СВ. Таким образом, принимая В = ьт и С = А~(Л)А(Л)к, выражение (5.106) можно переписать в эквивалентной форме: Е[[[А(Л)Г[[з[ = Е(гг[А~(Л)А(Л)ян~Ц = ольг[А (Л)А(Л)[, (5.107) где в последней выкладке используется соотношение (5.97).
В заключение заметим, что след Ат (Л)А(Л) равен следу Аз(Л), т.е. (5.107) можно переписать в следующем виде: Е[[[А(Л)~[[э[ = пз(г[Аз(Л)[. (5. 108) Обьединяя эти три результата, ожидаемое значение Я(Л) можно выразить в виде гзэ Е[В(Л)[ = — [[1 — А(Л)Щ + — Фг[А (Л)[. (5. 109) Однако среднеквадратическая ошибка на данном множестве примеров В(Л) не так важна с практической точки зрения, поскольку она требует априорных знаний о функции регрессии г"(х), которую требуется восстановить. Поэтому в качестве оценки Е[В(Л)[ введем следующее определение [231): сгз ~з А(Л) = — [[(1 — А(Л))у[[ + — Сг[А (Л)[ — — Сг[(1 — А(Л))~[. (5.1!О) 382 Глава б. Сети на основе радиальных базисных функций Эта оценка является несмещенной (ипойазед), а значит (следуя процедуре, аналогичной выводу выражения (5.109)), можно показать, что Е[А(Л)] = Е[В(Л)].
(5.111) Следовательно, выбор подходящего значения параметра регуляризации Л обеспечивается путем минимизации оценки Л(Л). Обобщенная перекрестная проверка Недостатком оценки В(Л) является то, что она требует знания дисперсии шума п~. В ситуациях, встречающихся на практике, зтот параметр обычно неизвестен. Для того чтобы обеспечить работоспособность алгоритма, в подобных случаях обычно используется концепция обобщенной перекрестной проверки, которая была выдвинута в [231).
Сначала адаптируем к нашей задаче обычную форму перекрестной проверки (см. главу 4). В частности, пусть Е,„минимизирует функционал 1й1 Е(Е) = — г> [У1 — Ей(х,)] + — ]]РГ(х)[], 2 ' ' 2 г=1,гней (5.112) где к-й член [у, — Ей(хй)) вынесен из слагаемого стандартной ошибки для получения возможности "прогнозировать" отсутствующие точки данных уй, проверяя, таким образом, качество оценки параметра Л.
Следовательно, можно ввести следующий показатель качества: "о(Л) = ~~,~ [уй Ей (хй)] й=1 (5.113) Ей (х ) = Ей(*.) + Ж. ( ) — Уй) (1г1 дЕй(хй) 1туй (5.114) который зависит только от самих данных. Таким образом, обычная нерекрестная оценка (оггйпыу егозя-ча!Ыа11ол езтппате) параметра Л определяется как аргминимум функцииу~(Л) [1105). Отметим одно полезное своиство Рй (хй). Если точку уй заменить ее оценкои 1й1 Ей~ 1(хй), а исходный функционал Тихонова Е(Е) из (5.98) достигает минимума в точке ус, ..., Уй „, уй, уйй„...,ун, то Ей (хй) является решением. Это свойство, 1й1 наряду с тем фактом, что для каждого входного вектора х аргминимум гй(х) функционала Е(Е) линейно зависит от уй, позволяет записать следующее: 6.9.
Оценивание параметра регупяризации 383 Из определения (5.100), задающего элементы матрицы влияний А(А), видно, что гтгл(хд) (А) ау, (5. 115) где аьь — ]с-й диагональный элемент матрицы А(](). Отсюда, подставляя (5.115) в (5.114) и разрешая результат относительно Гл (хь), получим: (ь] Гл (хь)— (ь] гл(хй) — оьь().)уь Гл(хь) — у„ — + уь. 1 — оьь(2.) 1 — аьь(2,) (5. 116) Подставляя выражение (5.116) в (5.113), можно переопределить функцию 1'0(А) следующим образом: дг 2 1 ~Х- уд — Ел(хь) ]з( „, 1 — аль(]() (5.117) " Для того чтобы вывести функцию обобщенной перекрестной проверки нз обычной, можно рассмотреть задачу гребиеаой регрессии (пняе юлаева)оп ргомепз), описанную в [1105]: у = ха+а, (!) где Х вЂ” матрица входных сигналов размерности )Ч х АГ, а вектор в имеет среднее значение, равное нулю, и матрицу ковариации, равную пг!.
Используя сингулярную декомпозицию значений Х, можно записать следующее: Хл 00ЧГ, где П и Ч вЂ” ортогональные матрицы; 0 — диагональная матрица. Пусть у = П~у, ]) = Чге, в = Пте. Тогда для преобразования выражения (!) можно использовать матрицы 1! и Ч. у = 0])+в. (2) Дищоиальная матрица 0 (не следует путать зто обозначение с оператором дифференцировании) выбиращся так, чтобы ее сингулярные значения составляли пары.
Тогда существует диагональная матрица ЛЧ, такая, что ао аг ... ан ач — г ао ... ан-г ан-г ан-г ... ан-з ат аг ... ао )Чп)ЧТ является циркулянтной матрицей, а именно: А = ЧУ03Ч~ = в которой элементы, расположенные по каждой из диагонавей, одинаковы.
Пусть х = )Чу, Т = ТЧР, Р, = Туа2 Тогда для преобразования выражения (2) можно использовать матрицу %. х = Ау+ ч. (3) Диагональная матрица 0 имеет "максимально несвязанные" строки, а то время как строки матрицы А "максимально объединены". Выполнив такое преобразование, можно утверждать, что обобщенная перекрестная проверка является эквивалентом преобраювания задачи гребневой регрессии (1) к виду (3) с последующим обратным преобразованием в обычную систему июрдинаг 11! 05]. Обычно значения аль(]() отличаются для каждого Й, а это значит, что точки данных в уп(2.) нельзя трактовать как равноценные.
Чтобы обойти это нежелательное свойство обычной перекрестной проверки, в 1231) была введена процедура обобщенной перекрестной проверки (яепега!]ге!] егозя ча]Ыабоп или ОСУ), использующая поворот координат". В частности, функция обычной перекрестной проверки уо(л.) 384 Глава б. Сети на основе радиальных базисных функций (5.117) была изменена следующим образом: Ф г (Л) 1 Е уь Ел(хь) Х „ " 1 — агь(Х) (5.118) где сами веса шь определяются следующим образом: 1 — аьь (Х) фФг[1 — А(Х)] (5.119) Таким образом, обобщенная функция перекрестной проверки принимает вид 1 ,'[ [у„— Е (х„)]з ~,,(2) я=1 [фйг[1 — А(Х)Ц (5.
120) В заключение, подставляя (5.100) в (5.120), получим: 1 (Х) = Й [[1 — А()~) у][' [фйг[1 — А(Х)Ц (5.121) Эта формула включает величины, зависящие только от данных. Оптимальное свойство обобщенной функции перекрестной проверки Ч[Х) Е[В(Х)] ппп Е[В(Х)] (5.122) где В(Х) — среднеквадратическая ошибка на множестве данных, определяемая формулой (5.99). Обычно асимптотическое значение 1' удовлетворяет следующему условию: 1ш1 Г=1. (5.123) Другими словами, при больших Аг среднеквадратическая ошибка В(Х) по Х, вычисленная с помощью минимизации обобщенной функции перекрестной проверки $'(Х), приближается к минимально возможному значению В(Х).
Это обеспечивает применимость Ъ'(Х) для оценивания параметра Х. Пусть Х минимизирует ожидаемое значение обобщенной функции перекрестной проверки1г(Х). Неэфгрективноеть математического ожидания (ехрес1абоп 1пеш- с(енсу) в методе обобщенной перекрестной проверки определяется выражением 5.10. Свойства аппроксимации сетей ЯВг 38$ Заключительные комментарии Общая идея выбора параметра регуляризации Х состоит в минимизации среднеквадратической ошибки на множестве данных обучения — В(Х). К сожалению, эту задачу нельзя решить напрямую, так как выражение для ать(Х) содержит неизвестную функцию регрессии [(х). В связи с этим существуют два метода, которые можно применить на практике. ° Если известна дисперсия шума гуз, то в качестве оптимального значения Х можно использовать аргминимум оценки В(]),) из (5.110) (здесь под оптимальностью понимается то, что данное значение А также минимизирует и гь(х) ).
° Если дисперсия шума гуз неизвестна, в качестве оптимального значения параметра Х можно использовать аргминимум обобщенной функции перекрестной проверки ~'(Х) из (5.121). При таком подходе обеспечивается минимально возможное значение среднеквадратической ошибки при М вЂ” ос. Важно отметить, что теория, обосновывающая использование обобщенной функции перекрестной проверки для оценки параметра Х, является асимптотической, т.е. хороших результатов можно добиться лишь тогда, когда множество данных достаточно велико для того, чтобы отличить полезный сигнал от шума.