Боровиков В.П. - Нейронные сети (778916), страница 20
Текст из файла (страница 20)
Вблизи наблюдения имеется большее доверие к уровню плотности, а по мере отдаления от него доверие убывает и стремится к нулю. В методе ядерных оценок в точке, соответствующей каждому наблюдению, помещается некоторая простая функция, затем все они складываются, и в результате получается оценка для общей плотности вероятности. Чаще всего в качестве ядерных функций берутся гауссовы функции (колоколообразной формы). Если обучающих примеров достаточное количество, то такой метод дает хорошее приближение к истинной плотности вероятности. Метод аппроксимации плотности вероятности с помощью ядерных функций во многом похож на метод радиальных базисных функций, и таким образом мы естественно приходим к понятиям вероятностной нейронной сети (РХХ) и обобщенно-регрессионной нейронной сети (ОВХХ) (Брес)с1 1990, 1991), РХХ-сети предназначены для задач классификации, а ОШАМ вЂ” для задач регрессии.
Они представляют собой реализацию методов ядерной аппроксимации, оформленных в виде нейронной сети. РХХ-сеть имеет, по меньшей мере, три слоя: входной, радиальный и выходной. Радиальные элементы берутся по одному на каждое обучающее наблюдение. Каждый из них представляет гауссову функцию с центром в этом наблюдении. Каждому классу соответствует один выходной элемент.
Каждый такой элемснт соединен со всеми радиальными элементами, относящимися к 99 Нейронные сег»и, ЗТАТ18Т1СА Меига1 нег»гога» его классу, а со всеми остальными радиальными элементами он имеет нулевое соединение. Таким образом, выходной элемент просто складывает отклики всех элементов, принадлежащих к его классу. Значения выходных сигналов получаются пропорциональными ядерным оценкам вероятности принадлежности соответствующим классам, н пронормировав их на единицу, мы получаем окончательные оценки вероятности принадлежности классам.
Базовая модель РХХ-сети может иметь две модификации. В первом случае мы предполагаем, что пропорции классов в обучающем множестве соответствуют их пропорциям во всей исследуемой популяции (или так называемым априорным вероятностям). Например, если среди всех шодей больными являются 2»4, то в обучающем множестве для сети, диагностирующей заболевание, больных должно быть тоже 2'.4. Если же априорные вероятности будут отличаться от пропорций в обучающей выборке, то сеть будет выдавать неправильный результат. Это можно впоследствии учесть (если стали известны априорные вероятности), вводя поправочные коэффициенты для различных классов. Второй вариант модификации основан на следующей идее. Любая оценка, выдаваемая сетью, основывается на зашумленных данных и неизбежно будет приводить к отдельным ошибкам классификации (например, у некоторых больных результаты анализов могут быть вполне нормальными).
Иногда бывает целесообразно считать, что некоторые виды ошибок обходятся «дороже» других (например, если здоровый человек будет диагностирован как больной, то это вызовет лишние затраты на его обследование, но не создаст угрозы для жизни; если жс не будет выявлен действительный больной, то это может привести к смертельному исходу). В такой ситуации те вероятности, которые выдает сеть, следует домножить на коэффициенты потерь, отражающие относительную цену ошибок классификации. В паке ге о Т Книга! Ме~н огня в вероятностную нейронную сеть может быть добавлен четвертый слой, содержащий матрицу потерь, Она умножается на вектор оценок, полученный в третьем слое, после чего в качестве ответа бсрется класс, имеющий наименьшую оценку потерь.
Матрицу потерь можно добавлять и к другим видам сетей, решающих задачи классификации. Вероятностная нейронная сеть имеет единственный управляющий параметр, значение которого должно выбираться пользователем, — степень сглаживания (или отклонение гауссовой функции). Как и в случае РБФ-сетей, этот параметр выбирается из тех соображений, чтобы шапки «определенное число раз перекрывались»: выбор слишком маленьких отклонений приведет к «острым» аппроксимирующим функциям и неспособности сети к обобщению, а при слишком больших отклонениях будут теряться детали. Требуемое значение несложно найти опытным путем, подбирая его так, чтобы контрольная ошибка была как можно меньше.
К счастью, РХХ-сети не очень чувствительны к выбору параметра сглаживания. 100 Гоава 4. Общоа обзор нворонных сензеб Наиболсс важные преимущества РИМ-сетей состоят в том, что выходное значение имеет вероятностный смысл (и поэтому его легче интерпретировать), и в том, что сеть быстро обучается. При обучении такой сети время тратится практически только на то, чтобы подавать ей на вход обучающие наблюдения, и сеть работает настолько быстро, насколько это вообще возможно.
Существенным недостатком таких сетей является их объсм. РММ-сеть фактически вмещает в себя всс обучающие данные, поэтому она требует много памяти и может медленно работать. РМХ-сети особенно полсзны при пробных экспериментах (напримср, когда нужно решить, какие из входных переменных использовать), так как благодаря короткому времени обучения можно быстро проделать большое количество пробных тестов. Эти типы сетей используются и в описываемой ниже встроенной про деду рс Генетический алгоритм отбора входных данных— 6епейс 1приг ое!есгюп пакета о Т Уеига1 1тегн огкз.
ОБОБШЕННО-РЕГРЕССИОННАЯ НЕЙРОННАЯ СЕТЬ Обобщенно-регрессионная нейронная сеть (ОКНА) устроена аналогично вероятностной нейронной сети (РХХ), но предназначена для решения задач регрессии, а нс классификации (Бреск1, 1991; Рацегзоп, 1996; В(зпор, 1995). Как и в случае РХХ-сети, в точку расположения каждого обучающего наблюдения помещается гауссова ядерная функция. Мы считаем, что каждое наблюдение свидетельствует о некоторой нашей уверенности в том, что поверхность отклика в данной точке имеет определенную высоту, и эта уверенность убывает при отходе в сторону от точки. ОКНА-сеть копирует внутрь себя все обучающие наблюдения и использует их для оценки отклика в произвольной точке.
Окончатсльная выходная оценка сети получается как взвешенное среднее выходов по всем обучающим наблюдениям, где величины весов отражают расстояние от этих наблюдений до той точки, в которой производится оцениванис (и, таким образом, более близкие точки вносят больший вклад в оценку). Первый промежуточный слой ОКНА-сети состоит из радиальных элементов. Второй промежуточный слой содержит элементы, которые помогают оценить взвешенное среднее. Для этого используется специальная процедура Каждый выход имеет в этом слое свой элемент, формирующий для него взвешенную сумму.
Чтобы получить из взвешенной суммы взвешенное среднее, эту сумму нужно поделить на сумму весовых коэффициентов. Последнюю сумму вычисляет специальный элемент второго слоя. После этого в выходном слое производится собственно деление (с помощью специальных элементов «деления»). Таким образом, число элементов во втором промежуточном слое на единицу больше, чем в выходном слое. Как правило, в задачах 101 Нейронные сепго. ВТАТ!8Т!СА Меога! ггеаггогха регрессии требуется оценить одно выходное значение, и, соответственно, второй промежуточный слой содержит два элемента.
Можно модифицировать ОКХХ-сеть таким образом, чтобы радиальные элементы соответствовали не отдельным обучающим наблюдениям, а их кластерам. Это уменьшает размеры сети и увеличивает скорость обучения. Центры для таких элемснтов можно выбирать с помощью любого предназначенного для этой цели алгоритма (выборка из выборки, К-средних нли 1<охонена), при этом программа БТ %сига! Мсггеогкз соответствующим образом корректирует внутренние веса. Достоинства и недостатки у сетей ОКХХ в основном такие жс, как и у сетей РХХ вЂ” единственное различис состоит в том, что ОКХХ используются в задачах регрессии, а РХХ вЂ” в задачах классификации. ОКХХ-сеть обучается почти мгновенно, но может получиться большой и медленной (хотя здесь, в отличие от РХХ, не обязательно иметь по одному радиальному элементу на каждый обучающий пример, их число все равно будет большим).
Как и сеть РБФ, сеть ОКХХ не обладает способностью экстраполировать данные. ПИНЕЙНАЯ СЕТЬ Согласно общепринятому принципу, если более сложная модель не дает результат лучше, чем более простая, то из этих двух моделей следует предпочесть последнюю. В терминах аппроксимации отображений самой простой моделью будет линейная, в которой подгоночная функция определяется гиперплоскостью. В задаче классификации гиперплоскость размещается таким образом, чтобы она разделяла собой два класса (линейная дискриминантная функция); в задаче регрессии гиперплоскость должна проходить через заданные точки. Линейная модель обычно записывается с помощью матрицы ФхФи вектора смещения размера 11!.















