Хайкин С. - Нейронные сети (778923), страница 98
Текст из файла (страница 98)
Эта стратегия может быть продолжена рекурсивно до тех пор, пока мы не достигнем стадии, на которой сложность аппроксимирующих поверхностей не будет соответствовать "локальной" сложности данных обучения. Таким образом, модель НМЕ может работать не хуже, а зачастую и лучше модели МЕ. И этому факту есть объяснение: более высокий уровень сетей шлюзов модели НМЕ эффективно комбинирует информацию н перераспределяет ее среди экспертов своего поддерева.
Следовательно, "сила" каждого из параметров рассматриваемого поддерева используется совместно с другими параметрами, содержащимися в том же поддереве, потенциально улучшая общую производительность модели НМЕ. 2. Модель НМЕ является деревом мягких решений (зоЯ-оес1зюп). Согласно этой точке зрения, смешение мнений экспертов является всего лишь одноуровневым деревом принятия решений, иногда в шутку называемым пеньком решений (десеюп зпппр). В более общей постановке модель НМЕ можно рассматривать как вероятностную среду для дерева решений. При этом выходной узел модели НМЕ рассматривается как корень дерева. Методология стандартного дерева решений 7.7. Модель иерархического смешения мнений экспертов 486 Входной вектор х нходной сигнал У Сетынлхна первою уровня Рнс.
7.11. Иерархическое смешение мнений экспертов (НМЕ) дпя двух уровней иерархии состоит в построении дерева, ведущего к принятию жестких решений (типа данет) в различных областях входного пространства. Противоположностью являются мягкие решения, принимаемые моделью НМЕ. Следовательно, модель НМЕ может превзойти по производительности стандартное дерево решений. Это определяется двумя причинами. ° Жесткие решения, к сожалению, приводят к потере информации, в то время как мягкие решения ее сохраняют. Например, мягкие двоичные решения несут в себе информацию о расстоянии от границы решений (т.е, от точки, в которой решение равновероятно), в то время как жесткие решения — нет. Таким образом, можно утверждать, что, в отличие от стандартного дерева решений, модель обладает встроенным правилом сохранения информации (шТоппа6оп ргезегпайоп ги!е).
Это эмпирическое правило утверждает, что информация, содержащаяся во входном сигнале, может быть эффективно сохранена с вычислительной точки зрения до тех пор, пока система не будет готова к окончательному принятию решения или оценке параметра ~434). 486 Глава 7. Ассоциативные машины ° Стандартные деревья решений подвержены болезни жадности (ягеейпеза). Как толью в таком дереве принимается решение, оно замораживается и никогда впоследствии не изменяется. Модель НМЕ избавлена от таких проблем, так как решения, принимаемые в дереве, постоянно изменяются. В отличие от стандартного дерева решений в модели НМЕ можно отойти от неправильно принятого решения в каком-либо другом месте дерева. Вторая точка зрения является более предпочтительной.
Если рассматривать НМЕ как вероятностный фундамент для построения дерева решений, то можно вычислить подобие для любого предложенного множества данных, а также максимизировать это подобие по параметрам, определяющим разбиение входного пространства на отдельные области. Таким образом, основываясь на информации о стандартных деревьях решений, можно найти практическое решение задачи выбора модели, чем мы и займемся в следующем разделе. 7.8.
Выбор модели с использованием стандартного дерева решений Как и в любой другой нейронной сети, удовлетворительное решение задачи оценки параметров можно получить путем выбора модели, подходящей для конкретной задачи. В случае модели НМЕ под выбором модели понимается выбор количества и композиции узлов решения в дереве. Одно из практических решений задачи выбора модели сводится к запуску на данных обучения алгоритма стандартного дерева решений и принятию полученного дерева в качестве исходного на шаге инициализации в алгоритме обучения, используемом для определения параметров модели НМЕ 15211.
Модель НМЕ имеет очевидное сходство со стандартным деревом решений, например с деревом классификанин и регрессии (с1азябсайоп апд геягезяоп ггее — САИТ) [154]. На рис. 7.12 показан пример дерева САИТ, в котором пространство входных данных Х последовательно разбивается серией двоичных делений на терминальные узлы (гепшпа1 поде).
При сравнении рис. 7.11 и 7.12 ясно видно, что между моделями САКТ и НМЕ существует следующее сходство. ° Правило выбора разбиений в промежуточных узлах (ветвях) в модели САКТ играет роль, аналогичную сетям шлюзов в модели НМЕ. ° Терминальные узлы в модели САЯТ играют роль, аналогичную сетям экспертов в модели НМЕ. Применяя модель САЯТ для интересующей нас задачи классификации или регрессии, можно использовать преимущества дискретной природы этой модели для проведения эффективного поиска среди множества альтернативных деревьев.
Используя 7.8. Выбор модели с использованием стандартного дерева решений 487 6 Рис. 7Д2. Двоичное дерево решений, описываемое слеДУюЩим обРазом; (1) Узлы 4з и 4з ЯвлЯютсЯ потомками узла П; (2) узлы 44 и М являются потомками узла 4з, а, узлы 44 и н являются потомками узла 44 выбранное таким образом дерево в качестве исходного на шаге инициализации алгоритма обучения, можно взять на вооружение непрерывную вероятностную основу модели НМЕ и получить улучшенную "мягкую*' оценку желаемого отклика.
Алгоритм САйТ В свете изложенного выше материала приведем краткое описание алгоритма САКТ. Это описание представлено в контексте задачи регрессии. Имея множество данных обучения ((х4, 414))~ „алгоритм САКТ можно использовать для построения двоичного дерева Т минимально-квадратичной регрессии. Для этого нужно выполнить следующие действия. 1. Выбор разбиений (зе!есйоп оГ зр!1!з). Пусть узел ~ — некоторое подмножество дерева Т.
Пустыф) — среднее значение е(4 для всех пар (х4, д,), попадающих в поддерево 1, т.е. (7. 33) где суммирование проводится по всем д„для которых х, Е 8, а Аг(г) — общее количество таких случаев. Определим следующие величины; (7.34) к,Е4 (7.35) 4ЕТ Для узла 1 сумма 2 (б; — Ы(1))з представляет собой "внугриузловую сумму квад- к Е4 ратов'*, т.е. общее квадратичное отклонение всех 44 поддерева 1 от своего среднего 488 Глава 7. Ассоциативные машины значения хх(х). Суммирование этих отклонений по всем поддеревьям ! е Т дает общую по узлу сумму квадратов, а деление на )У вЂ” среднее значение. Для любого заданного множества разбиений Я текущего узла 1 дерева Т лучшим разбиением в" является то, для которого значение Е(Т) является наименьшим. Для конкретности предположим, что для любого разбиения в узла ! на !ь (новый узел слева от !) и 1н (новый узел справа от !) выполняется соотношение ,пхЕ(в,1) = Е(Т) — Е(1ь) — Е(1л).
(7.3б) Наилучшим разбиением в' считается то, для которого ЬЕ(в',!) = шахЬЕ(1,в). мн (7.37) Таким образом, построенное дерево регрессии будет максимизировать убывание величины Е(Т). 2. Определение терминального узла (десепшпабоп оГ а!епп!па! поде). Узел ! называется терминальным, если выполняется следующее условие: шах ЬЕ(в,1) ( !3, паз (7.38) и(Ф) = Х~(!)х!(!), (7.39) где Х~(!) — матрица, псевдообратная матрице Х(1). Используя хт(!), на выходе терминального узла ! получаем оценку й(х) по методу наименьших квадратов.
За счет использования весов, вычисленных согласно (7.39), задача выбора разбиения может быть решена за счет поиска наименьшей суммы квадратов ошибок относительно поверхностей регрессий, а не относительно средних значений. где !3 — наперед заданный порог. 3. Оценка параметров терминального узла по методу наименьших квадратов (1еааь зх!цагез езгппабоп оГ а !епп!па! поде*я рагашехегз).
Пусть ! является терминальным узлом в двоичном дереве Т, а Х(г) — матрица, составленная из х, Е 1. Пусть о(!)— соответствующий вектор, составленный из желаемых откликов дх в поддереве 1. Определим вектор 7З. Выбор модели с использованием стандартного дерева решений 489 Использование алгоритма САЕТ дитя инициализации модели НМА Предположим, что в результате применения алгоритма САНТ к множеству данных обучения построено двоичное дерево решений поставленной задачи. Разбиение, по- строенное алгоритмом САИТ, можно представить как многомерную поверхность, описываемую формулой а х+Ь=О, 1 д= 1 + ехр( — (агх + Ь) ) ' (7.40) описывающей разбиение, в частности при д = 1/2. Пусть вектор весов а для зтой конкретной сети шлюза удовлетворяет равенству а а = )(а(! Ьа)) (7.41) где йа(( — длина (Евклидова норма) вектора а; а/))ац — нормированный вектор (име- ющий единичную длину).
Подставляя (7.41) в (7.40), параметрическое разбиение в сети шлюза можно переписать следующим образом: (7.42) ~ ( ~ы~ ((й~)'*+ А)) Отсюда видно, что вектор аl!)а)) задает направление разбиения, а Оа)! — его резкосгль (з)щгрпезз). Важно отметить, что сеть шлюза в выражении (7.42), созданная на основе линейного фильтра, за которым следует нелинейная активационная функция зойшах, может имитировать разбиение в стиле САНТ. Более того, мы получаем дополнительную степень свободы — длину вектора параметров а. В стандартном дереве решений дополнительные параметры не нужны, так как для создания разбиения используется жесткое решение. В отличие от алгоритма МЕ длина вектора а оказывает существенное влияние на резкость разбиения, выполняемого сетью шлюза в модели НМЕ.