Хайкин С. - Нейронные сети (778923), страница 119
Текст из файла (страница 119)
Эти две операции показаны на рис. 9.4. Карта признаков Ф обладает следующими важными свойствами. Свойство 1. Аппроксимации входного пространства. Карта признаков Ф, представленная множеством векторов синаптических весов (и ), в выходном пространстве А реализует хорошую аппроксимацию входного пространства Х. Главной целью алгоритма БОМ является хранение большого объема векторов хеХ с помошью нахождения небольшого набора прототипов и, ЕА, которые представляют собой адекватную аппроксимацию исходного входного пространства Х. Теоретические основы этой идеи уходят корнями в теорию векторного квантования (нес!о! йпапйхабоп йтеогу).
Ее мотивацией является снижение размерности или сжатие данных !346). Кажется целесообразным представить в этой книге краткий экскурс в эту теорию. Рассмотрим рис. 9.5, на котором с(х) выступает в роли кодера входного вектора х, а х'(с) — декодера сигнала с(х). Вектор х случайным образом выбирается из множества примеров обучения (т.е.
из входного пространства Х) согласно некоторой функции плотности вероятности ух(х). Оптимальная схема кодирования-декодирования определяется с помощью изменения функций с(х) и х'(с) с целью минимизации ожидаемого искажения (ехрес!ес( д!я!оп!оп), определяемого как 990 Глава 9. Карты самоорганизации с[(х, х') является квадрат Евклидова расстояния между входным вектором х и восстановленным вектором х', т.е. с[(х,х') = [[х — х'[[ = (х — х') (х — х'). (9.17) Исходя из этого, выражение (9.16) можно переписать в следующем виде: 1 гч Р = — / г(х~х(х) (~х — х')! . 2./ (9.18) 1 гь г" Р, = — / с[худ(х) / г(чк(ч) [[х — х'(с(х) + ч)[[ г 2./ (9.19) В литературе по теориям коммуникаций и информации для скалярного квантования предлагается более ранний метод, известный как алгоритм Ллойда.
Этот аагоритм впервые был описан в 1957 году Ллойдом в неопубликованном отчете лаборатории Веа, а затем, намного позже, появился в печатном виде в [бб7!. Алгоритм Ллойда иногда вше называют алгориммом квантования максимума (шах Чнзпблег). обобщенный вяозритм Ллойда (ОЬА) для векторного квантования является непосредственным обобшением исходного алгоритма Ллойда. Обобщенный алгоритм Ллойда еше иногда назыаашт алгорилгнан Ьгреднш (Ышеапз а1яопжйш Необходимые условия минимизации ожидаемого искажения Р содержатся в обобщенном алгоритяге Ллойда (йепега!1гет! [.!оу([ а!йоп(Ьгп) [346). Эти условия имеют следующий вид.
Условие 1. Для данного входного вектора х выбрать кодер с = с(х), минимизирующий квадратичную ошибку искажения ~ [х — х'(с) [[з. Условие 2. Для данного кодера с вычислить восстановленный вектор х' = х'(с) как центр тяжести (сеп(гоЫ) тех входных векторов х, которые удовлетворяют условию 1. Условие 1 называют правилом ближайшего соседа (пеагез( пе!8ЬЬоиг пйе). Условия 1 и 2 подразумевают, что среднее искажение Р стационарно (т.е.
находится в точке локального минимума) по отношению к вариациям кодера с(х) и декодера х'(с) соответственно. Для того чтобы выполнить векторное квантование, обобщенный алгоритм Ллойда должен работать в пакетном режиме обучения. В своей основе алгоритм состоит из последовательной оптимизации кодера с(х) в соответствии с условием 1 и последующей оптимизации декодера х'(с) в соответствии с условием 2. Процесс продолжается до тех пор, пока ожидаемое искажение Р не достигнет минимума. Для того чтобы избежать проблемы локального минимума, целесообразно запускать обобщенный алгоритм Ллойда несколько раз с различными начальными векторами. Обобщенный алгоритм Ллойда тесно связан с алгоритмом БОМ (691).
Форму этой связи можно описать, рассмотрев схему, показанную на рис. 9.6, где был введен независимый от сигнала процесс шума ч, который следует за кодером с(х). Шум ч ассоциируется с фиктивным "каналом связи" между кодером и декодером. Это моделирует возможность того, что выходной код с(х) может быть искажен. На основании модели, представленной на рис. 9.6, можно вывести модифицированную форму ожидаемого искажения в следующем виде: 9.5. Свойства карты признаков 591 Шум х Вхокно Всссхан Рнс. 9.6. Зашумленная модель кодера- декодера где л(т) — функция плотности вероятности аддитнвного шума т, а второе интегрирование выполняется по всем возможным реализациям этого шума.
В соответствии со стратегией, описанной для обобщенного алгоритма Ллойда, в модели, представленной на рис. 9.6, рассматриваются две различные задачи оптимизации: одна для кодера, а другая — для декодера. Чтобы найти оптимальный кодер для заданного вектора х, нужно взять частную производную меры ожидаемого искажения Р, по кодированному вектору с. Используя (9.19), получим: аР, 1 г+- а ' = — ~х(х) / г(ук(у) — !(х — х'(с)!! ),,<м„„.
(9.20) Чтобы найти оптимальный декодер для данного с, нужно вычислить частную производную меры ожидаемого искажения Р, по декодированному вектору х'(с). Используя выражение (9.19), получим: аР, ах(с) = — с(хух(х)к(с — с(х)) (х — х'(с)). (9.21) Отсюда, в свете (9.20) и (9.21), ранее изложенные условия 1 и 2 обобщенного алгоритма Ллойда можно модифицировать следующим образом (691). Условие Г Для данного входного вектора х выбрать кодер с=с(х), минимизирующий меру искажения: Рз = ~Ьл(У) йх — х'(с(х) + У)~) (9.22) с(хГх(х)к(с — с(х))х х'(с)— дхГх(х)п(с — с(х)) (9.23) Условие П. Для данного кодера с вычислить восстановленный вектор х'(с), который удовлетворяет условию 592 Глава 9.
Карты самоорганизации Уравнение (9.23) было получено приравниванием частной производной дР, Г дх'(с) из (9.21) к нулю, после чего полученное уравнение решалось относительно х'(с). Модель, показанную на рис. 9.5, можно рассматривать как частный случай модели, показанной на рис. 9.6. В частности, если в качестве функции плотности вероятности к(у) шума ч выбрать дельта-функцию Дирака б(у), условия 1 и 11 сведутся к условиям 1 и 2 обобщенного алгоритма Ллойда. Для того чтобы упростить условие 1, предположим, что к(к) является гладкой функцией аргумента ж Тогда можно показать, что для аппроксимации второго порядка мера искажения .Рз, описанная формулой (9.22), состоит из двух компонентов 169Ц.
° Слагаемое слгандарглного искажения, определяемое квадратичной ошибкой искажения Йх — х'(с)Й . ° Слагаемое искривления (сцгташге), возникающее из модели шума к(у). Предполагая малость слагаемого искривления, условие 1 модели на рис. 9.6 может быть аппроксимировано условием 1 модели 9.5 без учета шума. Это, в свою очередь, сводит условие 1 к правилу ближайшего соседа, применяемому для кодирования. Что же касается условия П, то его можно лучше интерпретировать, используя обучение методом стохастического спуска. В частности, из входного пространства Х можно случайным образом выбрать вектор х, используя множитель 3 г(х1х(х), и скорректировать реконструированный вектор х'(с) (69 Ц: х'„,„(с) — х',м(с) + т)п(с — с(х)) [х — х',м(с)), (9.24) где г) — параметр скорости обучения; с(х) — результат аппроксимации кодирования ближайшего соседа согласно условию 1.
Уравнение коррекции (9.24) получено в результате анализа частной производной (9.21). Это уравнение можно применить ко всем с, для которых к(с — с(х)) > О. (9.25) Процедуру, описываемую выражением (9.24), можно представить себе как способ минимизации меры искажения Р, (9.21). Это значит, что выражения (9.23) и (9.24) имеют один и тот же тип, за исключением того факта, что (9.23) использует пакетный режим, а (9.24) — последовательный.
Уравнение коррекции (9.24) идентично (последовательному) алгоритму БОМ (9.13), если принять во внимание соответствия, приведенные в табл. 9.1. Следовательно, можно утверждать, что обобщенный алгоритм Ллойда для векторного квантования является пакетной версией алгоритма БОМ с нулевым размером окрестности, Для такой окрестности к(0) = 1. Обратите внимание, что для получения обобщенного алгоритма Ллойда из пакетной версии алгоритма БОМ не нужно делать никаких аппроксимаций, так как слагаемые искривления (и все слагаемые более высокого порядка) не вносят вклад в результат при нулевой ширине окрестности. 9.6.
Свойства карты признаков 593 ТАБЛИЦА 9.1. Соответствия между апгоритмом ЗОМ и моделью, показанной на рис. 9.6 Алгоритм ЛОМ Модель кодера-декодера, показанная на рис. 9.6 Кодер с[х) Наиболее подходящий нейрон 1(х) Восстановленный вектор х'(с) Вектор синаптических весов иу Функция плотности вероятности п(с — с[х)) Функция окрестности Аз,!х) В приведенном здесь обсуждении можно отметить следующие важные моменты. ° Алгоритм КОМ представляет собой алгоритм векторного квантования, который осуществляет хорошую аппроксимацию входного пространства Х. Точка зрения, представляющая другой подход к выводу алгоритма 8ОМ, представлена на примере выражения (9.24). ° Согласно этой точке зрения, функция окрестности !ззл[,) в алгоритме БОМ имеет форму функции плотности вероятности.
В [688] рассматривалась гауссова модель с нулевым средним, соответствующая шуму ч в модели на рис. 9.6. Таким образом, у нас есть теоретические основания принятия гауссовой функции окрестности (9.4). Пакетный алгоритм ЛОМ (Ьа[сй БОМ) является всего лишь другой формой выражения (9.23), в которой для аппроксимации интегралов в числителе и знаменателе в правой части уравнения используется суммирование. Обратите внимание, что в этой версии алгоритма КОМ порядок представления сети входных образов не влияет на окончательную форму карты признаков и не существует необходимости в зависимости от времени параметра скорости обучения.
Однако этот алгоритм все же требует использования функции окрестности. Свойство 2. Топологический порядок. Карта признаков Ф, полученная алгоритмом ЛОМ, является топологи чески упорядоченной в том смысле, что пространственное положение нейронов в реияетке соответствует конкретной области или признаку входного образа. Свойство топологической упорядоченности является прямым следствием уравнения коррекции (9.13), которое перемещает вектор синаптических весов зч! победившего нейрона [[х) в сторону входного вектора х. Оно также имеет эффект перемещения вектора синаптических весов и, ближайших нейронов вместе с весами " В [57!1 были прелставлены экспериментальные результаты, показываюшие, что пакетная версия алгоритма ЗОМ быстрее интерактивной [оп-!!пе) Однмю при использовании пакетной версии теряются алмпивные свойства зтого алгоритма.
Топологнческое свойство самооргаиизуюшейся карты может быть жиичественно измерено многими способами. Одна из таких мер, называемая молологпческим лролзви)аллеи [горо!оя!са! ргобпс!), описана в [!041. Ее можно использовать для сравнения корректности поведения различных карт признаков, имеющих разные размерности. Однако зта мера является количественной только в том случае, когда размерности решетки и входного пространства совпадают. $94 Глава 9, Карты саькюрганизации победившего нейрона з(х). Таким образом, карту признаков Ф можно представить в виде гибкой (е!азбс) или виртуальной сети (ч(ггоа! пе!) с топологией одно- или двухмерной решетки, заданной выходным пространством А, узлы которой имеют веса, соответствующие координатам во входном пространстве Х (887).