Хайкин С. - Нейронные сети (778923), страница 122
Текст из файла (страница 122)
После этого обучение считается завершенным. Однако если метод применяется без должного внимания, можно столкнуться с определенными трудностями. 9.8. Компьютерное моделирование: адаптивная классификация множеств В задаче классификации множеств первым и наиболее важным шагом является извлечение признаков (Геа!цге зе!есйоп), которое обычно выполняется без учителя. Целью этого шага является выбор обоснованно малого количества признаков, в которых 2. Остальные векторы Вороного не изменяются. Рис.
9ЛЗ. Блочная диаграмма адаптивной классификации множеств, использующей самоорганнзующуюся карту признаков н квантование вектора обучения 9.8. Компьютерное моделирование: адаптивная классификация множеств 606 сконцентрирована самая существенная информация о входных (классифицируемых) данных. Для извлечения признаков лучше всего подходит самооргаиизующаяся карта, ввиду ее свойства 4 (см.
раздел 9.5), особенно если входные данные формируются нелинейным процессом. Вторым шагом в задаче классификации множеств является сама классификация, в которой признакам, выделенным иа первом шаге, назначаются разные классы.
Несмотря иа то что и самооргаиизующаяся карта может самостоятельно осуществлять классификацию, все же для повышения производительности рекомендуется дополнить ее какой-нибудь схемой обучения с учителем. Комбинация самооргаиизующейся карты со схемой обучения с учителем формирует базис адаптивной классификации множеств (адарбче рапегп с!азз1бсапоп), которая является гибридной по своей сущности.
Такой гибридный подход к классификации может иметь различные формы, в зависимости от того, как реализована схема обучения с учителем. Одна из простейших схем использует кваитователь вектора обучения, описанный в предыдущем разделе. Исходя из сказанного, получим двухступенчатый адаптивный классификатор (см. рис. 9.13). В этом эксперименте снова вернемся к задаче классификации двух двумерных пересекающихся множеств с гауссовым распределением, которые можно пометить как классы С, и Сз.
Эта задача более подробно описывалась в главе 4, где для ее решения использовался миогослойиый персептрои, обучаемый методом обратного распространения. График распределения данных, используемых в эксперименте, показан иа рис. 4.13. На рис. 9.14, а показана двумерная карта признаков, состоящая из решетки размером 5 х5 нейронов после завершения работы алгоритма БОМ. Эта карта была маркировала, и каждый из нейронов был поставлен в соответствие одному из классов, в зависимости от того, как ои среагировал иа тестовые данные, взятые из входного распределения. На рис. 9.14, б показана граница решений, сформированная самой картой признаков.
На рис. 9.14, в показана модифицированная карта признаков, настроенная в процессе обучения с учителем иа основе алгоритма ).ОЧ. На рис. 9.14, г показана граница решений, полученная в результате совместного действия алгоритмов БОМ и (.ОЧ. Сравнивая последние два рисунка с их двойниками, 9.14, а и 9.14, б, мы видим качественный эффект применения алгоритма 1.ОЧ. В табл.
9.2 представлены эффективности классификации для карты признаков, действующей самостоятельно, и для совмещения алгоритмов БОМ и (.ОЧ. Представленные здесь результаты получены из 10 независимых пробных эксперимента, в каждой из которых использовалось по 30000 примеров тестовых данных. В каждом эксперименте наблюдалось повышение качества классификации при применении алгоритма (.ОЧ. Средний показатель производительности для карты признаков, дей- 996 Глава 9.
Карты саьюорганизации -5 О 5 -5 О 5 6) -5 О 5 в) ствующей самостоятельно, составил 79,61;и а для комбинации двух алгоритмов— 80,525м т.е. среднее улучшение качества классификации составило 0,91'/. Для срав- нения вспомним, что производительность оптимального классификатора Байеса для этого эксперимента составила 81,51;4. 9.9.
Иерархическое квантование векторов При обсуждении свойства 1 самоорганизующейся карты признаков в разделе 9.6 мы особо отметили, что она тесно связана с обобщенным алгоритмом Ллойда для векторного квантования. Векторное квантование является формой сжатия с потерей данных. Это значит, что в результате сжатия теряется часть информации, содержащейся в данных. Своими корнями сжатие данных уходит в теорию информации Шеннона (Я))еппоп), еще называемую теорией уровня искажения (тате 4)18)огГ(оп бтеогу) 1221). В свете нашей дискуссии об иерархической векторного квантования будет уместным начать с утверждения, явившегося фундаментальным результатом теории уровня искажения 1379). 8 6 4 2 О -2 -4 -6 -8 8 6 2 О -г -4 -6 -8 -5 О 8 6 4 2 О -2 -4 -6 -8 8 6 4 О -2 -4 -6 -8 5 Рис.
9.14. Самооргвнизукггцаяся карта после расстановки меток (а). (б) Граница решений, построенная картой (а). Маркированная карта после квантования векторов обучения (в). (г) Граница решений, построенная на карте (в) 9.9. Иерархическое квантование векторов 997 ТАБЛИЦА 9.2. Эффективность классификации (в процентах) в компьютерном экс- перименте по классификации двух пересекающихся гауссовых распределений с помощью решетки размером 5 х 5 Классификация комбинацией карты признаков и ЕХД Попытка Самостоятельная классификация картой признаков Наилучшего сжатия данных всегда можно добиться с помощью кодирования не векторов, а скаляров, даже если источник данных не имеет памяти (т.е.
является последовательностью независимых случайных переменных), или если система сжатия данных имеет память (т.е, действия кодировщика зависят от своих предыдущих входов или выходов). За этим фундаментальным результатом стоят обширные исследования в области векторного квантования [346]. Однако алгоритмы обычного векторного квантования требуют довольного большого объема вычислений, что ограничивает их практическое использование.
Большую часть времени в алгоритме векторного квантования занимает операция кодирования. При кодировании входной вектор должен сравниваться с каждым из векторов кодирования в кодовой книге, для того чтобы найти тот, который обеспечивает минимальное искажение. Например, если кодовая книга содержит )Ч векторов кодирования, время, затраченное на кодирование, будет иметь порядок )1(.
Исходя из этого, с увеличением Х оио будет возрастать. В 1690) описано многоступенчатое иерархическое векторное квантование (пш!бмабе Ыегагс)пса! чесгог срзапбгег), которое значительно увеличивает скорость кодирования. Эта схема не является простым деревом поиска в кодовой книге. В ней реализован кардинально новый принцип. Многоступенчатый иерархический векторный квантователь раскладывает общую операцию векторного квантования на множество подопераций, каждая из которых требует крайне малого объема вычислений.
Желательно, чтобы такое разложение сводилось к одной процедуре поиска на подоперацию. Мудро используя алгоритм БОМ для обучения каждой из подопераций, можно добиться малой потери точности (до доли децибела) при одновременном повышении скорости вычислений. 1 2 3 4 5 6 7 8 9 10 Среднее 79,05 79,79 79,41 79,38 80,30 79,55 79,79 78,48 80,00 80,32 79,61 зь 80,18 80,56 81,17 79,84 80,43 80,36 80,86 80,21 80,51 81,06 80,52'Уо 808 Глава 9. Карты самоорганизации Рассмотрим два векторных квантователя, Ч(1, и ЧОз, где первый передает свой выход на второй.
Выход второго квантователя является окончательной кодированной версией исходного входного сигнала, примененного к ЧОг. При осуществлении квантования совершенно нежелательно, чтобы ЧОз отвергал какую-либо информацию. Поскольку рассматривается квантователь ЧЯ„исключительный эффект от ЧОз заключается в искажении выхода ЧО,. Таким образом, получается, что для ЧО, больше подходит алгоритм БОМ, который учитывает искажение сигнала, налагаемое квантователем ЧОз [690). Для того чтобы использовать обобщенный алгоритм Ллойда для обучения квантователя Ч()з, нужно предположить, что выход ЧОз не будет искажен до проведения восстановления.
В этом случае не потребуется вводить зашумленную модель (для выхода ЧОз) и ассоциированную с ней функцию окрестности конечной ширины. Этот эвристический аргумент можно обобщить на многоступенчатый векторный квантователь. Каждый шаг должен учитывать искажения, привнесенные всеми предыдущими шагами, и моделировать их как шум. Поэтому для обучения всех ступеней квантователя (за исключением последней, для которой применяется обобщенный алгоритм Ллойда) используется алгоритм БОМ. Иерархическое векторное квантование является частным случаем многоступенчатого векторного квантования [690). В качестве иллюстрации рассмотрим квантование входного вектора размерности 4 х 1: х = [хг ~ хз~ хз) хв] т На рис. 9.15, а показан одноступенчатый векторный квантователь для х.
В качестве альтернативы используется двухступенчатый иерархический квантователь, представленный на рис. 9.15, б. Разительное отличие между двумя этими схемами состоит в том, что размерность входа квантователя на рис. 9.15, а равна четырем, в то время как квантователя на рис. 9.15, б — двум. Соответственно квантователь, представленный на рис.
9.15, б, требует для своей работы существенно меньшей справочной гпаблицы (1оо1г-цр гаЫе) и является более простым для реализации, чем квантователь, показанный на рис. 9.15, а. В этом и лежит главное преимущество иерархического квантователя перед обычным. В [690) продемонстрирована эффективность многоступенчатого иерархического векторного квантователя применительно к различным стохастическим рядам. При этом потери в точности были минимальными. На рис.
9.16 воспроизведены результаты, полученные в этой работе, для случая коррелированного гауссова шума, генерируемого с помощью авторегрессиопой модели первого порядка (бгзг-огдег апгогеягеззгче пюде1): х(п + 1) = рх(п) + о(п), (9.32) 9.9. Иерархическое квантование векторов 609 Выходной сигнал Выходной сигнал Рис. 9.15. Одноступенчатый векторный квантоватвпь с четырехмерным входным сигналом (а); двухступенчатый иерархический векторный квантоватвпь, использующий двухвходовые векторные квантоватвпи (б) (из (6901) Х2 Х2 Х2 Х4 Х2 Хт 4 где р — коэффициент авторегрессии; т2(п) — независимая и равномерно распреде- ленная гауссова случайная переменная с нулевым средним и единичной дисперсией.
Исходя из этого, можно показать, что х(п) характеризуется следующим образом: Е[х(п)[ = О, Е[хз(п)[ = 1 Е[х(п + 1)х(п)] Е[хз(п)[ (9.33) (9.34) (9.35) Таким образом, р можно рассматривать как коэффициент корреляции (сопе1айоп соейсгепф временного ряда (х(п)). Чтобы инициировать генерацию этого временного ряда в соответствии с (9.32), для х(О) использована гауссова случайная переменная с нулевым средним и дисперсией 1/(1 — р ), а в качестве коэффициента корреляции выбрана величина р = О, 85.