Фукунага - Введение в статистическую теорию распознования образов (1033985), страница 50
Текст из файла (страница 50)
9.4. Постройте программу поиска матрицы оптимального преобразования А для максимизации расстояния Бхатачария при данном т. Исходные данные: стандартные данные ~ = 1, 2. 9.5. Вычислите верхнюю границу расстояния Бхатачария с использованием неравенства Иенсена и оценки Парзена. Исходные данные: объекты, генерированные в соответствии со стандартными данными ( = 1, 2.
9.6. Повторите задание 9.2 для дивергенции. 9.7. Повторите задание 9.4 для дивергенции. 9Л. Классы ю~ и н2 содержат по три объекта, как показано на рисунке. Вычислите 11(2) и 12(1) с использованием матриц 8~1 и Я соответственно в качестве матриц рассеяния Я1 и Я2.
9.2. Добавив класс нз, как показано на рисунке, вычислите 11(2) и 11(1) с матрицами рассеяния Яы и Я... 9.3. Найдите оптимальные признаки для максимизации 1г Я1 при усло вии АЯ2А' = 1, где А — матрица преобразования размерности т)(и(ш ( и), 9.4. Пусть имеются нормальные распределения с математическими ожи даниями и ковариационными матрицами такие же, как в задаче 9.1. Вы числите расстояние Бхатачария между классами ю1 и ю,.
9.5. Два одномерных нормальных распределения имеют следующие математические ожидания и дисперсии: Случай 1: тт —— О, т2 = 2, О) —— 4, О2 —— 0,25. 2 2 Случай 2: т,=О, т,=2, о =1, о2=1. 2 Найдите границу Чернова и оптимальное значение з и сравните ее с факти. ческой вероятностью ошибки и границей Бхатачария. 9.6. Используя следующие векторы в качестве признаков, выберите признаки для максимизации расстояния Бхатачария: 1Х а) собственные векторы 'матрицы Х) Хз, процедура а); Г 1 1 — 1 б) комбинации ~ 2 (Х1+ Хз)~ (ЛХ1 — ЛХ2) и собственных векторов матрицы Х~ Хю процедура б); (в) исходные переменные, 9.7. Пусть Хь ..., Մ— собственные значения матрицы Х ~Х„а (хп .
..., р — собственные значения матрицы (АХ~А') '(ЛХ2Л'), где А — матрица преобразования размерности и Х т. Верно ли, что Х; ) р;7 (Ук аз а ни е: см. [Кадета, 19671.) 9.8. Регпите задачу 9.4 для дивергенции. 9.9. Решите задачу 9.5 для дивергенции. 9.10. Решите задачу 9.6 для дивергенции. $ 10.1. ИСТИННАЯ РАЗМЕРНОСТЬ ИСХОДНЫХ ДАННЫХ 297 Глава 10 НЕЛИНЕЙНОЕ ПРЕОБРАЗОВАНИЕ ИСХОДНОГО ПРОСТРАНСТВА До сих пор при обсуждении вопроса о нахождении оптимальных признаков данного множества исходных данных рассматривались только линейные преобразования исходного пространства.
К сожалению, линейное преобразование, как правило, не позволяет выделить минимальное число эффективных признаков. Несмотря на это, математические вопросы нелинейных отображений остаются неисслвдованпыми вследствие нх сложности, и на практике эффективные признаки находят, в основном, за счет интуиции исследователя. еЕх 1рудности решения нелинейных задач являются общими для всех технических дисциплин. Однако в задачах распознавания образов из-за большого числа переменных эти трудности особенно велики. В этой главе будут рассмотрены некоторые методы нелинейного преобразования исходного пространства, связанные с нахождением истинной размерности множества исходных данных, улучшением разделимости классов и двумерным отображением исходных данных без потери разделимости.
10.1. Истинная размерность исходных данных 10.1.1. Локальные свойства распределения. Всякий раз, когда мы имеем дело с большими множествами многомерных данных, задача их обработки упрощается, если удается обнаружить или навязать этим данным некоторую структуру. Поэтому можно предположить, что исходные данные подчиняются закону, который характеризуется определенным числом основных параметров. Минимальное число параметров пе, которые необходимо принять в расчет для объяснения наблюдаемых свойств исходных данных, называют истинной размерностью множества исходных данных или, что то хсе самое, истинной размерностью процесса, порождающего исходные данные.
Геометрическая интерпретация этого определения заключается в том, что все мнохсество исход- г ':. яых данных лежит в топологическом подпространстве (на гипер- '.~т . поверхности) размерности пе. Как говорилось в предыдущих главах, методы линейного преобразования направлены па нахохсденне главных осей многомерного распредееления и исключение тех осей, вдоль которых дисперсия исходных данных незначительна. Эффективность з этих методов ограничена тем, с~~ л" что они допускают лишь линейные преобразования исход- I ного пространства. Рассмотрим, например, одномерное распреде- / ление, показанное сплошной линией на рис. 10.1. Главные оси этого распределения Ф1 и ю 1 Ф~ совпадают с главными ося- '„,$' Г...,а,, ми распределення, показанного пунктирной линией.
Таким образом, линейное преобразование не позволяет выявить истинную размерность, которая в этом примере равна единице. Рассмотрим два случайных процесса: х(1) =аехр ( Ь~), (10.1) х ф =- а ехр [ — —., ~Š— еп)'!ее1, (10. 2) Рнс. 10.1. Истинная размерность и линейное преобразование. где а, Ь, т и ст — случайные величины.
Случайный процесс (10.1) характеризуется двумя параметрами: а и Ь, а (10.2) — тре- хв мя параметрами: а, т и о. Следовательно, истинные размерности этих процессов — 2 и 3. Однако анализ этих процессов -А с помощью разложения Карунена — Лоева и в этом примере дает болев высокие значе- Х~ ния размерности. Как мохсно видеть из рис. 10.1, истинная размерность является, по существу, локальной характеристикой распределения. Рис 10.2. Локальные подмножества Обращаясь к рис. 10.2, мы ви- даниь'х дим, что если взять небольшие области с центрами в точках Х~, Х~, Хз и т.
д., то разложения Карунена — Лоева для этих локальных подмножеств исходных данных дают размерности, близкие к истинным. Эти разложения, $10.1. ИСТИННАЯ РАЗМЕРНОСТЬ ИСХОДНЫХ ДАННЫХ 298 ГЛ. 10. НЕЛИНЕЙНОЕ ПРЕОБРАЗОВАНИЕ ПРОСТРАНСТВА 299 кроме того, дают базисные векторы для локальных распред1елений. Этот метод аналогичен метод1у локальной линеаризации нелинейных функций. Универсальное средство исследования локальных свойств — разложение в ряд1 Тейлора является общим средством. Для того чтобы применить это разложение, введем истинные случайные величины Ъ = ! У1 У2 ° Уп01 ф х = х(~).
(10.4)' В случае случайного процесса эта зависимость записывается в виде х(!) = х(!, Ъ). (10.5) Например, для (10.1) у! — — а и у2 — — Ь. В пределах малой окрестности У вектор Х можно представить усеченным рядом Тейлора: ~о лх(У) = х(~) — х(У) =- Х лу,.ч,. (У), (10.6) 1=-1 где ч,(У) = вх(У)!ву, Лу,=у; — у,. '(10.7) (10.8) Таким образом, ЛХ(У) можно аппроксимировать линейным разложением по Ч1;, сод1ержащим п0 членов. То обстоятельство, что ЛХ(У) выражается через п0 нли меньшее число линейно независимых векторов, приводит к выводу, что ковариационная матрица ЛХ(У) имеет ранг (или число ненулевых собственных значений) равный или меньший, чем п0. В этом месте необход1имо сд1елать следующие замечания.
1. Так как разложение (10.6) ягляется приближенным, фактическая ковариационная матрица наблюд1аемых д1анных ЛХ(У) имеет ранг и, а не п0. Но п0 или меньшее число собственных значений доминируют в области, гд1е справедливо (10.6). 2. К сожалению, базисные векторы Ч1; (10.6) не являются взаимно ортогональными, а Лу; — некоррелированными.' Это означает, что если базисные векторы ищутся по наблюдаемым д1анным ЛХ(У) с помощью разложения Корунена — 'Лоева, то при этом будет получено другое разлох1ение пе ЛХ(У) М,~~ Лк1Ф, (У) (10.9) 1=1 гд1е п0 — истинная размерность. Тогда наблюдаемый случайный вектор Х, размерность которого и больше истинной размерности п0, является нелинейной функцией 1!': где Х (У) = Е (ЛХ ( У) ЛХ ( У) '), Х(У)Ф!(У) = МУжУ).
(10 10) (10 11)' ' Так как Ф,(У) и Х,(У) — собственные векторы и собственные значения ковариационной матрицы Х(У), то Ф;(У) взаимно ортонормированы, а Лк; — некоррелированы. Выражения (10.6) и ;,(10.9) являются линейными выражениями относительно п0 ба' зисных векторов с п0 случайными коэффициентами.
Поэтому Лу! и Ч1! должны быть связаны с Лк, и Ф; линейным преобразованием, хотя матрица преобразования неизвестна. Если бы можно было найти эту матрицу, то мы могли бы вычислить Ч1, по Х(У) и Ф,. Так как Ч1; — это частные производные от Х(У), вычисленные значения Ч1! можно использовать д1ля оценки вид1а функции Х('.Г) . 3. Вообще говоря, нет гарантии, что в ряд1е Тейлора (10.6) доминируют члены первого порядка. Если минимальный размер локальной области ограничен по каким-либо техническим соображениям, доминирующими могут оказаться некоторые члены более высокого порядка или, другими словами, некоторые члены более низкого порядка могут быть малозначимыми, Поэтому упомянутая выше процед1ура эквивалентна подсчету числа значимых членов в ряде Тейлора, которое, как мы над1еемся, близко к п0.
Эта над1ежд1а, од1нако, под1тверждается экспериментально, на примерах. 4. На всех реальных ситуациях исходные данные искажены шумом. Поучительно рассмотреть влияние ад|д1итивного белого шума. Так как белый шум имеет нулевое среднее значение, некоррелирован с сигналом ЛХ(У) и имеет ед1ипичную ковариационную матрицу 1, то ковариационная матрица ЛХ(У) плюс шум равна Хт(У) = Е((ЛХ(У) + М) (ЛХ(У) + М)') = Х(У) + (1. '(10.12) Буквой Х обозначен вектор шума со спектральной плотностью (, а Х (У) определено в (10.10) .
Собственные векторы матрицы Хт ( У) идентичны собственным векторам матрицы Х(У), т. е. Ф; (10.11). Собственные значения р,(У) матрицы Хт(У) равны р. (У) = ~ (У) + (. '(10 13)' След1овательно, если свобод1ные от шума исход1ные данные имеют п0 доминирующих собственных значений и и — п0 несущественных, то зашумленные данные будут иметь такое же распределение собственных значений, каждое из которых лишь увеличивается на некоторую константу (. Это означает, что разность между собственными значениями с номерами п0 и п0+ 1 не изменяется. Обнаружение факта, что п0 собственных векторов яв- ЗОО гл.