Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 63
Текст из файла (страница 63)
ВЫВОДЫ Е Задача оценки качества группировки и ее интерпретации носит комплексный характер и основывается на использовании совокупности большого числа характеристик, отра- 330 жающих компактность групп, их взаимное расположение и распределение объектов в группах. Весьма важным, если не основным, является использование содержательных сообран~ений. 2. В качестве средств, позволяющих оценить качество полученной группировки, полезными являются критериальные величины, характеристики компактности классов, визуальный анализ отображений на плоскости, образованные главными компонентами и факторными осями, осями, получаемыми в анализе соответствий, и особенно каноническими дискриминантными направлениями.
3. Процедуры классификации целесообразно проводить несколько раз, меняя метрики, число классов и другие пара. метры настройки. 4, Основной подход к интерпретации полученных групп основан на использовании статистических характеристик внутригрупповых распределений. Полезным приемом является использование дискриминантного анализа и иллюстративных переменных. Раздел 111.
СНИЖЕНИЕ РАЗМЕРНОСТИ АНАЛ ИЗИ РУЕМОГО П РИ 3 НА КО ВО ГО ПРОСТРАНСТВА И ОТБОР НАИБОЛЕЕ ИНФОРМАТИВНЫХ ПОКАЗАТЕЛЕЙ Глава !3. МЕТОД ГЛАВНЫХ КОМПОНЕНТ Сущность проблемы снижения размерности и различные методы ее решении В исследовательской и практической статистической работе приходится сталкиваться с ситуациями, когда общее число р признаков х<ч, х~'>, ..., х<е1, регистрируемых на каждом из множества обследуемых объектов (стран, городов, предприятий, семей, пациентов, технических или зкологических систем), очень велико — порядка ста и более. Тем не менее имекяциеся многомерные наблюдения х'" 1 х,'*' Х~ = .', 1=1, 2, ..., и, (13.1) х!ю следует подвергнуть статистической обработке, осмыслить либо ввести в базу данных для того, чтобы иметь возможность их использовать в нужныи момент.
Желание статистика представить каждое из наблюдений (13.1) в виде вектора г некоторых вспомогательных показателей гы>, г~ч, ..., г!ез с существенно меньшим (чем р) числом компонент р'бывает обусловлено в первую очередь следующими причинами: необходимостью наглядного представления (визуализации) исходных данных (!3.!), что достигается их проецированием на специально подобранное трехмерное пространство (р' = 3), плоскость (р'= 2) или числовую прямую (задачам такого типа посвящен раздел 1Ъ'); стремлением к лаконизму исследуемых моделей, обусловленному необходимостью упрощения счета и интерпретации полученных статистических выводов; необходимостью существенного саглипия объемов хранимой статистической информации (без видимых потерь в ее информативности), если речь идет о записи и хранении массивов типа (13.!) в специальной базе данных.
332 При этом новые (вспомогательные) признаки г<'<, г<'>, ..., г<»ч мокнут выбираться из числа исходных или определяться по какому-либо правилу по совокупности исходных признаков, например как их линейные комбинации. При формировании новой системы признаков к последним предъявля. ются разного рода требования, такие, как наибольшая информативность <в определенном смысле), взаимная некоррелированность, наименьшее искажение геометрической структуры множества исходных данных и т.
п. В зависимости от варианта формальной конкретизации этих требований (см. ниже, а также раздел (Ъ') приходим к тому или иному алгоритму снижения размерности. Имеется, по крайней мере, три основных типа принципиальных предпосылок, обусловливающих возможность перехода от большого числа р исходных показателей состояния (поведения, эффективности функционирования) анализируемой системы к существенно меньшему числу р' наиболее информативных переменных. Зто, во-первых, дублирование информации, доставляемой сильно взаимосвязи ными признаками; во-вторых, не- информативность признаков, мало менякхцихся при переходе от одного объекта к другому (малая «вариабельиость» признаков); в-третьих, вазможность агрегирования, т.
е. простого или «взвешенного» суммирования, по некоторым признакам. Формально задача перехода (с наименьшими потерями в информативности) к новому набору признаков г<'>, г<»>, ...„г<»э может быть описана следующим образом. Пусть Л = г (Х) — некоторая р-мерная вектор-функция исходных переменных х<'<, х<»<, ..., хио (р' 4 р) и пусть 1 (Л(Х)) — определенным образом заданная мера информативности р'-мерной системы признаков Л (Х) = (г<'>(Х), ..., г<»ч (Х)). Конкретный выбор функционала 1» (Л) зависит от специфики решаемой реальной задачи и ойирается на один из возможных критериев: критерий автоинформшпивности, нацеленный на максимальное сохранение информации, содержащейся в исходном массиве (Х,), —,„относительно самих исходных признаков; и критернй внешней информативности, нацеленный на максимальное «выжимание» из (Х<),=< —,„информации, содержащейся в этом массиве относительно некоторых других (внешних) показателей.
Задача заключается в определении такого набора признаков 2, найденного в классе Г допустимых преобразований исходных показателей х«>, ..., х<»', что 1р <(2(Х))=шах(7» (2(Х))). хее Тот илн иной вариант конкретизации этой постановки (определяющнй конкретный выбор меры информативности Рр (Я) н класса допустимых преобразований) приводит к конкретному методу снижения размерности: к методу главных компонент, факторному анализу, экстремальной группировке параметров н т. д.
Поясним это на примерах. 13.1.1. Метод главных компонент (см. $13.2 — $13.6). Именно к р' первым главным компонентам придет исследователь, если в качестве класса допустимых преобразований Г определит всевозможные линейные ортогональные нормированные комбинации исходных показателей, т.
е. з»>(Х) =- сн (х>» — н>»)+ ... +с> (х>Р> — ры>); (13.3) (здесь >>'т> = Ех<"> — математическое ожидание х>">), а в качестве меры информативности р'-мерной системы показателей (з»> (Х), ..., гвг> (Х)) выражение 1 ° (Е (Х)) = >>т" >+... + 1>х>»> (здесь 1», как и ранее, знак операции вычисления дисперсии соответствующей случайной величины). 13.1.2. Факторный анализ (см.
гл. 14). Как известно (см. $ !4.1), модель факторного анализа объясняет структуру связей между исходными показателями х»>, ..., хы> тем, что поведение каждого нз них статистически зависит от одного н того же набора так называемых оби(их факи>оров ум>, ..., увг>, т. е. х>л )»и> = ч~~ >у у> '>+им> (1 1, 2, ..., р), »=1 где >)„— «нагрузка» общего фактора уГ"> на исходный показатель х»>, а и»> — остаточная»специфическая» случайная компонента, причем Еу<'> = О, Еи>п = О, Оу<'> = 1 н у>», ..., у~Р>', им>, ..., и<Р> — попарно некоррелированы. Оказывается, если Г определить как класс всевозможных линейных комбинаций х>»>, ..., хон с учетом упомянутых пг- 334 раннченнй на у<">, а в качестве меры информативности рмерной системы показателей выбрать величину 1г (Х (Х))= = 1 — Ц Кх — К-~<', то решение оптимизационной задачи (13.2) совпадает с вектором общих факторов (у<'>,..., У<рч) в модели фактоРного анализа.
Здесь Кх — коРРелЯ- цнонная матрица исходных показателей х«<, „х<Р), К2— Р' корреляционная матрица показателей х<п = ~~г ~<)т, у<">, У=! а )<А<< — евклидова норма матрицы А. 13.1.3. Метод экстремальной группировки признаков (см. п. 14.2.!). В данном методе речь идет о таком разбиении совокупности исходных показателей х«<, ..., х<м на заданное число р' групп 5„..., 5 р, что признаки, принадлежащие одной группе, были бы взанмокоррелнрованы сравнительно сильно, в то время как признаки, принадлежащие к разным группам, были бы коррелнрованы слабо. Одновременно решается задача замены каждой (<-й) группы сильно взанмокоррелнрованных исходных показателей одним вспомогательным «равнодействующим» показателем го>, который, естественно, должен быть в тесной корреляционной связи с признаками своей группы.
Определив в качестве класса допустимых преобразований г исходных показателей все нормированные ()уз<о = 1) линейные комбинации х«<, ..., х<м, ищем решение (я, ..., Зр, э<'<, ..., а<рч), макснмнзируя (по 3 и Е (Х)) функционал + ~ гэ(х<ь», г<Рч), «<мезр где г (х, г) — коэффициент корреляции между переменными хна. 13.1.4.
Многомерное шкалирование (см. гл. 1Б). В ряде ситуаций н в первую очередь в ситуациях, когда исходные статистические данные получают с помощью специальных опросов, анкет, экспертных оценок„возможны случаи, когда элементом первичного наблюдения является не состояние <ь го объекта, описываемого вектором Х„а характеристика ры попарной близости (отдаленности) двух обьектов (нлн признаков) соответственно с номерамн < и). В этом случае исследователь располагает в качестве массива исходных статистических данных матрнцей размера пХп (если рассматриваются характеристики попарной бли- засти объектов) или рХр (если рассматриваются характеристики попарной близости признаков) вида р=(рм), <, 1=1, 2, ..., т, т=а или т=-р, (13.5) где величины р;, интерпретируются либо как расстояния между объектами (признаками) < и 1, либо как ранги, задающие упорядочение этих расстояний.
Задача многомерного шкалирования состоит в том, чтобы «погрузить» наши объекты (признаки) в такое р'-мерное пространство (р'(Сш)п (р, н)), т. е. так выбрать координатные оси Ог<'>, ..., Ог<»'>, чтобы исходная геометрическая конфигурация совокупности анализируемых точек-объектов (или точек-признаков), заданных с помощью (13.1) или (13,5), оказалась бы наименее искаженной в смысле некоторого критерия средней «степени искажения» Л (Е) взаимных попарных расстояний.
Одна из достаточно общих схем многомерного шкалировання определяется критерием 5(2) = ~ $~ <(;(г) — <(<; 1», <,у=> где Иы — расстояние между объектами О, и О„в исходном пространстве, Н„. (Е) — расстояние между теми же объектами в искомом пространстве меньшей размерности р', а а и р — свободные параметры, выбор конкретных значений которых производится по усмотрению исследователя, Определив меру информативности искомого набора признаков 2, например, как величину, обратную упомянутой выше величине степени искажения геометрической структуры исходной совокупности точек, сведем эту задачу к общей постановке (13.2), полагая 13.1.5. Отбор наиболее информативных показателей в моделях дискриминантного анализа (см.
21А; 2.5). Приведенные выше функционалы являются измерителями автоинформативности соответствующей системы признаков. Приведем теперь примеры критериев внешней информативности. В частности, нас будет интересовать информативность системы показателей г<'>(Х), ..., г<е'> (Х) с точки зрения правильности классификации объектов по этим показателям в схеме дискриминантного анализа.