Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 64
Текст из файла (страница 64)
При этом класс допустимых преобразований Г определим исходя из требований, что в качестве г<»> (Х) могут рассматриваться лишь представи- ззв тели набора исходных показателей, т. е. л (Х) = (х<'», х«», ..., х«>'>). Распространенным исходным тезисом при решении задачи выявлеиия наиболее информативных р' показателей из исходного набора х<'>, х<'>, ..., х<Я> является утверждение, что вектор показателей (х<* >, х<'*>, .... х~'>'») заданной размерности р' тем более информативен, чем больше различие в законах его вероятностного распределения, определенных в разных классах в рассматриваемой задаче классификации.
Если ввести меру попариого различия б «Р, (Е), Р, (Х)) законов Р>(Л),..., Рд (Е), описывающих распределение вероятиостеи вектора признаков Я -- (х<' >, ..., х<чс>) в классах с номерами 1, 2, ..., й, то можно формализовать вышеприведенный принцип отбора наиболее информативных показателей к<' >, ..., х я'>, определяя их из и > условия максимизации (по >„«'„..., „) величины « => Наиболее употребительные меры различия между законами распределения вероятностей б «Р<, Рт) — это расстояние информационного типа (расстояиие Кульбака, расстояние Махалаиобиса), а также «расстояние по вариацииз (подробнее об этом см. в «154, с.
76 — 84). 13.1.6. Отбор наиболее информативных переменных в моделях регрессии (см. !12, гл. 8)). При построении зависимостей регрессиоииого типа одним из центральных оказывается вопрос выявления сравнительно небольшого числа Р' переменных (из априорного набора х<'>, х<'>, ..., х<я>), наиболее существенно влияющих на поведение исследуемого результирующего призиака у.
Таким образом, как и в предыдущем пункте, класс Р состоит из всевозможных наборов переменных Я = (х<">, ..., х'>' ), отобранных из исходного множества факторов-аргументов х<'>, ..., х<ю, и имеем дело с критерием внешней ин<)>ормо>пианосп<и таких наборов. Его вид обычно задается с помощью множественного коэффициента детерминации Я;, (х<' >, ..., х я' ) — характеристики степени тесноты связи показателя у с набором переменных х<' >, ..., х йс . При этом «> для фиксированной размерности р' «- Р набор переменных х >>, ..., х <>' будет, очевидно, считаться наиболее информативным (с точки зрения точности описания поведения показателя у), если значение меры информативности на этом наборе достигает максимума.
337 13.1.7. Сведение нескольких частных критериальных показателей к единому интегральному (см. гл. 15). Речь идет о ситуациях, в которых «качество функционирования» ис. следуемой системы или объекта (предприятия, сложного изделия, отдельного специалиста и т.д.) характеризуется набором поддающихся измерению частных критериальных показателей х«'>, х~»~, ..., х<»>. Однако требуется перейти к некоторой не поддающейся непосредственному измерению склларной интегральной оценке у. При этом постулируется, что латентный показатель у является функцией известного общего вида от х~'>, ..., х<»~, т.
е. у = 1 (х<'>, ..., х<»~; Й), и требуется подобрать лишь неизвестное значение параметра (вообще говоря, векторного) 9. Лля решения этой задачи к зарегистрированной в результате контрольного обследования исходной статистической информации вида (13.1) приходится добавлять один из следующих вариантов экспертной информации о показателе у.
В а р и а н т 1: балльная оценка «выходного качества» у, т. е. значения уы, у»», ..., у„„экспертно оценивающие в определенной балльной шкале «выходное качество» 1-го, 2-го, ..., и-го объектов. В а р и а н т 2: ранжирование анализируемых объектов, т. е. их упорядочение по степени убывания «выходного качества» у; таким образом будем иметь ранги»1, = — (Йм), т.
е. порядковые номера объектов в этом упорядоченном ряду. В а р и а н т 3: результаты попарных сравнений анализируемых объектов по интересующему нас «выходному качеству» или результат разбиения контрольной совокупности объектов на группы, однородные с точки зрения «выходного качества»; и в том и в другом случае экспертные данные могут быть представлены с помощью булевой матрицы Г = =(ум»), —,„, где у~;, — — 1, если О, не хуже Ол у;, = О в противном случае.
Алгоритмы определения неизвестного параметра 9 используют в качестве исходной статистическую информацию (13.1), дополненную одним из вариантов экспертной информации (поэтому метод называется экспертно-статистическим), и построены на следующей идее. Если было бы известно значение параметра 6, можно было бы вычислить значение целевой функции ) (х~'>, „хоп; 6) для каждого из контрольных объектов и определить с помощью этой целевой функции и балльные оценки (' (х«»>, .... х"ч; 8), н ран- ззз гн тг(й) = (Я; (8)),,— „, н матрицу парных сравнений Г(6) =- (ум(6)), 1,1=!, и. Поэтому если хотим формализовать с помощью целевой функции ) (Х; 6) экспертные крнтернйные установки, в соответствии с которыми формируется единый интегральный показатель «выходного качества» у, естественно подчинить алгоритм поиска параметра 6 оптимизационному критерию вида Г,(г(Х, В))= гГ л 1-1 ~1+ ~ (Уы — Г(х)", ..., х)Рь, 6))з~ в ваРианте 1; г=~ = «гЯ„Я(9)) в варианте 2; И 1 — 1 1+ ~)у„, .у„(Е)(~ в варианте 3 1 ! (здесь под г (3, 9 подразумевается коэффициент ранговой корреляции Спнрмэна между ранжнровками 5 н ф.
Разработаны алгоритмы и программы, позволяющие вычислять 9 в задаче максимизации критерия 1, (У (Х; 9)) для всех трех вариантов (см. гл. 15). 13.2. Определенне, вычисление н основные числовые характеристики главных компонент Во многих задачах обработки многоме(уных наблюдений н, в частности, в задачах классификации исследователя интересуют в первую очередь лишь те признаки, которые обнаруживают наибольшую изменчивость (нанбольшнй разброс) прн переходе от одного объекта к другому. С другой стороны, не обязательно для описания состояния объекта использовать какие-то из исходных, непосредственно замеренных на нем признаков.Так, например, для определения специфики фигуры человека прн покупке одежды достаточно назвать значения двух признаков (размер— рост), являющихся производными от измерений ряда параметров фигуры.
Прн этом, конечно, вверяется какая-то доля информации (портной измеряет до одиннадцати параметров на клиенте), как бы огрубляются (при агрегировании) получающиеся прн этом классы. Однако, как показали исследо- вания, к вполне удовлетворительной классификации людей с точки зрения специфики их фигуры приводит система, использующая три признака, каждый из которых является некоторой комбинацией от большого числа непосредственно замеряемых на объекте параметров. Именно эти принципиальные установки заложены в сущность того линейного преобразования исходной системы и ризнаков, которое приводит к главным компонентам.
Формализ> ются же эти установки следующим образом. Следуя общей оптимизационной постановке задачи снижения размерности (13.2) и полагая анализируемый признак Х р-мерной случайной величиной с вектором средних значений р = (рм>, ..., Р>р>) и ковариационной матрицей л = (о„) (>, 1' = 1, 2, ..., р), вообще говоря, неизвестными, определим меру (критерий) информативности 7р' (2) вспомогательной р'-мерной системы показателей Л = (гм>, ..., го'>) с помощью (13.4), а класс допустимых преобразований — в виде (13.3).
Тогда при любом фиксированном р' =— =1, 2, ..., р вектор искомых вспомогательных переменных Я (Х) = (г<'> (Х), ..., г>р'>(Х))' определяется как такая линейная комбинация 2= $.Х (где матрица =(," .';.') (13.6) а ее строки удовлетворяют условию ортогональностя), что /р.(г>м (Х),, г>р'>(Х)) = шах 1р (Е(Х)). г<х>ее Полученные таким образом переменные гм> (Х), гы> (Х) и называют главными компонентами вектора Х. Поэтому можно дать следующее определение главных компонент. Первой главной компонентой г" >(Х) исследуемой системы показателей Х = (х»>, ..., х>р>)' называется такая нормированно-центрированная линейная комбинация этих показателей, которая среди всех прочих нормированно-центрированных линейных комбинаций переменных х~'>„...
„х<р> обладает наибольшей дисперсией. й-й главной компонентой (й = 2, 3, ..., р) исследуемой системы показателей Х = (хм>, ... х1Р>)' называется такая ! 0(1! Х)-<-<пах; 1<!! = 1, (13.7» где 1, — первая строка матрицы Е (см. (13.6)). Учитывая центрированность переменной Х (т. е. ЕХ =- 0) и то, что Е (ХХ') = Х, имеем 1» (1, Х) = Е (1, Х)' = Е (1, ХХ' 1() = 1, Х(;. 34! нормированно-центрированная линейная комбинация этих показателей.
которая не коррелирована с й — ! предыдущими главными компонентами и среди всех прочих нормярованно-центрированных и не коррелированных с предыдущими й — ! главными компонентами линейных комбинаций переменных х<'<, ..., х<е! обладает наибольшей дисперсией. 3 а м е ч а н и е ! (переход к центрированным переменным). Поскольку, как увидим ниже, решение задачи (а именно вид матрицы линейного преобразования 1.) зависит только от элементов ковариационной матрицы Х, которые в свою очередь не изменяются при замене исходных переменных х<<! переменными х<л — со! (со! — произвольные постоянные числа), то в дальнейшем будем считать, что исходная система показателей уже центрироеани, т.