Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 31
Текст из файла (страница 31)
Проблеме сокращения размерности анализируемого признакового пространства специально посвящен раздел 111 книги. Более подробно вопросы построения и использования расстояний и мер близости между отдельными объектами рассмотрены в [136, 288, 296, 291. Мера близости групп, основанная иа потенциальной функции [57) г(Зь Я„) = — ~~)', ~ К(Хп Хт). к,ез~ хзезщ Расстояние, измеряемое по принципу середней связи» . Определяется (262, 224! как арифметическое среднее всевозможных попарных расстояний между представителями рассматриваемых групп, т. е.
р,„(ль Ю„) —,')' ')' й (Х„Х,). (5.7) х,ел~ хзез,„ Естественно задать вопрос; нельзя ли получить достаточно общую формулу, определяющую расстояние между классами по заданному расстоянию между отдельными элементами (наблюдениями), которая включила бы в себя в качестве частных случаев все рассмотренные выше виды расстоянийр Изящное обобщение тако~о рода, основанное на понятии так называемого «обобщенного среднего», а точнее, степенного среднего, было предложено А. Н. Колмогоровым. Под обобщенным средним величин с„с„, ..., сл понимается вы- % ражение вида Ма (с„с„..., сх) = Р-'( — Х Р (с;)), в кото- М 1=1 ром Р (и) — некоторая функция и соответственно Р-'— преобразование, обратное к Р.
Частным случаем обобщенного среднего является стеленное среднее, определяемое как 1 Л М, (с„с„..., пх) = ~ — '~' с,'~ 1 =" ! Нетрудно показать, что (при с~ ) О, 1' = ), 2, ..., Ж) М (с сз ... сл) = пип (с1)' 1~1КН М, (с„с„..., сл)= 1пах (с1); 1~1~л / %,1/л М»(см с», ..., сл) = ~ П гп — геометрическое среднее; ~=1 Ф М, (п„с„..., си) = — ~~~~ с; — арифметическое среднее. ! '154 Обобщеииое (по Колмогорову) расстояиие между класса- ми, или обобщеиное К-расстояние, вычисляется по формуле 1 Р1к1(5~5 ) =- ~ — У У «(«(Хь Хт) ° (8.8) ~ юп, х;бз~ х ез,„ В частности, при т -~ оо и при т-«- — оо имеем Р1к1(5, 5 ) Р,„(5, 5„) Р1к1(5, 5 ) Р м(5, Очевидно также Р1к1(5, 5 ),Рщ(5, Из (5.8) следует, что если 5 (т, д) = 5 () 5« — группа элементов, полученная путем объединения кластеров 5 и 5«, то обобщенное К-расстояние между кластерами 5, и 5 (т, д) определяется формулой Р1«(5 5 (гл Ч)) э,' '(в.
~)Г-~",Ы '(Яь Я,)1~ * и„,+и« Понятие расстояния между группами элементов особен- но важно в так называемых агломерптивных иерархических кластер-процедурах, поскольку принцип работы таких ал- горитмов состоит в последовательном объединении эле- ментов, а затем и целых групп, сначала самых близких, а потом все более и более отдаленных друг от друга. Подробнее об агломеративных иерархических процедурах см.
в гл. 8. Учитывая специфику подобных процедур, для задания расстояния между классами оказывается достаточ- ным определить порядок пересчета расстояния между клас- сом 5, и классом 5 (т, д) == 5 0 5, являющимся объеди- нением двух других классов 5 и 5, по расстояниям р~ = Р (5ь 5 ), Р,д --- —.
Р (5ь 5«) и Рт« —— Р (5, 5 «) между этими классами. В !255) предлагается следующая общая формула для вычисления расстояния между некоторым классом 5, и классом 5 (т, д): Р~1~,«>=Р(5ь 51т, Ч))=барм+(1РМ-Ртр,+ + 81Р— РИ ~, (5.9) где ««, (), у и б — числовые коэффициенты, значения которых и определяют специфику процедуры, ее нацеленность на ре- шение той или иной экстремальной задачи. Так, например, полагая а = р = — — 6 = — и у = О, приходим к расстоя- 1 2 нию, измеряемому по принципу «ближайгпего соседам Если 1ЗЗ 1 же положить а = р =- 5 = — и у = О, то расстояние между 2 двумя классами определится как расстояние между двумя самыми далекими элементами этих классов, по принципу «дальнего соседа».
И наконец, выбор коэффициентов соотношения (5.9) по формулам а= —, р= л,п лл у=-5== О л и+ ип и,и+ ля пг+ п,п р л~+ пл Р! оп. м = рьл + Ры— и~+и,„+ил и~+и„,+ил л~ 2 ржи~ и~+ли,+ил (5.10) то соответствующий агломеративный иерархический алгоритм обладает тем свойством, что на каждом шаге объединение двух классов приводит к минимальному увеличению общей суммы квадратов расстояний между элементами внутри классов.
Отметим сразу, что такая пошаговая оптимальность алгоритма в указанном смысле, вообще говоря, не влечет его оптимальности в том же смысле для любого наперед заданного числа классов, на которые требуется разбить исходную совокупность элементов. Функционалы качества разбиения на классы и экстремальная постановка задачи кластер-анализа. Связь с теорией статистического оцениваиия параметров 5.4. Естественно попытаться определить сравнительное качество различных способов разбиения заданной совокупности элементов на классы, т. е. определить тот количественный критерий, следуя которому можно было бы предпочесть од- приводит к расстоянию р,р между классами, вычисленному как среднее из расстояний между всеми парами элементов, один из которых берется из одного класса, а другой- — из другого.
То, что формула для ри,, и, в частности, выбор коэффициеитов а, (), у и 6 в этой формуле зачастую определяют нацеленность соответствующей агломеративной иерархической процедуры на решение той или иной экстремальной задачи, т. е. в каком-то смысле определяет ее оптимальную критерийнуЮ установку, поясняет, например, следующий результат [33!!. Оказывается, если для вычисления р~ < ч~ воспользоваться следующей модификацией формулы (5.9): но разбиение другому. С этой целью в постановку задачи кластер-анализа часто вводится понятие так называемого функционала качества разбиения (~ (5), определенного на множестве всех возможных разбиении. Функционалом он называется потому, что чаще всего разбиение 5 задается, вообще говоря, набором дискриминантных функций б, (Х), б, (Х), .... Тогда под наилучшим разбиением 5* понимается то разбиение, на котором достигается экстремум выбранного функционала качества.
Выбор того или иного функционала качества, как правило, осуществляется весьма произвольно и опирается скорее на эмпирические и профессионально-интуитивные соображения, чем на какую-либо строгую формализованную систему. Приведем примеры наиболее распространенных функционалов качества разбиения и попытаемся обосновать выбор некоторых из них в рамках одной из моделей статистического оценивания параметров. 6.4.1. Функционалы качества разбиения при заданном числе классов. Пусть исследователем уже выбрана метрика «( в пространстве П» (Х) и пусть 5 = (5,, 5„..., 5») — некоторое фиксированное разбиение наблюдений Х„Х», Х„на заданное число й классов 5„5.„..., 5„.
За функционалы качества часто берутся следующие характеристики: сумма («взвеи«синая») внутриклассовых дисперсий » Я!(5) = ~~~~ ~ч'„«Р(Х1,Х(Е)), (6.11) 1= ! К!Ел! весьма широко используется в задачах кластер-анализа в качестве критерийной оценки разбиения [268); сумма попарных внутриклассовых расстояний между элементами » (),(5) = ~ ~ й*(Х„Х,) 1= 1Х1 Х!ЕЗ1 либо ();(51=,')', —,')'„й (Х«, Х,), 1=- ! Х1, Х1Е З1 в большинстве ситуаций приводит к тем же наилучшим разбиениям, что и с(! (5), и тоже используется для сравнения кластер-процедур [228); обобщенная внутриклассовая дисперсия (е» (5) является, как известно [16, с.
231), одной из характеристик степени 157 рассеивания многомерных наблюдений одного класса (генеральной совокупности) около своего «цеитра тяжести». Следуя обычным правилам вычисления выборочной ковариационной матрицы Фь отдельно по наблюдениям, попавшим в какой-то один класс 5ь получаем (6.12) где под де( А понимается «определитель матрицы А», а элементы ш (() выборочной ковариационной матрицы %, класса 5, подсчитываются по формуле ш „(1) = — ~~~~~ (х)«> — х1«1 (1)) (х,'"'1 — х' 1(У)), д, т= х,ез, =1,2, „р, (5.13) где х';"' — т-я компонента многомерного наблюдения Х„ а х1ю/(1) — среднее значение ъ-й компоненты, подсчитанное по наблюдениям 1-го класса. Встречается и другой вариант использования понятия обобщенной дисперсии как характеристики качества разбиения, в котором операция суммирования %, по классам заменена операцией умножения Я,(5) = П (пег%)"' Как видно из формул (3.12) и (3.13), функционал Я, (5) является средней арифметической (по всем классам) характеристикой обобщенной внутриклассовой дисперсии, в то время как функционал Я, (5) прпворционален средней геометрической характеристике тех же величин.
Использование функционалов Я«(5) и Я (5) является особенно уместным в ситуациях, при которых исследователь в первую очередь задается вопросом: не сосредоточены ли наблюдения, разбитые на классы 5„5„..., 5ю в пространстве размерности, меньшей, чем рр 3 а м е ч а н и е. При теоретико-вероятностной модификации схем кластер-анализа соответственно видоизменится запись приведенных выше функционалов. Так, например, Ж(5)= ~~ (Н(Х, Х(1))Р(1(Х), 1~ 188 где или ь ()~(5)= ~ ~ ~ ~сР(Х, К) Р(АХ) РИУ), (5.14) 5.4.2, Функционалы качества разбиения при неизвестном числе классов. В ситуациях, когда исследователю заранее не известно, на какое число классов подразделяются исходные многомерные наблюдения Х,, Х„..., Х,„, функционалы качества разбиения Я(5) выбирают чаще всего в виде простой алгебраической комбинации (суммы, разности, произведения, отношения) двух функционалов 1, (5) и 1з (5), один из которых 1, является убывающей (невозрастающей) функцией числа классов й и характеризует, как правило, внутриклассовый разброс наблюдений, а второй 1, — возрастающей (неубывающей) функцией числа классов й.