Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 30
Текст из файла (страница 30)
выбирать о>„пропорционально величине средне- квадратической ошибки признака х<ы 11381 либо пропорционально обратной величине среднеквадратнческой ошибки этого же признака 1332, 72, 330!. Хеммингово расстояние. Используется как мера различия объектов, задаваемых дихотомическими признаками. Оно задается с помощью формулы и, следовательно, равно чисчу ты несовпадений значений соответствующих признаков в рассматриваемых 1-м и 1см объектах. Другие меры близости для дихотомических признаков.
Меры близости объектов, описываемых набором дихотомических признаков, обычно основаны на характеристиках тн, т<о> и тц т„ -+ т„, где т„ (то ) — число нулевым <о> <»,<о> <»,<о> <» (единичных) компонент, совпавших в объектах Х, и Хв Так, например, если из каких-либо профессиональных соображений или априорных сведений следует, что все р признаков исследуемых объектов можно считать равноправными, а эффект от совпадения или несовпадения нулей такой 149 же, что и от совпадения или несовпадения единиц, то в качестве меры близости объектов Х«н Х» используют величину г(Х» Хз) =- Р Весьма полный обзор различных мер близости объектов, описываемых днхотомическими признаками, читатель найдет в (136, 291. Меры близости н расстояния, задаваемые с помощью потенциальной функции.
Во многих задачах математической статистики, теории вероятностей, физической теории потенциала и теории распознавания образов, или классификации многомерных наблюдений, оказываются полезными некоторые специально устроенные функции К(Х, У) от двух векторных переменных Х и У, а чаще всего просто от расстояния д (Х, У) между этими переменными, которые будем называть потенциальными '. Так, например, если пространство Па(Х) всех мыслимых значений исследуемого вектора Х разбито на полную систему непересекающихся односвязных компактных множеств нли однородных классов 5» ..., 5а и потенциальная функция К (Х, г') определена для Х Е Па (Х) и 1'Е Па (Х) следующим образом: „,, (1, ХЕЗ,, 1'ЕЗ,(1=1,2, ...,й), 10 в противном случае, то с помощью этой функции удобно строить обычные эмпирические гистограммы (оценки плотноспг распределения ~„(У)) по имеющимся наблюдениям Х,, Х„..., Х„.
Действительно, легко видеть, что л Х((У) = ' У К(и, Х,) = ""', (б.1) 1«»(8» 00).и « ° ~1 и1Р(82 Ш>) где т (У) — число наблюдений, попавших в класс Злим содержащий точку У, а Яу(5;ио) — объем области Зло> (геометрическая интерпретация для одномерного случая показана на рнс. 5.1). Если в исследуемом факторном пространстве Па(Х) задана метрика Й (У, )Г), то можно не связывать себя за- ' В некоторых работах можно встретить. по существу, те же функции, но под другим названием, например елпдож — «окно» !280, 2901, Определение «потенциальные функции» обосновываетсн тем, что примером подобных зависимостей в физике является потенциал, определенный для любой точки пространства, но зависящий от того, где расположен источник потенциала.
ранее зафиксированным разбиением Па(Х) на классы, а задавать К (У, а) как монотонно убывающую функцшо расстояния << (У, т'). Например, К(У, )<)=е-ал <и,т<, а~0; К(У, 'т')=(1+а<(а(У, )<))-<, а)0. (5.2) Приведем здесь еще лишь одну достаточно общую форму связи между «(У* и) и К (У )<), в которой расстояние <( 8- 8 4 на "н "< Рис 6.1. Гистограмма Ь(О), построенная с попон<а<о разбиения иа группы выборочной олнонериой соаоиупиости Хо ..., Х» выступает как функция некоторых значений потенциальной функции К': <((У )г) =)' А(У У)+К(и, )<) — 2К(У, (Г) (53) В частности, выбРав в качестве К (У, Р) скаляр пр наведение векторов У н 'и', т.
е. положив К(У, )<)=(У, Р)= ~ «<оп«1, почучим по Формуле (5.3) обычное евклидово расстояние (в. Легко понять, что и в случае задания поте нои функции в виде соотношений (5.2) формулы (5 1) 3 Я строить статистические оценки плотности распределения (5,1), хотя график функции <, (У) будет уже не ступенчатым, а сглаженным. При отсутствии метрики в пространстве Па(Х) функции К (У, р) могут быть использованы в качестве меры близости объектов У и (г, а также объектов и це- 15< лых классов и классов между собой.
В первом случае эта мера позволяла получить лишь качественный ответ: объекты близки, если (l и $' принадлежат одному классу, и объекты далеки — в противном случае; в двух других случаях мера близости является количественной характеристикой. О физически содержательных мерах близости объектов. В некоторых задачах классификации объектов, не обязательно описываемых количественно, естественнее использовать в качестве меры близости объектов (или расстояния между ними) некоторые физически содержательные числовые параметры, так или иначе характеризующие взаимоотношения между объектами. Примером может служить задача классификации с целью агрегирования отраслей народного хозяйства, решаемая на основе матрицы межотраслевого баланса (97). Таким образом, классифицируемым объектом в данном примере является отрасль народного хозяйства, а матрица межотраслевого баланса представлена элементами з», где под з» подразумевается сумма годовых поставок в денежном выражении >-й отрасли в (-ю.
В качестве матрицы близости (г») в этом случае естес>некиоо взять, например, симметризованную нормированную матрицу межотраслевого баланса. При этом под нормировкой понимается преобразование, при котором денежное выражение поставок из >хи отрасли в (-ю заменяется долей этих поставок по отношению ко всем поставкам >сй отрасли. Симметризацию же нормированной матрицы межотраслевого баланса можно проводить различными способами. Так, например, в (97! близость между (-й и (-й отраслями выражается либо через среднее значение их взаимных нормированных поставок, либо через комбинацию из их взаимных нормированных поставок. О мерах близости числовых признаков (отдельных факторов).
Решение задач классификации многомерных данных, как правило, предусматривает в качестве предварительного этапа исследования реализацию методов, позволяющих существенно сократить размерность исходного факторного пространства, выбрать из компонент х<», ..., хш> наблюдаемых векторов Х сравнительно небольшое число наиболее существенных, наиболее информативных. Для этих целей бывает полезно рассмотреть каждую из компонент х<», ..., х»'> в качестве объекта, подлежа>цего классификации. Дело в том, что разбиение признаков х<'>, ..., хш> на небольшое число однородных в некотором смысле групп позволит исследователю сделать вывод, что компоненты, входящие в одну группу, в определенном смысле сильно связаны друг с другом и несут информацию о каком-то одном свойстве ис- 6.3. Расстояние между классами и мера близости классов При конструировании различных процедур классификации (кластер-процедур) в ряде ситуаций оказывается целесооб- разным введение понятия расстояния между целыми груп- пами объектов, так же как и понятия меры близости двух групп объектов.
Приведем примеры наиболее распростра- ненных расстояний и мер близости, характеризующих взаим- ное расположение отдельных групп объектов. Пусть 5»вЂ” »'-я группа (класс, кластер) объектов, нз — число объектов, образующих группу 5;, вектор Х([) — среднее арифметиче- ское векторных наблюдений, входящих в 5» (другими слова- ми, Х ([) — «центр тяжести»»ьй группы), а р (5ь 5,„) — рас- стояние между группами 5» и 5 Ниже приводятся наиболее употребительные и наиболее общие расстояния и меры близости между классами обьек- тов. Расстояние, измеряемое по принципу «ближнего соседа» («пеагез[ пе[дЬЬопг») Р,„(5ь 5,„)== ш1п й(Х;, Хэ).
хгв яг хуез», Расстояние, измеряемое по принципу «дальнего соседа» [«[пг[Ьез[ пе[дЬЬопг») [262, 224) р,„(5ь 5 )= шах И[Хо Хт). х,езг х ез Расстояние, измеряемое по «центрам тяжести» групп [262, 224[ р(5ь 5 )= «[(Х(»), Х(п»)). (6.6) (6.6) 153 следуемого объекта. Следовательно, можно надеяться, что не будетбольшогоущерба в информации, если для дальнейшего исследования оставим лишь по одному представителю от каждой такой группы. Чаще всего в подобных ситуациях в качестве мер близости между отдельными признака»«и х(о и хш, так же как и между наборами таких признаков, используются различные характеристики степени их коррелированности и в первую очередь коэффициенты корреляции.