Теория статистических решений
Власов М. П.
конспект лекций по дисциплине
Компьютерные методы статистического анализа и прогнозирование
ТЕМА 8 Классификация
Содержание
стр.
1. Классификация ………………….……………….…………………… 2
2. Классификация многомерных наблюдений …………...…………… 6
3. Автоматическая классификация ………………...………..…………. 9
Рекомендуемые материалы
4. Дискриминантный анализ ………………………………………….. 13
5. Таблица сопряженности и анализ соответствия .…………………. 16
Тема 9 Теория статистических решений
1. Теория статистических решений ……………….…………………… 25
2. Метод статистических испытаний …………………..……………… 31
Санкт-Петербург 2008
1. Классификация
Классификация заключается в разделении множества объектов технико-экономической и социальной информации на подмножества по их сходству или различию в соответствии с принятыми методами, обеспечивающими систематизацию объектов классификации по определенным выбранным признакам (свойства, характеристики или параметры объектов). Количество значений признака определяет число образуемых классификационных группировок по этому признаку. Для классификации продукции используются, например, следующие признаки: отраслевая принадлежность, назначение, область применения, принцип действия, конструктивные особенности, используемый для изготовления способ и материал. В частности, в Общероссийском классификаторе продукции (ОКП) трубы стальные классифицируются по способу изготовления — тянутые, сварные, центробежнолитые и др.; по назначению — водогазопроводные, нефтепро-водные, подшипниковые и др; по виду материала — нержавеющие, углеродистые, эмалированные; по размеру—диаметром 1020,1220, 1420 мм и др.
Для описания процесса классификации информации используются следующие термины и определения понятий: Система классификации — совокупность методов и правил классификации и ее результат. Объект классификации — элемент классифицируемого множества. Признак классификации — свойство или характеристика объекта, по которому производится классификация. Ступень классификации — этап классификации при иерархическом методе, в результате которого получается совокупность классификационных группировок. Глубина классификации — число ступеней классификации, которое зависит от степени конкретизации группировок и числа признаков, необходимых для решения конкретных задач. Группировка классификационная — подмножество объектов, полученное в результате классификации. Методы классификации подразделяются на иерархический и фасетный.
Иерархический метод классификации — последовательное разделение множества объектов на подчиненные классификационные группировки. В этом методе множество объектов делится сначала по некоторому выбранному признаку (основанию деления) на крупные группировки, затем каждая из этих группировок делится на ряд последующих группировок по другому признаку, конкретизируя объект классификации. Таким образом между классификационными группировками устанавливается иерархия (подчиненность). Фасетный метод классификации — параллельное разделение множества объектов на независимые классификационные группировки. В этом методе классификационное множество объектов информации описывается набором независимых фасетов (списков), не имеющих жесткой взаимосвязи друг с другом, которые можно использовать отдельно для решения различных задач. Например, в Общероссийском классификаторе информации о населении (ОКИН) используются следующие фасеты: пол, возраст, гражданство, национальность, язык, родство и др.
И так классификация заключается в разбиении множества на классы (подмножества) с целью выявления его структуры, изучения связей его элементов (главным образом, на основе выявления их сходства/различия); при этом под классификацией понимают как саму указанную процедуру, так и её результат, т. е. представление исходного множества через объединение его подмножеств. Эта процедура равносильна заданию на исходном множестве отношения эквивалентности (два элемента множества находятся в отношении эквивалентности тогда и только тогда, когда принадлежат одному классу). В таком случае получается строгая классификация:
· объединение классов совпадает с исходным множеством;
· выделенные классы не пересекаются;
· среди них нет пустых.
Иначе говоря, каждый элемент попадает в какой-либо класс, никакой элемент не попадает хотя бы в два класса и в каждом классе содержится хотя бы один элемент. Формально: пусть — исходное множество, — его классы, — число классов, так что i = l, 2, ..., . Тогда , причём при и для каждого .
Процесс классификации может быть продолжен, если процедура классификации применяется хотя бы к некоторым классам . Тогда получается многоуровневая иерархия: исходному множеству соответствует 0-й уровень, классам, которые получены его разбиением, — 1-й, далее образуются классы 2-го уровня и т. д.
Формирование классов производится по какому-либо содержательному признаку, называемому основанием классификации (например, семьи можно классифицировать по душевому доходу). Для классов одного уровня основание классификации должно быть общим, хотя иногда встречаются нарушения этого правила — в плохо структурированных задачах, где только отыскиваются подходы к научной классификации. При переходе к следующему уровню в иерархических классификации основание обычно меняется, производится замена классификационного признака (например, семьи любого класса, выделенного по доходу, можно разбить на два подкласса в соответствии с тем, где они проживают — в городе или на селе); однако иногда классы разбивают на подклассы, используя тот же признак, но при его более дробных (или дезагрегированных) значениях (например, для классификации семей по душевому доходу при формировании классов первого уровня можно воспользоваться интервалами дохода с шагом в 10 тыс. руб. в год, а второго — 2 тыс. руб.).
Если признак, используемый в качестве основания классификации при формировании очередного уровня, может быть представлен как принимающий только два значения (0 или 1), он называется бинарным.
Если классификация построена при использовании только бинарных признаков, она называется бинарной. Например, классификация семей по душевому доходу может быть бинарной, если на первом шаге весь интервал значений дохода разбить на два подинтервала — и , на втором шаге аналогично можно разбить каждый из этих подинтервалов и т. д.
Именно бинарные классификации во многих отношениях наиболее удобны в использовании, в частности, они обладают самой простой структурой и наилучшим образом приспособлены для формального (логического или математического) описания.
Даже в случаях, когда используемые в качестве оснований классификации признаки дискретны, она может представлять весьма сложную задачу. Так, хотя биологические классификации насчитывают не менее двух с половиной веков, в них почти непрерывно производятся изменения, причём далеко не всегда они обусловлены открытием новых биологических видов, т. е. расширением исходного множества. Тем более сложной может оказаться задача классификации в случаях, когда признаки различия классифицируемых объектов нечётки, очень разнообразны по содержанию, способам идентификации и измерения. Именно такие задачи классификации встречаются в социально-экономических исследованиях. В подобных случаях широко применяются методы автоматической классификации.
Идея классификации пронизывает всю современную науку и является одной из основополагающих для научной методологии. «Объект» научного исследования на самом деле представляет (репрезентирует) совокупность, класс объектов реального мира (например, моря, деревья, органы слуха) либо абстрагированные от них формы, свойства, признаки (например, длина, поверхность, периодичность, твёрдость, размытость, упорядоченность), которые, опять-таки, могут быть выявлены только через соотнесение какому-либо классу. Тем самым, уже на стадии формирования объекта научного исследования решается, по сути, классификационная задача: вычленяется класс объектов «вещного» мира. Для объединения (мысленного, концептуального) реальных объектов в такой класс в них необходимо усмотреть сходство в том или ином смысле, зависящем, естественно, от цели научного исследования. Такой подход вполне определённо просматривается ещё у Аристотеля.
По-видимому, первой целенаправленно и последовательно построенной классификацией, была биологическая систематика, предложенная шведским естествоиспытателем К. Линнеем в середине 18 в. (эта классификация — строго бинарная). Периодическая система химических элементов Д. И. Менделеева также представляет собой классификацию. Она была построена через упорядочивание химических элементов по атомному весу (точнее, как выяснилось впоследствии, по заряду атомного ядра), а выявившаяся при этом периодичность элементов по химическим свойствам позволила строго сформировать их классы (щелочные металлы, щелочноземельные металлы и т.д. вплоть до инертных газов). Тот же результат был бы получен, если процедуру классификации изначально основывать на сходстве элементов по их химическим свойствам.
Термин «Классификация» иногда используется также для обозначения любого упорядочения рассматриваемых объектов.
2. Классификация многомерных наблюдений
Классификация многомерных наблюдений представляет разделение рассматриваемой совокупности объектов , каждый из которых () представлен вектором характеризующих его признаков , на некоторое число (заранее заданное или нет) однородных в определённом смысле групп. При этом термин «классификация», в зависимости от контекста, используют как для обозначения самого процесса разделения, так и его результата. Это понятие тесно связано с такими терминами, как группировка, типологизация, систематизация, дискриминация, кластеризация, образование таксонов, и является одним из основополагающих в практической и научной деятельности человека.
Если наряду с объектами, подлежащими классификации, исследователь располагает «представительскими порциями» полностью описанных объектов (т. е. с известными значениями анализируемых признаков и адресами классов, к которым они принадлежат) от каждого из классов, то такую информацию называют «обучающей» (или «обучающими выборками»), а самую задачу — задачей классификации с обучением (задачей распознавания образов, задачей дискриминантного анализа).
Именно к таким ситуациям относятся типичные задачи медицинской диагностики, когда в клинических условиях в качестве исходных данных исследователь располагает как «входами» — результатами инструментальных обследований пациентов, так и «выходами» — уже установленным диагнозом («болен» — «здоров») по каждому из них. Цель исследований такого типа — использование имеющегося «обучения» для отбора из множества результатов обследований небольшого числа наиболее информативных (с точки зрения диагностической силы) показателей и для построения на их основе формального диагностирующего правила.
Однако в задачах социально-экономического профиля исследователь в качестве исходных данных располагает, как правило, лишь данными об объектах, подлежащих классификации (получение обучающей информации здесь связано с организацией трудоёмкой и дорогостоящей специальной системы предварительных экспертных оценок). В подобных ситуациях, т. е. в случаях, когда приходится решать задачу классификации, не располагая обучающими выборками, говорят об автоматической классификации (или о классификации без обучения, кластер-анализе, численной таксономии).
Среди типов прикладных задач классификации (конечных прикладных целей) выделяют:
1) комбинационные группировки и их непрерывные обобщения — разбиение совокупности на интервалы (области) группирования;
2) простая типологизация: выявление естественного расслоения анализируемых данных (объектов) на чётко выраженные «сгустки» (кластеры), лежащие друг от друга на некотором расстоянии, но не разбивающиеся на столь же удалённые друг от друга части;
3) связная неупорядоченная типологизация: использование реализованной в пространстве результирующих показателей простой типологизации в качестве обучающих выборок при классификации той же совокупности объектов в пространстве описательных признаков;
4) связная упорядоченная типологизация, отличающаяся от связной неупорядоченной возможностью экспертного упорядочения классов, полученных в пространстве результирующих показателей, и использованием этого упорядочения для построения сводного латентного результирующего показателя как функции от описательных переменных;
5) структурная типологизация: даёт на «выходе» задачи дополнительно к описанию классов ещё и описание существующих между ними и их элементами структурных (в т. ч. иерархических) связей;
6) типологизация динамических траекторий системы: в качестве классифицируемых объектов выступают характеристики динамики исследуемых систем, например, дискретные или непрерывные временные ряды или траектории систем, которые в каждый момент времени могут находиться в одном из заданных состояний.
Хотя авторы этих выдающихся классификаций и не располагали современным математическим аппаратом многомерного статистического анализа, его основные идеи и методологические принципы пронизывают логику их конструкций, а подчас и прямо формулируются.
Основные методологические принципы, лежащие в основе большинства конструкций многомерного статистического анализа:
а) необходимость учёта эффекта существенной многомерности анализируемых данных (используемые в конструкциях характеристики должны учитывать структуру и характер статистических взаимосвязей исследуемых признаков);
б) возможность лаконичного объяснения природы анализируемых многомерных структур (допущение, в соответствии с которым существует сравнительно небольшое число определяющих, подчас латентных, т. е. непосредственно не наблюдаемых, факторов, с помощью которых могут быть достаточно точно описаны все наблюдаемые исходные данные, структура и характер связей между ними);
в) максимальное использование «обучения» в настройке математических моделей классификации и снижения размерности (под «обучением» понимается та часть исходных данных, в которой представлены «статистические фотографии» соотношений «входов» и «выходов» анализируемой системы);
г) возможность оптимизационной формулировки задач многомерного статистического анализа (в т. ч. задач классификации), т. е. нахождение наилучшей процедуры статистической обработки данных с помощью оптимизации некоторого экзогенного заданного критерия качества метода.
Первые два принципа относятся к природе обрабатываемых данных, а следующие два — к логике построения соответствующих аппаратных средств.
3.Автоматическая классификация
Автоматическая классификация (кластер анализ, кластерный анализ) — совокупность многомерных статистических методов, предназначенных для формирования относительно «отдаленных» друг от друга групп «однородных» объектов по информации о расстояниях или связях (меры близости) между ними. Используется для анализа:
· структуры совокупности социально-экономических показателей по заданной матрице коэффициентов корреляции между ними;
· социально-экономических объектов (предприятий, регионов и т.д.), описанных многими априорно равноправными признаками, и т.п.
Выделяются два основных типа методов кластерного анализа в зависимости от того, одновременно (1) или последовательно (2) отыскиваются кластеры. Среди первых широкое распространение получили т.н. вариационные методы, основанные на оптимизации того или иного показателя качества выявленной кластерной структуры, и агломеративные методы, основанные на последовательном объединении пар наиболее близких кластеров. Среди вторых можно отметить методы, основанные на явном определении понятия кластера, как правило, в терминах максимально допустимого «радиуса» или «порога существенности» связей. Агломеративные процедуры кластерного анализа обычно включают параметры, задаваемые исследователем (число классов, порог значимости и т.п.), что позволяет получать несколько решений, из которых исследователь выбирает наилучшие с точки зрения интерпретации.
Таким образом, автоматическая классификация (кластер анализ) это математически-формализованная процедура разбиения анализируемой совокупности объектов (или любого из последовательно поступающих «на вход» объектов) на некоторое число (заранее известное или нет) однородных в определённом смысле классов в условиях отсутствия обучающих выборок. При этом исходная информация о классифицируемых объектах представлена либо значениями многомерного признака (по каждому объекту в отдельности), либо матрицей попарных расстояний (или близостей) между объектами, а понятие однородности основано на предположении, что геометрическая близость двух или нескольких объектов означает близость их «физических» состояний, их сходство. Полученные в результате разбиения классы часто называют кластерами (таксонами, образами), а методы их нахождения соответственно кластер-анализом, численной таксономией, распознаванием образов с самообучением.
Математическая постановка задачи автоматической классификации требует формализации понятия «качество разбиения». С этой целью вводится понятие критерия (функционала) качества разбиения Q(.S), который задаёт способ сопоставления с каждым возможным разбиением S заданного множества объектов на классы некоторого числа Q(S), оценивающего (в определённой шкале) степень оптимальности данного разбиения. Тогда задача поиска наилучшего разбиения сводится к решению оптимизационной задачи вида
,
где А — множество всех допустимых разбиений.
В зависимости от наличия и характера априорных сведений о природе искомых классов и от конечных прикладных целей применяется одна из трёх составных частей математического аппарата классификации в условиях отсутствия обучающих выборок:
1) метод расщепления смесей вероятностных распределений (каждый класс интерпретируется как параметрически заданная одномодальная генеральная совокупность при неизвестном значении определяющего её параметра, а классифицируемые наблюдения — как выборка из смеси таких генеральных совокупностей);
2) метод собственно кластер-анализа (не имеется оснований для параметризации модели, а иногда и для интерпретации последовательности классифицируемых наблюдений в качестве выборки из генеральной совокупности);
3) классификационные процедуры иерархического типа (главная цель — получение наглядного представления о стратификационной структуре всей классифицируемой совокупности, например, в виде дендрограммы).
Выбор метрики (или меры близости) между объектами, каждый из которых представлен значениями характеризующего его многомерного признака, является узловым моментом исследования, от которого решающим образом зависит окончательный вариант разбиения объектов на классы при любом используемом для этого алгоритме разбиения. В каждой конкретной задаче этот выбор должен производиться по-своему, в зависимости от главных целей исследования, физической и статистической природы анализируемого многомерного признака, априорных сведений о его вероятностной природе и т.п. В этом смысле схемы, основанные на анализе смесей распределений, а также классификация по исходным данным, уже представленным в виде матрицы попарных расстояний (близостей), находятся в выгодном положении, поскольку не требуют решения вопроса о выборе метрики.
Важное место в построении классификационных процедур, в первую очередь иерархических, занимает проблема выбора способа вычисления расстояния между подмножествами объектов. Изящное обобщение большинства используемых в статистической практике вариантов вычисления расстояний между двумя группами объектов даёт расстояние, подсчитываемое как обобщённое степенное среднее всевозможных попарных расстояний между представителями рассматриваемых двух групп.
В статистической практике выбор функционала качества разбиения Q(S) обычно осуществляется произвольно, опирается скорее на эмпирические и профессионально-интуитивные соображения, чем на какую-либо точную формализованную схему. Однако ряд распространённых в статистической практике функционалов качества удаётся постфактум обосновать и осмыслить в рамках строгих математических моделей. Возможность этого появляется при наличии дополнительных априорных сведений о классах, позволяющих, например, представлять каждый класс в качестве параметрически заданной одномодальной генеральной совокупности.
Ещё один подход к осмыслению и обоснованию методов автоматической классификации представлен аппроксимационными моделями, когда искомая классификация характеризуется матрицей определённой структуры (например, ультраметрической матрицей близости или аддитивными кластерами), а задача состоит в том, чтобы оценить параметры этой структуры таким образом, чтобы она минимально отличалась от матрицы исходных данных. В такой постановке проблема классификации сближается с проблемами факторного анализа. Поэтому данный подход в определённой мере интегрирует традиционные методы кластер-анализа («компактность» кластеров в признаковом пространстве) и многомерной статистики (декомпозиция разброса исходных данных на «вклады» отдельных кластеров и других элементов решения).
В теории и практике статистического анализа данных широко известны такие методы автоматической классификации как ФОРЕЛЬ, К-средних (Мак-Куина), ИСОМАД (IZODATA), «метод динамических сгущений», «ближайшего соседа».
4. Дискриминантный анализ
Дискриминантный анализ — совокупность многомерных статистических методов классификации многомерных наблюдений в ситуации, когда исследователь обладает т.н. обучающими выборками.
Пусть результатом наблюдения над объектом является реализация -мерного случайного вектора . Требуется установить правило, согласно которому по наблюдаемому значению вектора объект относят к одной из возможных совокупностей , .
Правило дискриминации выбирается в соответствии с определенным принципом оптимальности на основе априорной информации о совокупностях , и вероятностях извлечения объекта из . При этом следует учитывать размер убытка от неправильной дискриминации.
Обычно в задаче различения переходят от вектора признаков, характеризующих объект, к линейной функции от них, дискриминантной функции — гиперплоскости, наилучшим образом разделяющей совокупность выборочных точек.
Наиболее изучен случай нормального распределения векторов признаков в каждой совокупности при отсутствии информации о параметрах этих распределений. Неизвестные параметры распределения в дискриминантной функции заменяются их наилучшими оценками. Правила дискриминации основываются на отношении правдоподобия.
Таким образом, дискриминантный анализ это раздел статистического анализа, посвященный получению правил классификации, наблюдений (объектов) в один из нескольких описанных некоторым образом классов (групп, категорий, популяций).
Пусть имеются исходные, подлежащие классификации наблюдения в виде матрицы данных , причём предполагается, что они представляют выборку из генеральной совокупности, являющейся смесью наблюдений из классов . При этом классу соответствует закон распределения вероятностей , . Априорное описание классов заключается в том, что распределение либо известны, либо могут быть статистически оценены по имеющимся в распоряжении исследователя обучающим выборкам
,, .
(Выборка , , называется обучающей, если известно что все её наблюдения извлечены из одной и той же генеральной совокупности .) Требуется указать правило классификации , относящее наблюдения из к одному из классов (законов распределения) с минимальными, в определённом смысле, потерями. Обучающие выборки могут составлять часть выборки .
Общий вид функционала качества классификации в дискриминантном анализе определяется в виде
,
где — соответственно потери от классификации объекта из класса в класс , удельный вес (априорная вероятность) объектов класса и вероятность ошибочной классификации объектов класса в класс при использовании классифицирующего правила .
Во многих реальных задачах трудно оценить потери из-за неправильной классификации объектов, а иногда и априорные вероятности появления объектов различных классов. В этих случаях можно воспользоваться т. н. бейесовским подходом, в соответствии с которым наблюдение должно быть отнесено к классу с тем номером , для которого соответствующая апостериорная вероятность, а следовательно и логарифмическая функция правдоподобия оказываются максимальными по всем . Таким образом, решение об отнесении «текущего» наблюдения к одному из классов принимается на основании значении функции .
Функции и определяемые ими поверхности принято называть дискриминантными функциями. Так что искомое правило классификации определяется соответствующей системой дискрпминантных функций
, если .
Правило классификации, основанное на бейесовском подходе, минимизирует среднюю величину ошибочной классификации
.
Помимо бейесовского подхода к построению дискрпмннантных функций, практикуется подход, непосредственно не опирающийся на идею отношения логарифмический функций правдоподобия. Вместо этого пытаются подобрать такую систему функций из параметрического семейства , , на которой максимизируется та или иная мера различия между анализируемыми классами:
где , — оценка априорной вероятности например, . В этом отношении «веса» - учитывают относительную важность правильности различия классов с номерами и среди всех возможных пар классов, т. е. суть аналоги весов , а и — это соответственно оценки математического ожидания и дисперсии случайной величины , вычисленные в предположении, что аргумент принадлежит классу , т. е. оценённые по соответствующей обучающей выборке. В частности, известная линейная дискриминантная функция Фишера является решением случая описанной схемы, когда .
Американский математик А. Вальд показал оптимальность дискриминантной функции Фишера и в бейесовском смысле, когда и — многомерные нормальные распределения, отличающиеся друг от друга только векторами средних значений.
5. Таблица сопряженности и анализ соответствия
Таблица сопряженности (перекрёстная классификация, парная группировка), задаёт распределение объектов по категориям двух или нескольких нечисловых признаков.
Пусть имеется ряд предприятий и для каждого из них известны размер (признак ) и уровень рентабельности (), разбитые соответственно на и категорий. Представим эти данные в виде таблицы сопряженности (табл. 5.1.)
Таблица 5.1.
Таблица сопряженности
Рентабельность | ||||
Размер | менее 5% | 5-25% | более 25% | S |
до 100 чел. | ||||
100-200 чел. | ||||
более 5000 чел. | ||||
S |
Здесь - число предприятий, попадающих в категорию размера и категорию рентабельности ;
- суммарное число предприятий размера , т. е. сумма в строке ;
-число предприятий, имеющих категорию рентабельности , или сумма по столбцу , а - общее число предприятий в выборке.
Очевидно, что последний столбец () и последняя строка () задают выборочные маргинальные распределения признаков и соответственно. Вместо целых чисел в клетках могут стоять частоты — или проценты.
Применение статистических методов зависит от того, как была получена анализируемая таблица. Рассмотрим следующие три выборочные схемы:
1) частоты одного из признаков фиксированы. Например, берётся по 100 предприятий каждого размера, и рассматриваются их распределения по рентабельности;
2) предполагается, что таблица является реализацией полиномиального распределения объектов по клеткам. Общее число объектов фиксировано;
3) третья схема возникает, когда является случайной величиной.
Таблицу сопряженности можно рассматривать как двумерную гистограмму. Первая выборочная схема позволяет сравнивать ряд одномерных гистограмм или распределения предприятий по рентабельности при всевозможных категориях размера. Имеются соответствующие статистические критерии. Для целей визуализации первая схема обладает тем преимуществом, что суммы по строкам (по столбцам) зафиксированы, обычно берутся одинаковые маргинальные частоты, что позволяет сравнивать числа, содержащиеся в одном столбце (строке). При второй или третьей выборочных схемах и в общем случае нельзя сравнивать, так как различие может быть обусловлено неодинаковыми и . Для нивелирования этих эффектов обычно считают проценты по строкам или по столбцам .
Процедура мостеллеризации, при выполнении некоторых условий, позволяет так преобразовать таблицу, чтобы суммы по строкам и по столбцам были одновременно равны постоянной величине. По значениям в клетках полученной таблицы можно судить о близости соответствующих категорий признаков и .
Если в таблице имеется много клеток с нулевыми значениями, то можно пытаться так переставить строки и столбцы, чтобы ненулевые элементы образовали блоки, расположенные вдоль главной диагонали. Тем самым решается задача классификации.
Анализ соответствий позволяет одновременно представить категории обоих признаков и объекты как комбинации категорий, в виде точек в евклидовом пространстве (как правило, на плоскости), что позволяет лучше понять структуру данных, выявить аномальные наблюдения, возможные кластеры.
При проверке гипотезы о независимости признаков и предпочтительнее работать в предположениях второй или третьей выборочных схем. При этом оценка максимального правдоподобия элемента таблицы с номерами равна . Если число строк равно числу столбцов, особенно когда и имеют смысл одного признака различных объектов (мужчин и женщин) или состояния в два различных момента времени (таблица обмена), бывает полезно проверять гипотезы о симметричности таблицы и об однородности маргинальных распределений. Для таблицы обмена имеет смысл гипотеза квази-симметричности: оценка элемента таблицы представляется в виде произведения , где - показатель близости состояний и , — показатель «отталкивания» i-ro, а - «привлекательность» j-то состояния. Три последние гипотезы проверяются только для второй и третьей выборочных схем.
При проверке всех гипотез полезно определять вклады клеток исходной таблицы в статистику критерия. С их помощью можно понять, какие комбинации значений признаков нарушают гипотезу.
Если гипотеза о независимости отвергается, то можно пытаться измерить тесноту связи рассматриваемых признаков. Для этого существуют многочисленные коэффициенты. Некоторые из них (Пирсона, Чупрова, Крамера) основаны на величине отклонения наблюдаемых частот от значений, ожидаемых при гипотезе о независимости. Другие коэффициенты используют понятие количества информации (мера Кульбака), относительную величину ошибки предсказания значения одного признака при известном другом (Х-меры). Для признаков, измеренных в ординальной шкале, имеются специальные меры (Гудмена—Краскала). Для некоторых мер известны распределения. Нулевое или очень маленькое значение отдельного коэффициента в общем случае не говорит об отсутствии связи. Это свидетельствует лишь об отсутствии конкретного вида связи, который измеряется данным коэффициентом. Универсальная мера не существует.
Возможны многомерные таблицы сопряженности. Например, если предприятия, составляющие приведённую выше таблицу, принадлежат одному министерству и известны аналогичные таблицы для других министерств, то такие данные можно представить в виде трёхмерной таблицы сопряженности. Министерство будет определять двумерный слой. При этом у всех величин появится дополнительный индекс. Встречаются таблицы и большей размерности.
Имеются обобщения анализа соответствий и модели квазисимметричности на многомерные таблицы. Структура зависимости в многомерных таблицах значительно сложнее, чем в двумерных, так как уже третий признак z может зависеть не только от признаков х и у в отдельности, но и от их взаимодействия. В общем случае возможны взаимодействия и более высоких порядков. Для формирования и проверки адекватности моделей многомерных таблиц используется аппарат лог-линейнного анализа, являющегося наиболее строгим с математической точки зрения методом анализа нечисловых данных. Он обобщает многие известные модели, однако для его успешного применения необходимо большое, по сравнению с числом клеток в таблице, количество наблюдений. Содержательная интерпретация взаимодействий высоких порядков часто вызывает сложности.
Анализ соответствий (метод взаимных средних, оптимальное шкалирование, канонический (компонентный) анализ качественных признаков) - это методология изучения таблиц сопряжённости, основанная на представлении их строк и столбцов точками одного и того же многомерного пространства. Используется преимущественно для визуализации данных.
Обозначим через таблицу сопряжённости двух признаков, один из которых имеет значения , другой — , где — вероятность (или другая характеристика) комбинации . Через величину ранга матрицы с элементами , уменьшенную на единицу (здесь, как обычно, через обозначены т. н. маргинальные вероятности , , которые предполагаются положительными).
Рассмотрим -мерные векторы и , представляющие строки и столбцы таблицы сопряжённости точками -мерного пространства таким образом, что для всех и выполняются равенства
,
где — положительные вещественные числа, упорядоченные по убыванию, так что . Отдельные оси интерпретируются как «внутренние факторы», объясняющие наблюдённые значения . В анализе соответствия требуется, чтобы факторы и удовлетворяли не только указанным равенствам, но и условиям ортонормированности в следующей форме: для всех
.
Такая система факторов существует и определяется единственным образом в терминах сингулярного разложения матрицы с элементами . А именно, если , - совокупность сингулярных троек, где , а {) и {} - ортонормированные (в обычном смысле) совокупности #-мерных и #-мерных векторов, для которых справедливы равенства , , то факторное решение определяется формулами , , () (при этом , , ). Иногда используют несколько иную нормировку факторов, рассматривая и вместо и соответственно (с очевидной модификацией факторных соотношений).
Отсюда вытекает т. н. декомпозиция коэффициента сопряжённости признаков
,
позволяющая интерпретировать величину как характеристику весомости фактора . Для визуализации строк и столбцов обычно используется плоскость первых двух факторов (т. е. первые две компоненты векторов и ).
Формулы, связывающие сингулярные векторы и приводят к т. н. формулам перехода, выражающим векторы и друг через друга:
,
,
которые означают, что в некотором условном смысле точки являются центрами тяжести точек и наоборот.
Теория статистической оценки выборочных результатов основана на теории распределений собственных чисел и векторов матриц данных. Например, величина
,
где - число наблюдений, имеет асимптотическое распределение с степенями свободы.
Рассмотрим наиболее известные интерпретации анализа соответствия.
1. Метрика в пространствах строк и столбцов. Строка представляется т. н. профилем - -мерным вектором условных вероятностен , , с приписанным ему весом . Профили столбцов задаются аналогично как -мерные векторы условных вероятностей (с весами ). Маргинальная строка является центром тяжести профилей строк. Расстояние между профилями в метрике вычисляется по формуле , где - диагональная матрица маргинальных величин .
Коэффициент сопряжённости может быть представлен в виде , что объясняет название метрики.
Метрика обладает следующим свойством инвариантности: если два столбца таблицы сопряжённости имеют один и тот же профиль, то расстояние в пространстве профилей строк не изменится, если объединить их в один столбец (путём суммирования). Аналогичное справедливо и для пространства столбцов.
Главное свойство метрики — расстояние совпадает с евклидовым расстоянием между и .
2. Канонический анализ номинальных признаков. Пусть и — множества значений (категорий, градаций) двух качественных признаков, заданных на одном и том же множестве объектов, занумерованных индексами . Сопоставим признакам матрицы размерности и размерности . Элемент матрицы равен 1, если на объекте первый признак принимает значение , и 0 - в противном случае. Аналогично определяются элементы матрицы .
Рассмотрим векторы и произвольных числовых меток значений признаков и векторы и их значений на объектах, полученных в результате указанной оцифровки. Задача состоит в том, чтобы выбрать векторы таким образом, чтобы коэффициент корреляции между этими векторами был максимален (задача канонического анализа двух совокупностей векторов — столбцов матриц и ). Для того, чтобы нормированные векторы являлись оптимальными, необходимо, чтобы они были собственными (левым и правым) векторами матрицы (где - матрица оператора ортогонального проектирования па подпространство векторов вида при всевозможных , и аналогично для ), соответствующими ненулевым собственным числам, которые равны (). Соответствующие векторы и являются собственными векторами матриц и , где и , отвечающими тем же собственным числам, и совпадают с векторами и ().
Это означает, что множества и {Ga} () первых факторов, получаемых при анализе соответствий, определяют такие «оцифровки» качественных градаций и , которые образуют ортонормированные подбазисы пространств и , максимально согласованные в том смысле, что косинусы углов между соответствующими ортами максимальны.
3. Оптимальная дискриминация. Для матрицы сопряжённости двух номинальных признаков с градациями , заданных на объектах рассматривается проблема: приписать градациям такие числовые значения , чтобы соответствующие им оценки объектов были как можно более однородными «внутри» категорий и как можно более контрастными для разных . Обозначим через среднюю оценку, полученную объектами, имеющими градацию , а через - среднюю оценку произвольного объекта. Тогда внутригрупповой разброс характеризуется величиной , где - условная дисперсия оценок, а межгрупповой - величиной , причём задача состоит в том, чтобы минимизировать отношение . Решение этой задачи определяется первым фактором анализа соответствий, так что оптимальные векторы и равны соответственно и .
В конце 1980-х гг. предложен ряд обобщений анализа соответствий для ситуаций, когда данные имеют более сложный характер, в частности, для многомерных и динамических данных.
Литература
1. Айвазян С. А., Енюков И. С, Мешалкин Л. Д., Прикладная статистика. Исследование зависимостей, М.~, 1985.
2. Bishop Y., Fienberg S., Holland W., Discrete multivariate analysis; theory and practice, Cambrige, 1976.
3. Caillez J. Pages, l'introduction a l'analyse de donnees, Paris, 1979.
4. Lebart L., Morineau A., Warwick K., Multivariate Descriptive Statistical analysis, N. Y., 1984.
Лекция "Истоки, ресурсы и виды экологического туризма" также может быть Вам полезна.
5. Антон Г., Анализ таблиц сопряжённости, пер. с англ., М., 1982
6. Кендалл М. Г., Стьюарт А., Статистические выводы и связи, пер. с англ., М., 1973
7. Жамбю М., Иерархический кластер-анализ и соответствия, пер. с франц., М., 1988
8. Айвазян С. А. и др., Прикладная статистика: классификация и снижение размерности, М., 1989
9. Nishisato S., Analysis of categorical data: Dual scaling and its applications, Toronto: Univ. of Toronto Press, 1980
10. Hey den P. van dcr, Correspondence analysis of longitudional data, Leiden, 1988.