Популярные услуги

Теория статистических решений

2021-03-09СтудИзба

Власов М. П.

конспект лекций по дисциплине
Компьютерные методы статистического анализа и прогнозирование

ТЕМА 8 Классификация

Содержание

стр.

1. Классификация ………………….……………….…………………… 2

2. Классификация многомерных наблюдений …………...…………… 6

3. Автоматическая классификация ………………...………..…………. 9

Рекомендуемые материалы

4. Дискриминантный анализ ………………………………………….. 13

5. Таблица сопряженности и анализ соответствия .…………………. 16

Тема 9 Теория статистических решений

1. Теория статистических решений ……………….…………………… 25

2. Метод статистических испытаний …………………..……………… 31

Санкт-Петербург 2008

1. Классификация

Классификация заключается в разделении множес­тва объектов технико-экономической и социальной информации на подмножества по их сходству или различию в соответствии с принятыми методами, обеспечивающими систематизацию объектов классификации по определенным выбранным признакам (свойства, характеристики или па­раметры объектов). Количество значений призна­ка определяет число образуемых классифика­ционных группировок по этому признаку. Для классификации продукции используются, например, следующие при­знаки: отраслевая принадлежность, назначе­ние, область применения, принцип действия, конструктивные особенности, используемый для изготовления способ и материал. В час­тности, в Общероссийском классификаторе продукции (ОКП) трубы стальные классифи­цируются по способу изготовления — тяну­тые, сварные, центробежнолитые и др.; по назначению — водогазопроводные, нефтепро-водные, подшипниковые и др; по виду мате­риала — нержавеющие, углеродистые, эмали­рованные; по размеру—диаметром 1020,1220, 1420 мм и др.

Для описания процесса классификации информации исполь­зуются следующие термины и определения понятий: Система классификации — совокупность методов и пра­вил классификации и ее результат. Объект классификации — элемент классифицируемого множества. Признак классификации — свойство или характеристика объекта, по которому производится классификация. Ступень классификации — этап классификации при иерархическом методе, в результате которого получается совокупность классификационных группировок. Глубина классификации — число ступеней классификации, которое зависит от степени конкретизации груп­пировок и числа признаков, необходимых для решения конкретных задач. Группировка классификационная — подмножество объек­тов, полученное в результате классификации. Методы классификации подразделяются на иерархический и фасетный.

Иерархический метод классификации — последова­тельное разделение множества объектов на подчиненные классификационные группиров­ки. В этом методе множество объектов делит­ся сначала по некоторому выбранному признаку (основанию деления) на крупные группировки, затем каждая из этих группиро­вок делится на ряд последующих группировок по другому признаку, конкретизируя объект классификации. Таким образом между классификационными группировками устанавливается иерархия (подчиненность). Фасетный метод классификации — параллельное раз­деление множества объектов на независимые классификационные группировки. В этом ме­тоде классификационное множество объектов информации описывается набором независи­мых фасетов (списков), не имеющих жесткой взаимосвязи друг с другом, которые можно ис­пользовать отдельно для решения различных задач. Например, в Общероссийском классификаторе информации о населении (ОКИН) использу­ются следующие фасеты: пол, возраст, гражданст­во, национальность, язык, родство и др.

И так классификация заключается в разбиении множества на классы (подмножества) с целью выявления его структуры, изучения свя­зей его элементов (главным образом, на основе выявления их сходства/различия); при этом под классификацией понимают как саму указанную процедуру, так и её результат, т. е. представление ис­ходного множества через объединение его подмножеств. Эта процедура равносильна заданию на исходном множестве отношения эквивалентности (два элемента множества находятся в отношении эквивалентности тогда и только тогда, когда при­надлежат одному классу). В таком случае получается строгая классификация:

· объединение классов совпадает с исходным множеством;

· выделенные классы не пересекаются;

· среди них нет пустых.

Иначе говоря, каждый элемент попадает в какой-либо класс, никакой элемент не попадает хотя бы в два класса и в каждом классе содержится хотя бы один элемент. Формально: пусть  — исходное множество,  — его классы,  — число классов, так что i = l, 2, ..., . Тогда , причём  при  и  для каждого .

Процесс классификации может быть продолжен, если процедура классификации при­меняется хотя бы к некоторым классам . Тогда получается многоуровневая иерархия: исходному множеству соответству­ет 0-й уровень, классам, которые получены его разбиением, — 1-й, далее образуются классы 2-го уровня и т. д.

Формирование классов производится по какому-либо содер­жательному признаку, называемому основанием классификации (например, семьи можно классифицировать по душевому доходу). Для классов одного уровня основание классификации должно быть общим, хотя иногда встречаются нарушения этого правила — в плохо структурированных задачах, где только отыскиваются подходы к на­учной классификации. При переходе к следующему уровню в иерархических классификации основание обычно меняется, производится замена классификационного признака (например, семьи любого класса, вы­деленного по доходу, можно разбить на два подкласса в соот­ветствии с тем, где они проживают — в городе или на селе); однако иногда классы разбивают на подклассы, используя тот же признак, но при его более дробных (или дезагрегированных) значениях (например, для классификации семей по ду­шевому доходу при формировании классов первого уровня можно воспользоваться интервалами дохода с шагом в 10 тыс. руб. в год, а второго — 2 тыс. руб.).

Если признак, используемый в качестве основания классификации при формировании очередного уровня, может быть представлен как принимающий только два значения (0 или 1), он называет­ся бинарным.

Если классификация построена при использовании только би­нарных признаков, она называется бинарной. Напри­мер, классификация семей по душевому доходу может быть бинарной, если на первом шаге весь интервал значений дохода  разбить на два подинтервала —  и , на втором шаге анало­гично можно разбить каждый из этих подинтервалов и т. д.

Именно бинарные классификации во многих отношениях наиболее удобны в исполь­зовании, в частности, они обладают самой простой структурой и наилучшим образом приспособлены для формального (логи­ческого или математического) описания.

Даже в случаях, когда используемые в качестве оснований классификации признаки дискретны, она может представлять весьма слож­ную задачу. Так, хотя биологические классификации насчитывают не менее двух с половиной веков, в них почти непрерывно производятся изменения, причём далеко не всегда они обусловлены открыти­ем новых биологических видов, т. е. расширением исходного множества. Тем более сложной может оказаться задача классификации в случаях, когда признаки различия классифицируемых объек­тов нечётки, очень разнообразны по содержанию, способам идентификации и измерения. Именно такие задачи классификации встреча­ются в социально-экономических исследованиях. В подобных случаях широко применяются методы автоматической клас­сификации.

Идея классификации пронизывает всю современную науку и является од­ной из основополагающих для научной методологии. «Объект» научного исследования на самом деле представляет (репрезен­тирует) совокупность, класс объектов реального мира (напри­мер, моря, деревья, органы слуха) либо абстрагированные от них формы, свойства, признаки (например, длина, поверх­ность, периодичность, твёрдость, размытость, упорядочен­ность), которые, опять-таки, могут быть выявлены только че­рез соотнесение какому-либо классу. Тем самым, уже на стадии формирования объекта научного исследования решается, по сути, классификационная задача: вычленяется класс объектов «вещного» мира. Для объединения (мысленного, концептуального) реальных объектов в такой класс в них необходимо усмотреть сходство в том или ином смысле, зависящем, естест­венно, от цели научного исследования. Такой подход вполне определённо просматривается ещё у Аристотеля.

По-видимому, первой целенаправленно и последовательно построенной классификацией, была биологическая систематика, предложен­ная шведским естествоиспытателем К. Линнеем в середине 18 в. (эта классификация — строго бинарная). Периодическая система хими­ческих элементов Д. И. Менделеева также представляет собой классификацию. Она была построена через упорядочивание химических эле­ментов по атомному весу (точнее, как выяснилось впоследст­вии, по заряду атомного ядра), а выявившаяся при этом перио­дичность элементов по химическим свойствам позволила строго сформировать их классы (щелочные металлы, щелочноземель­ные металлы и т.д. вплоть до инертных газов). Тот же результат был бы получен, если процедуру классификации изначально основывать на сходстве элементов по их химическим свойствам.

Термин «Классификация» иногда используется также для обозначения любого упорядочения рассматриваемых объектов.

2. Классификация многомерных наблюдений

Классификация многомерных наблюдений представляет разделение рассматриваемой совокупности объектов , каждый из которых () представлен вектором характери­зующих его признаков , на некоторое число (заранее заданное или нет) однородных в определённом смысле групп. При этом термин «классификация», в зависимости от контекста, используют как для обозначения самого про­цесса разделения, так и его результата. Это понятие тесно связано с такими терминами, как группировка, типологизация, систематизация, дискриминация, кластеризация, образование таксонов, и является одним из основополагающих в практиче­ской и научной деятельности человека.

Если наряду с объектами, подлежащими классификации, исследователь располагает «представительскими порциями» полностью описанных объектов (т. е. с известными значениями анализируемых признаков и адресами классов, к которым они принадлежат) от каждого из классов, то такую информацию называют «обучающей» (или «обучающими выборками»), а самую задачу — задачей классификации с обучением (задачей распознавания образов, задачей дискриминантного анализа).

Именно к таким ситуациям относятся типичные задачи медицинской диагностики, когда в клинических условиях в качест­ве исходных данных исследователь располагает как «входа­ми» — результатами инструментальных обследований пациен­тов, так и «выходами» — уже установленным диагнозом («болен» — «здоров») по каждому из них. Цель исследований такого типа — использование имеющегося «обучения» для от­бора из множества результатов обследований небольшого чис­ла наиболее информативных (с точки зрения диагностической силы) показателей и для построения на их основе формально­го диагностирующего правила.

Однако в задачах социально-экономического профиля ис­следователь в качестве исходных данных располагает, как пра­вило, лишь данными об объектах, подлежащих классифика­ции (получение обучающей информации здесь связано с орга­низацией трудоёмкой и дорогостоящей специальной системы предварительных экспертных оценок). В подобных ситуаци­ях, т. е. в случаях, когда приходится решать задачу классифи­кации, не располагая обучающими выборками, говорят об ав­томатической классификации (или о классификации без обу­чения, кластер-анализе, численной таксономии).

Среди типов прикладных задач классификации (конечных прикладных целей) выделяют:

1) комбинационные группиров­ки и их непрерывные обобщения — разбиение совокупности на интервалы (области) группирования;

2) простая типологизация: выявление естественного расслоения анализируемых данных (объектов) на чётко выраженные «сгустки» (класте­ры), лежащие друг от друга на некотором расстоянии, но не разбивающиеся на столь же удалённые друг от друга части;

3) связная неупорядоченная типологизация: использование ре­ализованной в пространстве результирующих показателей простой типологизации в качестве обучающих выборок при классификации той же совокупности объектов в пространстве описательных признаков;

4) связная упорядоченная типологизация, отличающаяся от связной неупорядоченной возмож­ностью экспертного упорядочения классов, полученных в про­странстве результирующих показателей, и использованием этого упорядочения для построения сводного латентного результирую­щего показателя как функции от описательных переменных;

5) структурная типологизация: даёт на «выходе» задачи допол­нительно к описанию классов ещё и описание существующих между ними и их элементами структурных (в т. ч. иерархиче­ских) связей;

6) типологизация динамических траекторий сис­темы: в качестве классифицируемых объектов выступают ха­рактеристики динамики исследуемых систем, например, диск­ретные или непрерывные временные ряды или траектории систем, которые в каждый момент времени могут находиться в одном из заданных состояний.

Хотя авторы этих выдающихся классификаций и не распо­лагали современным математическим аппаратом многомерного статистического анализа, его основные идеи и методологиче­ские принципы пронизывают логику их конструкций, а подчас и прямо формулируются.

Основные методологические принципы, лежащие в основе большинства конструкций многомерного статистического ана­лиза:

а) необходимость учёта эффекта существенной много­мерности анализируемых данных (используемые в конструк­циях характеристики должны учитывать структуру и характер статистических взаимосвязей исследуемых признаков);

б) воз­можность лаконичного объяснения природы анализируемых многомерных структур (допущение, в соответствии с которым существует сравнительно небольшое число определяющих, подчас латентных, т. е. непосредственно не наблюдаемых, фак­торов, с помощью которых могут быть достаточно точно описаны все наблюдаемые исходные данные, структура и характер связей между ними);

в) максимальное использование «обучения» в на­стройке математических моделей классификации и снижения размерности (под «обучением» понимается та часть исходных данных, в которой представлены «статистические фотографии» соотношений «входов» и «выходов» анализируемой системы);

г) возможность оптимизационной формулировки задач много­мерного статистического анализа (в т. ч. задач классификации), т. е. нахождение наилучшей процедуры статистической обработки данных с помощью оптимизации некоторого экзогенного задан­ного критерия качества метода.

Первые два принципа относятся к природе обрабатываемых данных, а следующие два — к логике построения соответствующих аппаратных средств.

3.Автоматическая классификация

Автоматическая классификация (кластер анализ, кластерный анализ) — совокупность многомерных статистических методов, предназначен­ных для формирования относительно «отдаленных» друг от друга групп «однородных» объектов по информации о расстояниях или связях (меры близости) между ними. Исполь­зуется для анализа:

· структуры совокупности социально-экономических показателей по заданной матрице коэффициентов корреляции между ними;

· социально-экономических объектов (предприятий, регионов и т.д.), описанных многими априорно равноправными призна­ками, и т.п.

Выделяются два основных типа методов кластерного анализа в зависимости от того, однов­ременно (1) или последовательно (2) отыски­ваются кластеры. Среди первых широкое распространение получили т.н. вариацион­ные методы, основанные на оптимизации того или иного показателя качества выявлен­ной кластерной структуры, и агломеративные методы, основанные на последовательном объединении пар наиболее близких класте­ров. Среди вторых можно отметить методы, основанные на явном определении понятия кластера, как правило, в терминах макси­мально допустимого «радиуса» или «порога существенности» связей. Агломеративные процедуры кластерного анализа обычно включают параметры, задаваемые исследова­телем (число классов, порог значимости и т.п.), что позволяет получать несколько решений, из которых исследователь выбирает наилучшие с точки зрения интерпретации.

Таким образом, автоматическая классификация (кластер ана­лиз) это математически-формализованная процедура разбиения анализируемой совокупности объектов  (или любого из последовательно поступающих «на вход» объектов) на некоторое число (заранее известное или нет) однородных в определённом смысле классов в условиях отсутствия обучающих выборок. При этом исходная информация о классифицируемых объектах представлена либо значениями многомерного признака (по каждому объекту в отдельности), либо матрицей попарных расстояний (или близостей) между объектами, а понятие однородности основано на предположе­нии, что геометрическая близость двух или нескольких объек­тов означает близость их «физических» состояний, их сходст­во. Полученные в результате разбиения классы часто называют кластерами (таксонами, образами), а методы их нахождения соответственно кластер-анализом, численной таксономией, распознаванием образов с самообучением.

Математическая постановка задачи автоматической классификации требует формализации понятия «качество разбиения». С этой целью вводится по­нятие критерия (функционала) качества разбиения Q(.S), кото­рый задаёт способ сопоставления с каждым возможным разбие­нием S заданного множества объектов на классы некоторого числа Q(S), оценивающего (в определённой шкале) степень оптимальности данного разбиения. Тогда задача поиска наи­лучшего разбиения  сводится к решению оптимизационной задачи вида

,

где А — множество всех допустимых разбиений.

В зависимости от наличия и характера априорных сведений о природе искомых классов и от конечных прикладных целей применяется одна из трёх составных частей математического аппарата классификации в условиях отсутствия обучающих выборок:

1) метод расщепления смесей вероятностных распределений (каждый класс интерпретируется как параметрически задан­ная одномодальная генеральная совокупность при неизвестном значении определяющего её параметра, а классифицируемые наблюдения — как выборка из смеси таких генеральных сово­купностей);

2) метод собственно кластер-анализа (не имеется оснований для параметризации модели, а иногда и для интерпретации по­следовательности классифицируемых наблюдений в качестве выборки из генеральной совокупности);

3) классификационные процедуры иерархического типа (главная цель — получение наглядного представления о стратификационной структуре всей классифицируемой сово­купности, например, в виде дендрограммы).

Выбор метрики (или меры близости) между объектами, каж­дый из которых представлен значениями характеризующего его многомерного признака, является узловым моментом ис­следования, от которого решающим образом зависит оконча­тельный вариант разбиения объектов на классы при любом используемом для этого алгоритме разбиения. В каждой кон­кретной задаче этот выбор должен производиться по-своему, в зависимости от главных целей исследования, физической и статистической природы анализируемого многомерного при­знака, априорных сведений о его вероятностной природе и т.п. В этом смысле схемы, основанные на анализе смесей распре­делений, а также классификация по исходным данным, уже представленным в виде матрицы попарных расстояний (близо­стей), находятся в выгодном положении, поскольку не требу­ют решения вопроса о выборе метрики.

Важное место в построении классификационных процедур, в первую очередь иерархических, занимает проблема выбора способа вычисления расстояния между подмножествами объ­ектов. Изящное обобщение большинства используемых в ста­тистической практике вариантов вычисления расстояний меж­ду двумя группами объектов даёт расстояние, подсчитываемое как обобщённое степенное среднее всевозможных попарных расстояний между представителями рассматриваемых двух групп.

В статистической практике выбор функционала качества разбиения Q(S) обычно осуществляется произвольно, опира­ется скорее на эмпирические и профессионально-интуитивные соображения, чем на какую-либо точную формализованную схему. Однако ряд распространённых в статистической прак­тике функционалов качества удаётся постфактум обосновать и осмыслить в рамках строгих математических моделей. Воз­можность этого появляется при наличии дополнительных ап­риорных сведений о классах, позволяющих, например, пред­ставлять каждый класс в качестве параметрически заданной одномодальной генеральной совокупности.

Ещё один подход к осмыслению и обоснованию методов автоматической классификации представлен аппроксимационными моделями, когда иско­мая классификация характеризуется матрицей определённой структуры (например, ультраметрической матрицей близости или аддитивными кластерами), а задача состоит в том, чтобы оценить параметры этой структуры таким образом, чтобы она минимально отличалась от матрицы исходных данных. В та­кой постановке проблема классификации сближается с пробле­мами факторного анализа. Поэтому данный подход в опре­делённой мере интегрирует традиционные методы кластер-анализа («компактность» кластеров в признаковом пространстве) и многомерной статистики (декомпозиция разброса исходных данных на «вклады» отдельных кластеров и других элементов решения).

В теории и практике статистического анализа данных ши­роко известны такие методы автоматической классификации как ФОРЕЛЬ, К-средних (Мак-Куина), ИСОМАД (IZODATA), «метод динамических сгущений», «ближайшего соседа».

4. Дискриминантный анализ

Дискриминантный анализ — сово­купность многомерных статистических методов классифи­кации многомерных наблюдений в ситуации, когда исследователь обладает т.н. обучающи­ми выборками.

Пусть результатом наблюдения над объектом является реализация -мерного случайного вектора . Требуется устано­вить правило, согласно которому по наблюдаемому значению вектора  объект относят к одной из возможных совокупнос­тей , .

Правило дискриминации выбирается в соот­ветствии с определенным принципом опти­мальности на основе априорной информации о совокупностях , и вероятностях  извлече­ния объекта из . При этом следует учитывать размер убытка от неправильной дискримина­ции.

Обычно в задаче различения переходят от век­тора признаков, характеризующих объект, к линейной функции от них, дискриминантной функции — гиперплоскости, наилучшим об­разом разделяющей совокупность выбороч­ных точек.

Наиболее изучен случай нормального распре­деления векторов признаков в каждой сово­купности при отсутствии информации о пара­метрах этих распределений. Неизвестные параметры распределения в дискриминантной функции заменяются их наилучшими оценка­ми. Правила дискриминации основываются на отношении правдоподобия.

Таким образом, дискриминантный анализ это раздел статистического анализа, посвященный получению правил классификации, на­блюдений (объектов) в один из нескольких описанных некото­рым образом классов (групп, категорий, популяций).

Пусть имеются исходные, подлежащие классификации на­блюдения в виде матрицы данных , причём предполагается, что они представляют выборку из генеральной совокупности, являющейся смесью наблюдений из  классов . При этом классу  соответствует закон распределения вероятно­стей , . Априорное описание классов заключа­ется в том, что распределение  либо известны, либо могут быть статистически оценены по имеющимся в распоряжении исследователя обучающим выборкам

,, .

(Выборка , , называется обучающей, если известно что все её наблюдения  извлечены из одной и той же генеральной совокупности .) Требуется указать правило классификации , относящее наблюдения из  к одному из классов (законов распределения)  с минимальными, в опре­делённом смысле, потерями. Обучающие выборки могут со­ставлять часть выборки .

Общий вид функционала качества классификации в дискриминантном анализе определяется в виде

,

где  — соответственно потери от классификации объекта из класса  в класс , удельный вес (априорная ве­роятность) объектов класса  и вероятность ошибочной классификации объектов класса  в класс  при использо­вании классифицирующего правила .

Во многих реальных задачах трудно оценить потери  из-за неправильной классификации объектов, а иногда и априорные вероятности  появления объектов различных классов. В этих случаях можно воспользоваться т. н. бейесовским подходом, в соответствии с которым наблюдение  должно быть отнесено к классу с тем номером , для которого соответствующая апосте­риорная вероятность, а следовательно и логарифмическая функция правдоподобия  оказываются максималь­ными по всем . Таким образом, решение об отнесе­нии «текущего» наблюдения к одному из классов принимается на основании значении функции .

Функции  и определяемые ими поверхности  принято называть дискриминантными функ­циями. Так что искомое правило классификации  определяет­ся соответствующей системой дискрпминантных функций

, если .

Правило классификации, основанное на бейесовском подхо­де, минимизирует среднюю величину ошибочной классифика­ции

.

Помимо бейесовского подхода к построению дискрпмннантных функций, практикуется подход, непосредственно не опирающийся на идею отношения логарифмический функций правдоподобия. Вместо этого пытаются подобрать такую сис­тему функций  из параметрического семейства , , на которой максимизируется та или иная мера различия между анализируемыми классами:

где ,  — оценка априорной вероятности  например, . В этом отношении «веса»  - учитывают относительную важность правильности разли­чия классов с номерами  и  среди всех возможных пар клас­сов, т. е.  суть аналоги весов , а  и  — это соответственно оценки математического ожидания и дисперсии случайной величины , вычисленные в предположении, что аргумент  принадлежит классу , т. е. оценённые по соответствующей обучающей выборке. В частности, известная линейная дискриминантная функция Фишера является решени­ем случая описанной схемы, когда .

Американский математик А. Вальд показал оптимальность дискриминантной функции Фишера и в бейесовском смысле, когда  и  — многомерные нормальные распределе­ния, отличающиеся друг от друга только векторами средних значений.

5. Таблица сопряженности и анализ соответствия

Таблица сопряженности (перекрёстная классификация, парная группировка), задаёт распределение объектов по катего­риям двух или нескольких нечисловых признаков.

Пусть имеется ряд предприятий и для каждого из них извест­ны размер (признак ) и уровень рентабельности (), разбитые соответственно на  и  категорий. Представим эти данные в виде таблицы сопряженности (табл. 5.1.)

Таблица 5.1.

Таблица сопряженности

Рентабельность

Размер

менее 5%

5-25%

более 25%

S

до 100 чел.

100-200 чел.

более 5000 чел.

S

Здесь  - число предприятий, попадающих в категорию размера  и категорию рентабельности ;

 - суммарное чис­ло предприятий размера , т. е. сумма  в строке ;

 -число предприятий, имеющих категорию рентабельности , или сумма по столбцу , а  - общее число предприятий в вы­борке.

Очевидно, что последний столбец () и последняя стро­ка () задают выборочные маргинальные распределения при­знаков  и  соответственно. Вместо целых чисел  в клетках могут стоять частоты  — или проценты.

Применение статистических методов зависит от того, как была получена анализируемая таблица. Рассмотрим следующие три выборочные схемы:

1) частоты одного из признаков фиксиро­ваны. Например, берётся по 100 предприятий каждого размера, и рассматриваются их распределения по рентабельности;

2) пред­полагается, что таблица является реализацией полиномиального распределения  объектов по  клеткам. Общее число объек­тов фиксировано;

3) третья схема возникает, когда  является случайной величиной.

Таблицу сопряженности можно рассматривать как двумерную гистограмму. Пер­вая выборочная схема позволяет сравнивать ряд одномерных гистограмм или распределения предприятий по рентабельности при всевозможных категориях размера. Имеются соответствующие статистические критерии. Для целей визуализации первая схема обладает тем преимуществом, что суммы по строкам (по столб­цам) зафиксированы, обычно берутся одинаковые маргинальные частоты, что позволяет сравнивать числа, содержащиеся в одном столбце (строке). При второй или третьей выборочных схемах  и  в общем случае нельзя сравнивать, так как различие может быть обусловлено неодинаковыми  и . Для нивелирования этих эффектов обычно считают проценты по строкам  или по столбцам .

Процедура мостеллеризации, при выполнении некоторых условий, позволяет так преобразовать таблицу, чтобы суммы по строкам и по столбцам были одновременно равны постоянной величине. По значениям в клетках полученной таблицы можно судить о близости соответствующих категорий признаков  и .

Если в таблице имеется много клеток с нулевыми значениями, то можно пытаться так переставить строки и столбцы, чтобы ненулевые элементы образовали блоки, расположенные вдоль глав­ной диагонали. Тем самым решается задача классификации.

Анализ соответствий позволяет одновременно представить категории обоих признаков и объекты как комбинации катего­рий, в виде точек в евклидовом пространстве (как правило, на плоскости), что позволяет лучше понять структуру данных, выявить аномальные наблюдения, возможные кластеры.

При проверке гипотезы о независимости признаков  и  предпочтительнее работать в предположениях второй или третьей вы­борочных схем. При этом оценка максимального правдоподобия элемента таблицы с номерами  равна . Если число строк равно числу столбцов, особенно когда  и имеют смысл одного признака различных объектов (мужчин и женщин) или состояния в два различных момента времени (таблица обмена), бывает полезно проверять гипотезы о симметричности таблицы и об однородности маргинальных распределений. Для таблицы об­мена имеет смысл гипотеза квази-симметричности: оценка элемен­та таблицы представляется в виде произведения , где  - показатель близости состояний  и ,  — показатель «отталкивания» i-ro, а  - «привлекательность» j-то состояния. Три последние гипотезы проверяются только для второй и третьей выборочных схем.

При проверке всех гипотез полезно определять вклады клеток исходной таблицы в статистику критерия. С их помощью можно понять, какие комбинации значений признаков нарушают гипотезу.

Если гипотеза о независимости отвергается, то можно пы­таться измерить тесноту связи рассматриваемых признаков. Для этого существуют многочисленные коэффициенты. Некото­рые из них (Пирсона, Чупрова, Крамера) основаны на величине отклонения наблюдаемых частот от значений, ожидаемых при гипотезе о независимости. Другие коэффициенты используют понятие количе­ства информации (мера Кульбака), относительную величину ошибки предсказания значения одного признака при известном другом (Х-меры). Для признаков, измеренных в ординальной шкале, имеются специальные меры (Гудмена—Краскала). Для некоторых мер известны распределения. Нулевое или очень ма­ленькое значение отдельного коэффициента в общем случае не говорит об отсутствии связи. Это свидетельствует лишь об отсутствии конкретного вида связи, который измеряется данным коэффициентом. Универсальная мера не существует.

Возможны многомерные таблицы сопряженности. Например, если предприятия, составляющие приведённую выше таблицу, принадлежат одному министерству и известны аналогичные таблицы для других ми­нистерств, то такие данные можно представить в виде трёхмер­ной таблицы сопряженности. Министерство будет определять двумерный слой. При этом у всех величин появится дополнительный индекс. Встреча­ются таблицы и большей размерности.

Имеются обобщения анализа соответствий и модели квази­симметричности на многомерные таблицы. Структура зависимо­сти в многомерных таблицах значительно сложнее, чем в дву­мерных, так как уже третий признак z может зависеть не только от признаков х и у в отдельности, но и от их взаимодействия. В общем случае возможны взаимодействия и более высоких порядков. Для формирования и проверки адекватности моделей многомерных таблиц используется аппарат лог-линейнного ана­лиза, являющегося наиболее строгим с математической точки зрения методом анализа нечисловых данных. Он обоб­щает многие известные модели, однако для его успешного при­менения необходимо большое, по сравнению с числом клеток в таблице, количество наблюдений. Содержательная интерпретация взаимодействий высоких порядков часто вызывает сложности.

Анализ соответствий (метод взаимных средних, опти­мальное шкалирование, канонический (компонентный) анализ качественных признаков) - это методология изучения таблиц сопря­жённости, основанная на представлении их строк и столбцов точками одного и того же многомерного пространства. Исполь­зуется преимущественно для визуализации данных.

Обозначим через  таблицу сопряжённости двух при­знаков, один из которых имеет значения , другой — , где  — вероятность (или другая характеристика) комбинации . Через  величину ранга матрицы  с эле­ментами , уменьшенную на единицу (здесь, как обычно, через  обозначены т. н. маргинальные вероятности , , которые предполагаются положительными).

Рассмотрим -мерные векторы  и , представляющие строки и столбцы таблицы сопряжённости точ­ками -мерного пространства таким образом, что для всех  и  выполняются равенства

,

где  — положительные вещественные числа, упорядоченные по убыванию, так что . Отдельные оси  интерпретируются как «внутренние факторы», объясняющие наблю­дённые значения . В анализе соответствия требуется, чтобы факторы  и удовлетворяли не только указанным ра­венствам, но и условиям ортонормированности в следующей фор­ме: для всех

.

Такая система факторов существует и определяется единствен­ным образом в терминах сингулярного разложения матрицы  с элементами . А именно, если ,  - совокупность сингулярных троек, где , а {) и {} - ортонормированные (в обычном смысле) совокупности #-мерных и #-мерных векторов, для которых справедливы равен­ства , , то факторное решение определяется формулами , ,  () (при этом , , ). Иногда используют не­сколько иную нормировку факторов, рассматривая  и  вместо  и  соответственно (с очевидной модификацией фак­торных соотношений).

Отсюда вытекает т. н. декомпозиция коэффициента сопря­жённости признаков

,

позволяющая интерпретировать величину  как характеристи­ку весомости фактора . Для визуализации строк и столбцов обычно используется плоскость первых двух факторов (т. е. первые две компоненты векторов  и ).

Формулы, связывающие сингулярные векторы  и  приво­дят к т. н. формулам перехода, выражающим векторы  и  друг через друга:

,

,

которые означают, что в некотором условном смысле точки  являются центрами тяжести точек  и наоборот.

Теория статистической оценки выборочных результатов осно­вана на теории распределений собственных чисел и векторов матриц данных. Например, величина

,

где  - число наблюдений, имеет асимптотическое распределе­ние  с  степенями свободы.

Рассмотрим наиболее известные интерпретации анализа соответствия.

1. Метрика  в пространствах строк и столбцов. Строка  представляется т. н. профилем - -мерным вектором услов­ных вероятностен , , с приписанным ему весом . Профили столбцов задаются аналогично как -мерные векторы условных вероятностей  (с весами ). Маргинальная строка  является центром тяжести профилей строк. Расстояние меж­ду профилями  в метрике  вычисляется по формуле , где  - диагональная  матрица маргинальных величин .

Коэффициент сопряжённости  может быть представлен в виде , что объясняет название метрики.

Метрика  обладает следующим свойством инвариантности: если два столбца таблицы сопряжённости имеют один и тот же профиль, то расстояние в пространстве профилей строк не изме­нится, если объединить их в один столбец (путём суммирования). Аналогичное справедливо и для пространства столбцов.

Главное свойство метрики  — расстояние  со­впадает с евклидовым расстоянием между  и .

2. Канонический анализ номинальных признаков. Пусть  и  — множества значений (категорий, градаций) двух качествен­ных признаков, заданных на одном и том же множестве  объек­тов, занумерованных индексами . Сопоставим призна­кам матрицы  размерности  и  размерности . Эле­мент  матрицы  равен 1, если на объекте  первый при­знак принимает значение , и 0 - в противном случае. Аналогич­но определяются элементы матрицы .

Рассмотрим векторы  и  произвольных число­вых меток значений признаков и векторы  и  их значений на объектах, полученных в результате указанной оциф­ровки. Задача состоит в том, чтобы выбрать векторы  таким образом, чтобы коэффициент корреляции между этими вектора­ми был максимален (задача канонического анализа двух сово­купностей векторов — столбцов матриц  и ). Для того, чтобы нормированные векторы  являлись оптимальными, необхо­димо, чтобы они были собственными (левым и правым) векто­рами матрицы  (где  - матрица оператора ортогонального проектирования па подпространство  векторов вида  при всевозможных , и аналогично  для ), соответствующими ненулевым собственным числам, ко­торые равны  (). Соответствующие векторы  и  являются собственными векторами матриц  и , где  и , отвечающими тем же соб­ственным числам, и совпадают с векторами  и  ().

Это означает, что множества  и {Ga} () первых  факторов, получаемых при анализе соответствий, определяют такие «оцифров­ки» качественных градаций  и , которые образуют ортонормированные подбазисы пространств  и , максимально согласованные в том смысле, что косинусы углов  между соответствующими ортами максимальны.

3. Оптимальная дискриминация. Для матрицы сопряжённос­ти  двух номинальных признаков с градациями ,  заданных на  объектах рассматривается проблема: при­писать градациям  такие числовые значения , чтобы соответ­ствующие им оценки объектов были как можно более однород­ными «внутри» категорий  и как можно более контрастными для разных . Обозначим через  среднюю оценку, полученную объектами, имеющими градацию , а через  - среднюю оценку произвольного объекта. Тогда внутригрупповой разброс характеризуется величиной , где  - условная дисперсия оценок, а межгрупповой - величи­ной , причём задача состоит в том, чтобы мини­мизировать отношение . Решение этой задачи определя­ется первым фактором анализа соответствий, так что оптимальные векторы  и  равны соответственно  и .

В конце 1980-х гг. предложен ряд обобщений анализа соответствий для ситуаций, когда данные имеют более сложный характер, в частно­сти, для многомерных и динамических данных.

Литература

1. Айвазян С. А., Енюков И. С, Мешалкин Л. Д., Прикладная статистика. Исследование зависимостей, М.~, 1985.

2. Bishop Y., Fienberg S., Holland W., Discrete multivariate analysis; theory and practice, Cambrige, 1976.

3. Caillez J. Pages, l'introduction a l'analyse de donnees, Paris, 1979.

4. Lebart L., Morineau A., Warwick K., Multivariate Descriptive Statistical analysis, N. Y., 1984.

Лекция "Истоки, ресурсы и виды экологического туризма" также может быть Вам полезна.

5. Антон Г., Анализ таблиц сопряжённости, пер. с англ., М., 1982

6. Кендалл М. Г., Стьюарт А., Статистические выводы и связи, пер. с англ., М., 1973

7. Жамбю М., Иерархический кластер-анализ и соответствия, пер. с франц., М., 1988

8. Айвазян С. А. и др., Прикладная статистика: классификация и снижение размерности, М., 1989

9. Nishisato S., Analysis of categorical data: Dual scaling and its applications, Toronto: Univ. of Toronto Press, 1980

10. Hey den P. van dcr, Correspondence analysis of longitudional data, Leiden, 1988.

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5168
Авторов
на СтудИзбе
438
Средний доход
с одного платного файла
Обучение Подробнее