Популярные услуги

Статистический анализ

2021-03-09СтудИзба

Власов М. П.

конспект лекций по дисциплине
Компьютерные методы статистического анализа и прогнозирование

ТЕМА 3 Статистический анализ

Содержание

стр.

1. Ковариационный анализ …………………………………………….. 2

2. Дисперсия и дисперсионный анализ ……………………..…………. 5

Рекомендуемые материалы

Определить величину годовых амортизационных отчислений при средней норме амортизации 10%, если стоимость основных средств на 01.01.ХХ составляла 10210 д.е., 01.03.ХХ было введено в действие оборудование стоимостью 2013 д.е., а с 01.09.ХХ выбыло основ
Анализ финансового состояния финансовой организации ПАО АКБ "Авангард" и рекомендации по его улучшению
Черная масса вала руля – 8,5 кг. Чистая масса – 7 кг. Цена заготовки – 1,15 д.е. Цена отходов – 7,01 д.е. за тонну. Заработная плата на всех опера-циях вала составила 0,28 д.е. Расходы по цеху составляют 250%, общеза-водские расходы – 130% от заработ
FREE
Анализ основных средств предприятия ООО "Империя Мебели"
FREE
Комплексный экономический анализ хозяйственной деятельности
FREE
Комплексный экономический анализ хозяйственной деятельности

3. Многомерный статистический анализ …………………………….. 11

4.Факторный анализ …………………………………………………… 21

Санкт-Петербург 2008

1. Ковариационный анализ

Ковариационная матрица образуется из попарных ковариаций нескольких случайных величин. Для -мерного случайного вектора  ковариационная матрица является квадратной матрицей ,  с компонентами

.

На главной диагонали ковариационной матрицы находятся дисперсии величин , т.е. . Все ковариационные матрицы являются симметричными (т.е. ) и неотрицательно определёнными. Если ковариационная матрица поло­жительно определена, то распределение  называют невырож­денным. Для оценки  по выборке  (где ), используют выборочную ковариационную матрицу

,

где  — вектор-столбец арифметических средних . Если случайные векторы  имеют нормальное распределение с ковариационной матрицей , то  является оценкой максимального правдоподобия для .

Ковариационный анализ представлен совокупностью методов и результатов, относящихся к математико-статистическому ана­лизу моделей. Эти модели предназначены для исследования зависимо­сти среднего значения некоторого количественного результи­рующего показателя  от набора неколичественных факторов  и одновременно от набора количественных (регрессионных или сопутствующих) переменных . Результирующий признак  может быть векторным (тогда говорят о многомерном ковариационном анализе).

Неколичественные факторы  задают сочетания условий (качественной природы), в которых производилась фиксация каждого из наблюдений (экспериментальных значений)  и , и описываются обычно с помощью т. н. индикаторных пере­менных. Среди индикаторных и сопутствующих переменных могут быть, как случайные, так и не случайные (контролируе­мые в эксперименте).

Основные теоретические и прикладные разработки по ковариационному анализу относятся к линейным моделям. В частности, если анализиру­ется схема из  наблюдений со скалярным результирующим признаком , с  возможными типами условий эксперимента и с  сопутствующими переменными , то линей­ная модель соответствующего ковариационного анализа задаётся уравнениями:

, ,  (1.1)

где индикаторные переменные , если условие  экспери­мента имело место при наблюдении , и равны нулю — в про­тивном случае; коэффициенты  - определяют эффект влияния условия ;  — значение сопутствующей переменной , при котором наблюдался результирующий признак  (; );  — значения соответствующих ко­эффициентов регрессии  по  вообще говоря, зависящие от конкретного сочетания условий эксперимента, т. е. от вектора , а  - величина остаточных случай­ных компонент («ошибок измерения»), имеющих нулевые средние значения. Основное содержание ковариационного анализа — в построении статистических оценок для неизвестных параметров ;  и статистических критериев, предназначенных для проверки различных гипотез относительно значений этих параметров.

Если в (1.1) постулировать априори , то полу­чится модель дисперсионного анализа; если же из (3.1) исклю­чить влияние неколичественных факторов (т. е. положить ), то получится линейная модель регрессионного анализа. Своим названием ковариационный анализ обязан тому обстоятельству, что в его вычислениях используются разбиения ковариаций пе­ременных  и  точно так же, как в дисперсионном анализе ис­пользуются разбиения остаточной суммы квадратов.

Считается, что термин «ковариационный анализ» введён английским статисти­ком Р. А. Фишером в связи с рассмотрением одной частной схемы этой модели в § 49 144-го издания книги •«Статистиче­ские методы для исследователей» (пер. с англ., М., 1958).

Для оценивания неизвестных значений параметров и про­верки гипотез в линейной модели ковариационного анализа (1.1), запишем её в мат­ричном виде:

или

                               (1.1”.)

где  — вектор-столбец наблюдений результирующе­го показателя;  — матрица плана эксперимента по неколичественным факторам ;

 — вектор-стол­бец неизвестных параметров, соответствующих неколичествен­ным факторам (общее среднее, главные эффекты, взаимодейст­вия и т. п.);

 —- матрица плана регрессионных (коли­чественных) объясняющих переменных;

 — вектор-столбец параметров (неизвестных коэффициентов регрессии);

 — вектор-столбец случайных остатков модели, под­чиняющийся нормальному распределению , где остаточная дисперсия  неизвестна (подлежит оцениванию). Предполагается, что тип условий эксперимента  («способ обработки» — в исходной терминологии дисперсионного анали­за) не влияет на матрицу плана регрессионных экспериментов , т. е. столбцы матрицы X линейно не зависят от столбцов матрицы  (существенное предположение). К несуществен­ным предположениям относятся допущения о том, что матрицы  и  имеют полный ранг (соответственно  и ) и что не име­ется ограничении на параметры . Запись (), где  и  - матрицы с одинаковым количеством строк, означает матрицу, полученную присоединением столбцов матрицы  к столбцам матрицы . Аналогично  — это матрица, полученная присоединением к строкам матрицы  строк матрицы  (где  и  — матрицы с одинаковым количеством столбцов). Существенное отличие моделей (1.1)-(1.1”) от внешне похожих на них моделей регрессионного и классического ковариационного анализа — в зависи­мости коэффициентов  от неколичественных переменных . В этом случае анализ моделей осуществляется с помощью спе­циальных методов расщепления смесей.

Для нахождения оценок  и  неизвестных параметров  и  можно было бы формально рассмотреть (1.1') как одну боль­шую модель регрессии и применить к ней обычный метод наи­меньших квадратов. Однако можно добиться существенного упрощения анализа за счёт использования специального строе­ния матрицы () и знаний специфики модели дисперсион­ного анализа.

2. Дисперсия и дисперсионный анализ

Дисперсия это мера  случайного рассеивания значений случайно величины  от её математического ожидания , определяемая равенством

.

Когда говорят о дисперсии случайной величины , всегда предпола­гают, что существует математическое ожидание , при этом дисперсия  может существовать (т. е. быть конечной) или не существовать (т. е. быть бесконечной). Для дискретной слу­чайной величины , принимающей не более чем счётное число различных значений  с вероятностями

,

если  имеет плотность распределения , то

,

в общем случае

,

где  — функция распределения случайной величины  и интеграл понимается в смысле Лебега —Стильтьеса или Римана — Стильтьеса.

Помимо дисперсии можно рассматривать и другие меры отклонения случайной величины от её математического ожидания, напри­мер ,  и т.д., а также меры, основанные на квантилях. Важность дисперсии объясняется той ролью, которую играет это понятие для предельных теорем теории вероятно­стей и в математической статистике при обработке наблюдений. В качестве оценки  дисперсии  по выборке  не­зависимых наблюдений, распределение которых совпадает с распределением , рассматривают

, .

Из определения дисперсии (и из свойств математического ожида­ния) можно вывести следующие её свойства:

а)  ( — некоторая неслучайная величина);

б) ;

в)  ( и  — некоторые неслучайные вели­чины);

г) .

Часто для обозначения дисперсии используют греческую букву «сигма» (в квадрате), т.е. записывают .

Дисперсионный анализ это статистический метод, предназначенный для выявления влияния нескольких одно­временно действующих факторов на исследуемый показатель (наблюдаемую величину). Термин «Дисперсионный анализ» был введён в ста­тистическую практику английским статистиком Р. Фишером (1925) и изначально этот анализ широко использовался при прове­дении сельскохозяйственных экспериментов. Современные приложения дисперсионного анализа охватывают широкий круг задач экономики, социологии, биологии и техники и трактуются обычно в терми­нах статистической теории выявления систематических разли­чий между результатами непосредственных измерений, выпол­ненных при тех или иных меняющихся условиях.

Дисперсионный анализ обычно подразумевает, что эксперимент организован в соответствии с планом, позволяющим при сравнительно малом числе измерений независимо оценить влияние каждого из фак­торов на измеряемый количественный показатель. Сами фак­торы могут быть и качественными и количественными. Приме­нение дисперсионного анализа при пассивных наблюдениях, например, в экономи­ке, подразумевает надлежащий отбор групп данных из более богатой совокупности данных.

В основе дисперсионного анализа лежит следующая вероятностная модель:

,             (2.1)

где  — неизвестные параметры, отражающие влияние пере­менной  на измеряемую величину , индекс  помечает номер измерения. Ошибки  предполагаются случайными величина­ми с нулевыми средними, постоянной дисперсией  и незави­симыми в совокупности. Большинство теоретических резуль­татов в дисперсионном анализе развиты для ошибок, распределённых по норма­льному закону.

В дисперсионном анализе переменные  принимают целочисленные значения, обычно это 0 и 1. При непрерывном изменении этих факторов (2.1) относится к регрессионному анализу. Если в (2.1) входят факторы обоих видов, то говорят о ковариационном анализе. Очевидно, что все три случая поглощаются регрессионным анализом. Однако, учёт структуры переменных позволяет раз­вить методы статистически более прозрачные и вычислительно более удобные.

Иногда в (2.1) предполагается, что параметры  — случай­ные величины. Тогда говорят о модели со случайными факто­рами. Термин «смешанная модель» применяют, когда в (2.1) вхо­дят случайные и постоянные параметры .

Однофакторный анализ, несмотря на свою простоту, иллю­стрирует основные идеи дисперсионный анализа. Модель (2.1) можно записать в следующем виде:

,, ,               (2.2)

где вместо одного индекса  введено два  (поэтому  помечено одним индексом),  удовлетворяет тем же требованиям, что . Одной из наиболее популярных «нулевых» гипотез , проверяемых в рамках дисперсионного анализа, является гипотеза о ра­венстве всех . Параметр  может быть, например, истолкован как производительность предприятия , урожайность сорта  какой-либо сельскохозяйственной культуры и т. д.

Очевидно, что (2.2) может быть проанализировано в рамках регрессионного анализа через оценивание параметров . Подоб­ный подход приводит хотя и к простым, но довольно громозд­ким вычислениям и требует обращения к понятию функции, допускающей оценку. Этот факт, по-видимому, и способство­вал развитию дисперсионного анализа (расцвет дисперсионного анализа относится к докомпьютерной эре). Основная идея проверки гипотезы  заключается в сле­дующем:

строятся две независимые оценки дисперсии случайной ве­личины  одна из которых предполагает выполнение гипотезы , а другая — нет. Затем составляется их отношение, которое должно иметь центральное -распределение при выполнении  и нецентральное -распределение с параметром нецентральности, определяемым разбросом (дисперсией) параметров .

Можно показать, что такими двумя оценками являются:

,

,

где , , , т. е. отношение

имеет -распределение с  и  степенями свободы. Параметр нецентральности равен:

,

.

По -критерию гипотеза  отвергается с уровнем значимости , если . Параметр  определяет мощность -критерия, однако он полезен скорее для более глубокого понима­ния задачи проверки гипотезы, нежели для практических вы­водов, т. к.  неизвестны.

Во многих исследованиях по дисперсионному анализу вместо записи (3.2) предпо­лагают использовать представление:

, .                    (2.3.)

Гипотеза  предполагает теперь, что все  равны. Данное представление более удобно при рассмотрении задач много­факторного дисперсионного анализа.

Многофакторный анализ. Предположим, что анализируя производительность предприятия  нужно оценить эффект использования технологии . Тогда по аналогии с (3.3) целесообразно рассмотреть следующую модель:

,

, , .                     (2.4.)

Отсюда можно выписать аналоги (2.1) и (2.2). Константа ( называется парным взаимодействием факторов  и .

Очевидно, что в рамках (2.4) естественным образом можно сформулировать довольно много гипотез, достойных экспери­ментальной проверки. Наиболее популярны следующие:

, ;

, ;

, , .

Например, гипотеза  может трактоваться как гипотеза о несущественности того, на каком предприятии какая техно­логия используется для производства.

Идея проверки гипотез так же, как и в однофакторном ана­лизе, состоит в построении независимых оценок для дисперсии случайной величины  причём оценки конструируются в предположении справедливости или гипотезы , или , или , или  и  вместе и т. д.

Сравнивая (2.3) и (2.4), можно построить модели и для больше­го числа факторов. Следует лишь иметь в виду, что при неско­льких факторах можно (но необязательно) ввести тройные, четверные и т. д. взаимодействия. Обычно независимо от коли­чества анализируемых факторов ограничиваются лишь парны­ми взаимодействиями.

В отличие от однофакторного случая при многофакторном дисперсионном анализа не любое распределение наблюдений  по ячейкам (i,j...) позволяет конструировать независимые оценки для  при раз­личных гипотезах. Задача разумного выбора  составляет один из важнейших (и старейших) разделов математической теории планирования эксперимента. Особый практический интерес эта задача представляет при значительном количестве факторов. Предположив, что в каждой из ячеек ... проводят­ся  наблюдений, легко убедиться в необходимости ... наблюдений для реализации всего эксперимента. Использова­ние специальных планов позволяет резко сократить количест­во необходимых наблюдений.

3. Многомерный статистический анализ

Многомерный статистический анализ это раздел математической статистики, посвященный математическим методам построения оптимальных планов сбора, систематиза­ции, обработки и интерпретации многомерных статистических данных, нацеленным, в первую очередь, на выявление харак­тера и структуры взаимосвязей между компонентами исследуе­мого многомерного признака и предназначенным для полу­чения научных и практических выводов. Под многомерным признаком понимается -мерный вектор  по­казателей (признаков, переменных) , среди кото­рых могут быть: количественные, т. е. скалярно измеряющие в определённой шкале степень проявления изучаемого свойства объекта; порядковые (или ординальные), т.е. позволяющие упорядочивать анализируемые объекты по степени проявления в них изучаемого свойства; классификационные (или номина­льные), т. е. позволяющие разбивать исследуемую совокуп­ность объектов на не поддающиеся упорядочиванию однород­ные (по анализируемому свойству) классы. Результаты изме­рения этих показателей

                         (3.1.)

на каждом из  объектов исследуемой совокупности образуют последовательность многомерных наблюдений, или исходный массив многомерных данных для проведения многомерного статистического анализа. Значи­тельная часть многомерного статистического анализа обслуживает ситуации, в которых иссле­дуемый многомерный признак интерпретируется как много­мерная случайная величина и, соответственно, последователь­ность многомерных наблюдений (3.1) — как выборка из генераль­ной совокупности. В этом случае выбор методов обработки исходных статистических данных и анализ их свойств произ­водится на основе тех или иных допущений относительно при­роды многомерного (совместного) закона распределения веро­ятностей .

По содержанию многомерный статистический анализ может быть условно разбит на три основных подраздела:

· многомерный статистический анализ многомерных распределений и их основных характеристик;

· многомерный статистический анализ характера и структуры взаимосвязей между компонентами исследуемого многомерно­го признака;

· многомерный статистический анализ геометрической структуры исследуемой совокупности многомерных наблюдений.

Многомерный статистический анализ многомерных распределений и их основных харак­теристик охватывает лишь ситуации, в которых обрабатывае­мые наблюдения (3.1.) имеют вероятностную природу, т.е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относят­ся:

· статистическое оценивание исследуемых многомерных распределений, их главных числовых характеристик и парамет­ров;

· исследование свойств используемых статистических оце­нок;

· исследование распределений вероятностей для ряда статистик, с помощью которых строятся статистические крите­рии проверки различных гипотез о вероятностной природе анализируемых многомерных данных.

Основные результаты относятся к частному случаю, когда исследуемый признак  подчинён многомерному нормальному закону распределения , функция плотности которого  задаётся соотношением

                             (3.2.)

где  — вектор математических ожиданий ком­понент случайной величины , т.е. , , a  — ковариационная матрица случайного век­тора , т.е.  — ковариации компонент вектора  (рассматривается невырожденный случай, когда ранг ; в противном случае, т. е. при ранге , вce результаты остаются справедливыми, но применительно к под­пространству меньшей размерности , в которой оказывается сосредоточенным распределение вероятностей исследуемого случайного вектора ).

Так, если (3.1.) — последовательность независимых наблюдений, образующих случайную выборку из , то оценками максимального правдоподобия для параметров  и , уча­ствующих в (3.2.), являются соответственно статистики

                             (3.3.)

и

,                   (3.4.)

причём случайный вектор  подчиняется -мерному нормальному закону  и не зависит от , а совместное распре­деление элементов матрицы  описывается т. н. распре­делением Уишарта, плотность которого

В рамках этой же схемы исследованы распределения и мо­менты таких выборочных характеристик многомерной случай­ной величины, как коэффициенты парной, частной и множест­венной корреляции, обобщённая дисперсия (т. е. статистика ), обобщённая  — статистика Хотеллинга. В частности, если определить в качестве выборочной ковариационной матрицы  подправленную «на несмещённость» оценку , а именно

,

то распределение случайной величины  стре­мится к  при , а случайные величины

                     (3.6.)

и

  (3.7.)

подчиняются -распределениям с числами степеней свободы соответственно  и . В соотношении (3.7.)  и  — объёмы двух независимых выборок вида (3.1.), из­влечённых из одной и той же генеральной совокупности  — оценки вида (3.3.) и (3.4.) —(3.5.), построенные по выборке , а

— общая выборочная ковариационная матрица, построенная по оценкам  и .

Многомерный статистический анализ характера и структуры взаимосвязей компонент ис­следуемого многомерного признака объединяет в себе понятия и результаты, обслуживающие такие методы и модели многомерного статистического анализа, как множественная регрессия, многомерный дисперсионный анализ и ковариационный анализ, факторный анализ и метод главных компонент, анализ канонических корреляций. Результаты, составляющие содержание этого подраздела, могут быть условно разделены на два основных типа.

1) Построение наилучших (в определённом смысле) стати­стических оценок для параметров упомянутых моделей и ана­лиз их свойств (точности, а в вероятностной постановке — законов их распределения, доверительных областей и т. д.). Так, пусть исследуемый многомерный признак  интерпретируется как векторная случайная величина, подчинённая -мерному нормальному распределению , и расчленён на два подвектора-столбца  и  размерности  и  соответст­венно. Это определяет и соответствующее расчленение вектора математических ожиданий , теоретической и выборочной ко­вариационных матриц  и , а именно:

,  и .

Тогда условное распределение подвектора  (при условии, что второй подвектор принял фиксированное значение  будет также нормальным . При этом оценками максимального правдоподобия  и  для матриц регрессионных коэффициентов  и ковариаций  этой клас­сической многомерной модели множественной регрессии

                               (3.8.)

будут взаимно независимые статистики соответственно

 и ;

здесь распределение оценки  подчинено нормальному закону , а оценки  — закону Уишарта с параметрами  и  (элементы ковариационной матрицы  выра­жаются в терминах элементов матрицы ).

Основные результаты по построению оценок параметров и исследованию их свойств в моделях факторного анализа, глав­ных компонент и канонических корреляций относятся к анали­зу вероятностно-статистических свойств собственных (харак­теристических) значений и векторов различных выборочных ковариационных матриц.

В схемах, не укладывающихся в рамки классической норма­льной модели, и тем более в рамки какой-либо вероятностной модели, основные результаты относятся к построению алго­ритмов (и исследованию их свойств) вычисления оценок пара­метров, наилучших с точки зрения некоторого экзогенно за­данного функционала качества (или адекватности) модели.

2) Построение статистических критериев для проверки раз­личных гипотез о структуре исследуемых взаимосвязей. В рам­ках многомерной нормальной модели (последовательности на­блюдений вида (3.1.) интерпретируются как случайные выборки из соответствующих многомерных нормальных генеральных совокупностей) построены, например, статистические крите­рии для проверки следующих гипотез.

I. Гипотезы  о равенстве вектора математических ожи­даний исследуемых показателей заданному конкретному век­тору ; проверяются с помощью -статистики Хотеллинга с подстановкой в формулу (3.6.) .

II. Гипотезы  о равенстве векторов математических ожиданий в двух генеральных совокупностях (с одинаковыми, но неизвестными ковариационными матрицами), представлен­ных двумя выборками; проверяются с помощью статистики .

III. Гипотезы  о равенстве векторов математических ожиданий в нескольких генеральных совокуп­ностях (с одинаковыми, но неизвестными ковариационными матрицами), представленных своими выборками; проверяются с помощью статистики

,

в которой  есть -мерное наблюдение  в выборке объёма , представляющей генеральную совокупность , а  и  — оценки вида (3.3.), построенные соответственно отдельно по каждой из выборок и по объединённой выборке объёма .

IV. Гипотезы  и  об эк­вивалентности нескольких нормальных генеральных совокуп­ностей, представленных своими выборками , , проверяются с помощью статистики

,

в которой  — оценка вида (4.4), построенная отдельно по на­блюдениям выборки , .

V. Гипотезы о взаимной независимости подвекторов - столбцов  размерностей соответственно , на которые расчленён исходный -мерный вектор исследу­емых показателей , ; проверяются с по­мощью статистики

,

в которой  и  — выборочные ковариационные матрицы вида (3.4.) для всего вектора  и для его подвектора  соответ­ственно.

Многомерный статистический анализ геометрической структуры исследуемой совокуп­ности многомерных наблюдений объединяет в себе понятия и результаты таких моделей и схем, как дискриминантный ана­лиз, смеси вероятностных распределений, кластер-анализ и таксономия, многомерное шкалирование. Узловым во всех этих схемах является понятие расстояния (меры близости, меры сходства) между анализируемыми элементами. При этом анализируемыми могут быть как реальные объекты, на каждом из которых фиксируются значения показателей , — тогда геометрическим образом обследованного объекта  будет точка  в соответствующем -мерном пространстве, так и сами показатели ,  — тогда геометрическим образом показателя  будет точка  в соответствующем -мерном пространстве.

Методы и результаты дискриминантного анализа направле­ны на решение следующей задачи. Известно о существовании определённого числа  генеральных совокупностей и име­ется по одной выборке из каждой совокупности («обучающие выборки»). Требуется построить основанное на имеющихся обучающих выборках наилучшее в определённом смысле классифицирующее правило, позволяющее приписать некоторый новый элемент (наблюдение ) к своей генеральной совокуп­ности в ситуации, когда заранее неизвестно, к какой из сово­купностей этот элемент принадлежит. Обычно под классифицирующим правилом понимается последовательность действий: по вычислению скалярной функции от исследуемых показателей, по значениям которой принимается решение об отнесении элемента к одному из классов (построение дискриминантной функции); по упорядочению самих показателей по степени их информативности с точки зрения правильного отне­сения элементов к классам; по вычислению соответствующих вероятностей ошибочной классификации.

Задача анализа смесей распределений вероятностей чаще всего (но не всегда) возникает также в связи с исследованием «геометрической структуры» рассматриваемой совокупности. При этом понятие однородного класса  формализуется с помощью генеральной совокупности, описываемой некоторым (как правило, унимодальным) законом распределения , так что распределение общей генеральной совокупно­сти, из которой извлечена выборка (4.1.), описывается смесью распределений вида

,

где  — априорная вероятность (удельный вес элементов) класса  в общей генеральной совокупности. Задача состоит в «хорошем» статистическом оценивании (по выборке ) неизвестных параметров 0Г, а иногда и . Это, в частности, по­зволяет свести задачу классификации элементов к схеме дискриминантного анализа, хотя в данном случае отсутствовали обучающие выборки.

Методы и результаты кластер-анализа (классификация, так­сономии, распознавания образов «без учителя») направлены на решение следующей задачи. Геометрическая структура ана­лизируемой совокупности элементов задана либо координата­ми соответствующих точек (т.е. матрицей , , ), либо набором геометрических характеристик их взаимного расположения, например, матрицей попарных рас­стояний . Требуется разбить исследуемую совокуп­ность элементов на сравнительно небольшое (заранее извест­ное или нет) число классов так, чтобы элементы одного класса находились на небольшом расстоянии друг от друга, в то вре­мя как разные классы были бы по возможности достаточно взаимоудалены один от другого и не разбивались бы на столь удалённые друг от друга части.

Задача многомерного шкалирования относится к ситуации, когда исследуемая совокупность элементов задана с помощью матрицы попарных расстояний  и заключается в при­писывании каждому из элементов заданного числа  коорди­нат таким образом, чтобы структура попарных взаимных рас­стояний между элементами, измеренных с помощью этих вспо­могательных координат, в среднем наименее отличались бы от заданной. Следует заметить, что основные результаты и мето­ды кластер-анализа и многомерного шкалирования развивают­ся обычно без каких-либо допущений о вероятностной природе исходных данных.

Прикладное значение многомерного статистического анализа состоит в основном в обслужи­вании следующих трёх проблем.

Проблема статистического исследования зависимостей меж­ду анализируемыми показателями. Предполагая, что исследуе­мый набор статистически регистрируемых показателей  раз­бит, исходя из содержательного смысла этих показателей и окончательных целей исследования, на -мерный подвектор  предсказываемых (зависимых) переменных и -мер­ный подвектор  предсказывающих (независимых) перемен­ных, можно сказать, что проблема состоит в определении на основании выборки (3.1.) такой -мерной векторной функции  из класса допустимых решений , которая давала бы наилучшую, в определённом смысле, аппроксимацию поведе­ния подвектора показателей . В зависимости от конкретно­го вида функционала качества аппроксимации и природы ана­лизируемых показателей приходят к тем или иным схемам множественной регрессии, дисперсионного, ковариационного или конфлюентного анализа.

Проблема классификации элементов (объектов или показа­телей) в общей (нестрогой) постановке заключается в том, что­бы всю анализируемую совокупность элементов, статистически представленную в виде матрицы , , , или матрицы , , разбить на сравнительно не­большое число однородных, в определённом смысле, групп. В зависимости от природы априорной информации и конкрет­ного вида функционала, задающего критерий качества класси­фикации, приходят к тем или иным схемам дискриминантного анализа, кластер-анализа (таксономии, распознавания образов «без учителя»), расщепления смесей распределений.

Проблема снижения размерности исследуемого факторного пространства и отбора наиболее информативных показателей заключается в определении такого набора сравнительно небо­льшого числа показателей , найденно­го в классе допустимых преобразований  исходных пока­зателей , на котором достигается верхняя грань некоторой экзогенно заданной меры информативности -мерной системы признаков. Конкретизация функционала, задающего меру автоинформативности (т. е. нацеленного на максимальное сохранение информации, содержащейся в стати­стическом массиве (4.1.) относительно самих исходных призна­ков), приводит, в частности, к различным схемам факторного анализа и главных компонент, к методам экстремальной группировки признаков. Функционалы, задающие меру внешней информативности, т. е. нацеленные на извлечение из (3.1.) мак­симальной информации относительно некоторых других, не содержащихся непосредственно в  показателей или явлений, приводят к различным методам отбора наиболее информатив­ных показателей в схемах статистического исследования зави­симостей и дискриминантного анализа.

Основной математический инструментарий многомерного статистического анализа состав­ляют специальные методы теории систем линейных уравнений и теории матриц (методы решения простой и обобщённой зада­чи о собственных значениях и векторах; простое обращение и псевдообращение матриц; процедуры диагонализации матриц и т. д.) и некоторые оптимизационные алгоритмы (методы покоординатного спуска, сопряжённых градиентов, ветвей и границ, различные версии случайного поиска и стохастической аппроксимации и т. д.).

4. Факторный анализ

Факторный анализ представляет совокупность методов построения математических моделей, позволяющих восстановить предпола­гаемую структуру, лежащую в основе наблюдаемых данных, для их описания в сжатом и интерпретируемом виде. Под струк­турой понимается небольшое число ненаблюдаемых переменных, называемых факторами, а также их количественное преобразо­вание в наблюдаемые переменные (показатели, признаки, индек­сы и т. п.). В общем случае ни число факторов, ни их количе­ственные значения для наблюдений, ни вид их преобразований в наблюдаемые переменные не известны и должны определяться в результате факторного анализа только из наблюдаемых данных. Таким обра­зом, факторный анализ позволяет количественно описать предполагаемый механизм порождения наблюдаемых данных. Математические модели факторного анализа, имеющие вероятностную природу, относятся к многомерному статистическому анализу и факторный анализ является его разделом. В противном случае факторный анализ — раздел. Рассмотрим следующий простой физический пример (задача о цилиндрах). Предположим, что 12 переменных - функции ради­уса основания () и высоты ) 30 прямых круговых цилинд­ров. Каждой переменной соответствует формула:

1. Диагональ ()

.

2. Площадь основания ()

.

3. Площадь боковой поверхности ()

.

4. Площадь полной поверхности ()

.

5. Объём ()

.

6. Полнота ()

.

7. Угол между диагональю и основанием ()

.

8. Угол между диагональю и боковой поверхностью ()

.

9. Момент инерции ()

.

10. Электросопротивление ()

.

11. Электропроводность ()

.

12. Деформация кручения ()

.

Здесь все функции нелинейные и содержат степени и триго­нометрические преобразования. Сначала случайным образом за­дадим радиус основания  и высоту  30 цилиндров (напри­мер, сгенерировав 60 случайных чисел). Эти 60 чисел можно представить в виде матрицы размера 30x2. Затем по формулам преобразования  и  в 12 переменных  получим вторую матрицу данных 30x12. Далее на 12 переменных каждо­го цилиндра наложим независимые нормальные ошибки с нуле­вым средним и заданными дисперсиями. В результате получим третью матрицу данных 30x12. Все 12 переменных физически значимы и, в принципе, их можно измерить фактически, причём с некоторой ошибкой измерения. В этом примере истинная струк­тура, лежащая в основе третьей матрицы данных 30x12, извест­на и представляет собой две основные переменные (радиус ос­нования и высота цилиндров), их истинные значения для 30 цилиндров, а также функции преобразования радиуса и высоты в 12 переменных. Факторный анализ применяется к третьей матрице данных 30x12 для восстановления истинной структуры, порождающей эти данные. При этом предполагается, что ни число основных переменных, ни их значения для 30 наблюдений, ни вид функ­ций преобразования не известны и требуют определения. При­чём не предполагается даже, что наблюдаемые данные относят­ся к цилиндрам. Структура, полученная в результате факторного анализа, сравнивается с истинной. Сравнение показывает очень хорошее соответствие восстановленной и истинной структур.

Предполагаемый механизм порождения наблюдаемых данных в классической линейной модели факторного анализа описывается следующим образом:

,                                  (4.1)

где  -  случайный вектор наблюдаемых величин,

,  (здесь  - знак математического ожида­ния);

 -  неизвестная матрица нагрузок общих факторов на наблюдаемые величины;

 —  () ненаблюдаемый случайный вектор общих факторов, ,  (иногда  интерпретируется как вектор неизвестных взаимно ортогональ­ных нормированных неслучайных параметров);

 —  случай­ный вектор ошибок или, т. н., специфических факторов, , , , где  - неизвестная диагональная кова­риационная матрица. Из модели (6.1.) следует, что

.                                       (4.2.)

Параметры  и , общие для всех наблюдений, называются структурными, а значения вектора , связанные с отдельными наблюдениями значений случайного вектора , называются слу­чайными параметрами. При  на  необходимо наложить  независимых ограничений, иначе её элементы не определены, так как в (4.1)  можно заменить на , а  на , где  — любая  невырожденная матрица, и соотно­шение (4.2.) останется справедливым. Эта неопределённость уст­раняется применением целого ряда критериев, которые можно рассматривать как ограничения, накладываемые на модель факторного анализа.

Вращение факторных осей в линейной модели (4.1.) - это умно­жение справа  матрицы факторных нагрузок  на невырож­денную действительную матрицу  порядка , соответствующее выбору новой системы координат (новых факторных осей) в пространстве общих факторов (т. е. в -мерном подпростран­стве, натянутом на столбцы матрицы  как на  векторов в исходном -мерном пространстве) с целью наилучшей содержа­тельной интерпретации общих факторов (например, в смысле простой структуры Тэрстоуна); тогда  вектор  задаёт координаты точки на этих новых факторных осях. Вращение факторных осей называется ортогональным, если  - ортого­нальная матрица, и косоугольным - в противном случае. Для вращения факторных осей существуют два подхода в зависимо­сти от того, сформулировано ли оно в алгебраических или гео­метрических терминах. Первый подход связан с аналитичес­кими методами, второй - с графическим изображением осей, которые проводятся через облака (скопления) точек.

К основным задачам, связанным с построением модели факторного анализа, относятся задачи существования и идентификации (единствен­ности) модели, статистического оценивания неизвестных пара­метров и их алгоритмического определения, а также статисти­ческой проверки гипотез об адекватности модели наблюдаемым данным, о значениях структурных параметров и т. п.

"8 Мозговой штурм" - тут тоже много полезного для Вас.

Идентификация линейной модели факторного анализа состоит в определе­нии необходимых и достаточных условий, налагаемых на  матрицу факторных нагрузок  с тем, чтобы при предположе­нии существования решения уравнения (4.2.) относительно матриц структурных параметров  и  это решение было единственным с точностью до умножения справа матрицы  на любую ортого­нальную матрицу  порядка .

Пусть  - последовательность независимых одинако­во распределённых случайных векторов, представляющих вы­борочные данные или выборку. В качестве оценок для  и  выбирают  и  соответственно. Процедуру оценивания матриц структурных параметров можно представить как поиск «наилучшей» аппрок­симации матрицы  в классе матриц , где  - , а  -  диагональная матрица переменных, в смысле мини­мизации некоторой выбранной функции расстояния или функ­ции аппроксимации , примерами которых являются  и  соответственно. Тогда оценку для  по данной  можно определить как отображение , удовлетворяющее соотношению , где  - множество  действительных симметрических положительно определенных матриц;  - множе­ство  диагональных матриц; ,  - некоторая непрерывная строго вогнутая функция, имеющая не­прерывные частные производные до второго порядка включи­тельно, с минимумом в , определённая на спектре обобщён­ных собственных значений полной проблемы:

, ,                           (4.3.)

где G —  диагональная матрица обобщённых собственных значений с элементами , а  - матрица соответ­ствующих обобщённых собственных векторов; k равно наиболь­шему целому, для которого . Оценка для  по данной  определяется выражением , где  - диагональная матрица с элементами  -  матрица соответствующих собствен­ных векторов проблемы (4.3.), где  заменяется на . Тогда при условии только существования  (без предположения о виде распределения ) и идентифицируемости модели оценки  и  строго состоятельны (т. е. при  сходятся с вероятностью единица к  и  соответственно). Таким образом решение задачи оценивания  и  сводится к оптимизации на собственных значениях обобщённой проблемы (4.3.). Критерием оптимизации является некоторая выбранная функция , а пере­менными —  диагональных элементов матрицы . На практике оптимизация осуществляется итеративными методами минимиза­ции функции многих переменных с использованием компьюте­ров. В предположении ~ оценки обобщённых наимень­ших квадратов и максимального правдоподобия для  есть значе­ния , при которых достигаются минимумы функций  и  соответственно. Состоятельные оценки для условного математического ожида­ния и ковариационной матрицы вектора , связанного с отдель­ным наблюдением , есть  и  соот­ветственно.

Кроме линейной модели для наблюдаемых количественных переменных (4.1.) в факторном анализе разработаны также линейные модели для порядковых (ранговых) и классификационных (номиналь­ных) показателей. Существуют и нелинейные модели факторного анализа, для которых предложен ряд алгоритмов оценивания параметров. Однако задача идентификации таких моделей теоретически не решена и неизвестны свойства получаемых оценок. Факторный анализ при конкретной реализации связан со значительными затратами вре­мени компьютера из-за громоздкости вычислительных проце­дур, сложности итерационных процессов и, как правило, боль­ших размеров матрицы исходных данных.

На практике факторный анализ обычно используется, во-первых, как ме­тод свёртки информации с целью понижения пространства на­блюдаемых переменных, во-вторых, как метод выделения ис­точников вариации матрицы наблюдений, исключающий вариа­цию ошибок, и, наконец, как метод классификации многомер­ных наблюдений. Факторный анализ находит широкое применение в экономи­ческих исследованиях, таких как анализ систем экономических показателей, построение обобщающих показателей экономического и социально-экономического развития предприятий, регио­нов, стран, классификация экономических объектов, анализ спро­са и предложения и др.

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5160
Авторов
на СтудИзбе
439
Средний доход
с одного платного файла
Обучение Подробнее