2015 Теормин. Прикладной многомерный статический анализ (лектор - Хохлов)
Описание файла
PDF-файл из архива "2015 Теормин. Прикладной многомерный статический анализ (лектор - Хохлов)", который расположен в категории "". Всё это находится в предмете "(пмса) прикладной многомерный статистический анализ" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Прикладной многомерный статистическийанализТеоретический минимумЛектор: Хохлов Юрий Степанович2016 г.Вопрос №1Основные задачи многомерного статистического анализа:1. Корреляционный анализ изучает наличие и силу связи междуслучайными величинами. Используются коэффициенты корреляции.2.
Регрессионный анализ. Выделяются объясняемая переменная (отклик)и несколько объясняющих фактороввлияние факторов1 , . . . , на,1 , . . . , .Если обнаруженото пытаются найти вид их свя-зи, в следующем формате = (1 , . . . , ) + где,(1 , . . . , )- влияние факторов, а- то, что не удалось объ-яснить.3. Методы снижения размерности. Обычно размерность пространства факторов- велика.
Пытаются найти небольшое количество(возможно новых) факторов, которые достаточно хорошо представляют изменения в рамках исходной совокупности. Для этих целейприменяют факторный анализ, главные компоненты и т.д.4. Дисперсионный анализ. Поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. Суть дисперсионного анализа сводится к изучению влиянияодной или нескольких независимых переменных, обычно именуемыхфакторами, на зависимую переменную.5. Дискриминантный анализ. Предположим, что наши данные неоднородны. Например они выбраны из 2-ух совокупностей с разнымсредним.
В таком случае, основной задачей является нахождение процедуры позволяющей разделить все наблюдения по признаку принадлежности к одной из совокупностей.6. Кластерный анализ. Схожий с дискриминантным анализ, но отсутствуют знания о классах. Визуально видно, что данные как-тогруппируются в несколько классов. Основной задачей является нахождение некоторого правила, объединяющего точки в один класс.Вопрос №2Гильбертово пространство случайных величин.Линейное пространство случайных величин 1) на котором задано скалярное произведение, 2) доказана сходимость и относительная сходимостьв среднем квадратическом, 3) которое полно отосительно этой сходимостиназывается Гильбертовым пространством случайных величин.1Пусть2есть пространство случайных величин ,таких,что(||2 ) < ∞Определим наследующий функционал:2∀1 , 2 ∈ 2 ,по определению(1 , 2 ) := (1 · 2 )(1)Обладающий следующими свойствами:1.(, ) ≥ 02.(1 , 2 ) = (2 , 1 )3.(1 1 + 2 2 , 3 ) = 1 (1 , 3 ) + 2 (2 , 3 )и(, ) = 0 ⇔ = 0В таком случае этот функционал является скалярным произведением.Нормой случайной величины|||| =√︀из2называется число√︀(, ) = (| 2 |)(2)Последовательность случайных величин из 2 сходится в среднем квадратическом к случайной величине 0 , если норма − 0 стремится к нулюпри → ∞:|| − 0 ||2 = (| − 0 |2 ) → 0Если(| − |2 ) → 0, когда , → ∞∃0 ∈ 2 : (| − 0 |2 ) → 0то пространствоявляется Гильбертовым пространством.Что такое наилучшая линейная оценка(приближение)?Вопрос №3Пусть2 ⊂ 2замкнутое линейное подпространство, а ∈ 2случай-ная величина, для которой необходимо найти линейное приближение вТогда случайнаястранстве,ˆесть наилучшее линейное приближениеесли1.ˆ ∈ 2.∀ ∈ :|| − ˆ||2 ≤ || − ||2 ⇔ (| − ˆ|2 ) ≤ (| − |2 )2.в про-Лемма о перпендикуляре.Вопрос №4Еслиˆ естьнаилучшее линейное приближениев пространствето-гда:1.ˆ ∈ 2.∀ ∈ :( − ˆ, ) = (( − ˆ) · ) = 0Впорос №5(3)Простой коэффициент корреляции.Простым или парным коэффициентом корреляции невырожденных случайных величин1и2называется число:(1 , 2 )(1 , 2 ) := √︀(1 ) · (2 )Измеряет зависимость двух величин.|(1 , 2 )|2измеряет долю изменчивостилинейным влиянием21 − |(1 , 2 )|2 ,которую можно объяснить1 .измеряет ту часть изменчивости2 ,которую не удалосьобъяснить линейным влиянием 1 и необходимо привлечь дополнительныефакторы.Вопрос №6Множественный коэффициент корреляции.Множественный коэффициент корреляции пытается объяснить поведе- с помощью нескольких факторов 1 , 2 , .
. . , ; ≥ 2. Пусть ˆ = + 1 1 + . . . + - наилучшее линейное приближение . Тогда, множественным коэффициентом корреляции случайной величины инабора 1 , . . . , называется числоние.1 ,..., := (, ˆ)2.1 ,...,показывает, какую долю изменчивости можно объяснить линей-ным влиянием выбранных факторов.Вопрос №7Частный коэффициент корреляции.Пусть изучаем зависимость1 , . . .
, . Выделим некоторый фактор . Пусть - набор всех остальных факторов, а - наилучшее линейное приближение через все , кроме - . - наилучшееприближение самого через . Тогда ошибки будут равныот факторов = − , = − 3Частным коэффициентом корреляции случайной величины ,икогда устранено влияние всех остальных факторов называется: . = ( , )2 .- показывает какую долю необъяснённой дисперсии удалось объяс-нить введением нового фактора. Частный коэффициент корреляции измеряет чистое влияние фактораВопрос №8на.Модель и основные ограничения множественной линейнойрегрессии.Модель: проводитсяторов1 , .
. . , .одновременных измерений величиныи фак-При этом предполагается, что = (1 , . . . , ) + Ограничения:1. Модель линейна по параметрам, т.е.: = + 1 · 1 + . . . + · + 2. Факторы3.измерены точно, т.е. это не случайные величины.( ) = 0для любогоповедение4. Дисперсия.Т.е. иксы в среднем правильно описываюти нет систематических ошибок.( ) = 2 ∀одинакова для всех.Условие гомоскеда-стичности.5.( , ) = 0,6.когда ̸= .Т.е.
ошибки не коррелируют.имеет нормальное распределение.Вопрос №9Описание метода наименьших квадратов для оценки пара-метров.Пусть имеются следующие параметры модели:Θ0 , Θ1 , . . . , ΘТогда для оценки параметровΘи 2 = ( )необходимо решить следующую экстре-мальную задачу:2(Θ) = || − · Θ|| =∑︁[ − Θ0 − Θ1 1 − . . . − Θ ]2 → minΘ=14Необходимое условие экстремума:= 0, = 0, ΘПосле несложных преобразований получаем систему нормальных уравнений: · · Θ = · Отсюда оценка параметраΘпо методу наименьших квадратов будет:Θ̂ = ( · )−1 · · Она является линейной,несмещенной и по теореме Гаусса - Маркова является оптимальной в среднем квадратическом в классе всех линейных инесмещенных оценок.Вопрос №10Явный вид оценок параметров по МНК.Оценка парамертаΘ:Θ̂ = ( · )−1 · · Оценка для среднего квадратического вектора остатков(2 ) 2 = ( ) =будет:∑︁1 :=2 − ( + 1) =12где = − ˆ .Вопрос №11Общая схема проверки гипотезы о параметре.Статистической гипотезой называется утверждение о распределении генеральной совокупности, соответствующее некоторым представлениям обизучаемом явлении.
В частном случае это может быть утверждение о значениях параметров нормально распределенной генеральной совокупности.Статистические гипотезы обычно рассматривают, генеральные совокупности, одна из которых может представлять собой теоретическую модель,а о второй судят по выборке из нее. В других случаях обе генеральныесовокупности представлены выборками. Изначально формулируются 2 гипотезы0и1 .Нулевая гипотеза гласит:Между двумя генеральными совокупностями нет ожидаемого различияСоответственно, альтернативная гипотезаСхема проверки:51заявляет об обратном.1.
Определяется уровень значимости = (0.1, 0.05, 0.001).2. По выборочным данным вычисляется значение некоторой новой случайной величиныпределение.набл , которая имеет известное стандартное расНапример, - распределение или - распределение.3. По таблицам соответствующего распределения(нормального,- рас-пределения и т.д.), находится значение критической константы присоответствующем уровне значимости -().4.
Если реально полученное наблюдаемое значениебольше, по модулю, чем(),то гипотеза05. Если выяснилось обратное, то говорят, чтонаблстатистикиотвергается.0не противоречит экс-перементальным данным.Вопрос №12Для чего используется Т-критерий.T-критерий или критерий Стьюдента используется для проверки гипотез, где выборки имеют распределение близкое к нормальному.
В случаеодной выборки применяется для проверки какого-то утверждения, например:() = В случае двух выборок проверяются различия между ними.В нашем курсе- критерий использовался для проверки гипотез:1. О том, что случайные величинытогда, когда и независимы,√· −2(, ) = 0: := √1 − 2тогда и только2. О том, что повторная выборка из одномерного нормального распреде-2ления (,) имеет − √ :=1такое же мат.ожидание, как и первая выборка:3. О значимости влияния отдельного фактора в присутствии всех остальных: :=Вопрос №13ˆОсновное различие Т-критерия и F-критерия в задаче про-верки значимости влияния фактораПусть есть такая линейная модель регрессии: = ·Θ+6 = Θ0 + Θ1 · 1 + . . .