2015 Теормин. Прикладной многомерный статический анализ (лектор - Хохлов) (1185337)
Текст из файла
Прикладной многомерный статистическийанализТеоретический минимумЛектор: Хохлов Юрий Степанович2016 г.Вопрос №1Основные задачи многомерного статистического анализа:1. Корреляционный анализ изучает наличие и силу связи междуслучайными величинами. Используются коэффициенты корреляции.2.
Регрессионный анализ. Выделяются объясняемая переменная (отклик)и несколько объясняющих фактороввлияние факторов1 , . . . , на,1 , . . . , .Если обнаруженото пытаются найти вид их свя-зи, в следующем формате = (1 , . . . , ) + где,(1 , . . . , )- влияние факторов, а- то, что не удалось объ-яснить.3. Методы снижения размерности. Обычно размерность пространства факторов- велика.
Пытаются найти небольшое количество(возможно новых) факторов, которые достаточно хорошо представляют изменения в рамках исходной совокупности. Для этих целейприменяют факторный анализ, главные компоненты и т.д.4. Дисперсионный анализ. Поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. Суть дисперсионного анализа сводится к изучению влиянияодной или нескольких независимых переменных, обычно именуемыхфакторами, на зависимую переменную.5. Дискриминантный анализ. Предположим, что наши данные неоднородны. Например они выбраны из 2-ух совокупностей с разнымсредним.
В таком случае, основной задачей является нахождение процедуры позволяющей разделить все наблюдения по признаку принадлежности к одной из совокупностей.6. Кластерный анализ. Схожий с дискриминантным анализ, но отсутствуют знания о классах. Визуально видно, что данные как-тогруппируются в несколько классов. Основной задачей является нахождение некоторого правила, объединяющего точки в один класс.Вопрос №2Гильбертово пространство случайных величин.Линейное пространство случайных величин 1) на котором задано скалярное произведение, 2) доказана сходимость и относительная сходимостьв среднем квадратическом, 3) которое полно отосительно этой сходимостиназывается Гильбертовым пространством случайных величин.1Пусть2есть пространство случайных величин ,таких,что(||2 ) < ∞Определим наследующий функционал:2∀1 , 2 ∈ 2 ,по определению(1 , 2 ) := (1 · 2 )(1)Обладающий следующими свойствами:1.(, ) ≥ 02.(1 , 2 ) = (2 , 1 )3.(1 1 + 2 2 , 3 ) = 1 (1 , 3 ) + 2 (2 , 3 )и(, ) = 0 ⇔ = 0В таком случае этот функционал является скалярным произведением.Нормой случайной величины|||| =√︀из2называется число√︀(, ) = (| 2 |)(2)Последовательность случайных величин из 2 сходится в среднем квадратическом к случайной величине 0 , если норма − 0 стремится к нулюпри → ∞:|| − 0 ||2 = (| − 0 |2 ) → 0Если(| − |2 ) → 0, когда , → ∞∃0 ∈ 2 : (| − 0 |2 ) → 0то пространствоявляется Гильбертовым пространством.Что такое наилучшая линейная оценка(приближение)?Вопрос №3Пусть2 ⊂ 2замкнутое линейное подпространство, а ∈ 2случай-ная величина, для которой необходимо найти линейное приближение вТогда случайнаястранстве,ˆесть наилучшее линейное приближениеесли1.ˆ ∈ 2.∀ ∈ :|| − ˆ||2 ≤ || − ||2 ⇔ (| − ˆ|2 ) ≤ (| − |2 )2.в про-Лемма о перпендикуляре.Вопрос №4Еслиˆ естьнаилучшее линейное приближениев пространствето-гда:1.ˆ ∈ 2.∀ ∈ :( − ˆ, ) = (( − ˆ) · ) = 0Впорос №5(3)Простой коэффициент корреляции.Простым или парным коэффициентом корреляции невырожденных случайных величин1и2называется число:(1 , 2 )(1 , 2 ) := √︀(1 ) · (2 )Измеряет зависимость двух величин.|(1 , 2 )|2измеряет долю изменчивостилинейным влиянием21 − |(1 , 2 )|2 ,которую можно объяснить1 .измеряет ту часть изменчивости2 ,которую не удалосьобъяснить линейным влиянием 1 и необходимо привлечь дополнительныефакторы.Вопрос №6Множественный коэффициент корреляции.Множественный коэффициент корреляции пытается объяснить поведе- с помощью нескольких факторов 1 , 2 , .
. . , ; ≥ 2. Пусть ˆ = + 1 1 + . . . + - наилучшее линейное приближение . Тогда, множественным коэффициентом корреляции случайной величины инабора 1 , . . . , называется числоние.1 ,..., := (, ˆ)2.1 ,...,показывает, какую долю изменчивости можно объяснить линей-ным влиянием выбранных факторов.Вопрос №7Частный коэффициент корреляции.Пусть изучаем зависимость1 , . . .
, . Выделим некоторый фактор . Пусть - набор всех остальных факторов, а - наилучшее линейное приближение через все , кроме - . - наилучшееприближение самого через . Тогда ошибки будут равныот факторов = − , = − 3Частным коэффициентом корреляции случайной величины ,икогда устранено влияние всех остальных факторов называется: . = ( , )2 .- показывает какую долю необъяснённой дисперсии удалось объяс-нить введением нового фактора. Частный коэффициент корреляции измеряет чистое влияние фактораВопрос №8на.Модель и основные ограничения множественной линейнойрегрессии.Модель: проводитсяторов1 , .
. . , .одновременных измерений величиныи фак-При этом предполагается, что = (1 , . . . , ) + Ограничения:1. Модель линейна по параметрам, т.е.: = + 1 · 1 + . . . + · + 2. Факторы3.измерены точно, т.е. это не случайные величины.( ) = 0для любогоповедение4. Дисперсия.Т.е. иксы в среднем правильно описываюти нет систематических ошибок.( ) = 2 ∀одинакова для всех.Условие гомоскеда-стичности.5.( , ) = 0,6.когда ̸= .Т.е.
ошибки не коррелируют.имеет нормальное распределение.Вопрос №9Описание метода наименьших квадратов для оценки пара-метров.Пусть имеются следующие параметры модели:Θ0 , Θ1 , . . . , ΘТогда для оценки параметровΘи 2 = ( )необходимо решить следующую экстре-мальную задачу:2(Θ) = || − · Θ|| =∑︁[ − Θ0 − Θ1 1 − . . . − Θ ]2 → minΘ=14Необходимое условие экстремума:= 0, = 0, ΘПосле несложных преобразований получаем систему нормальных уравнений: · · Θ = · Отсюда оценка параметраΘпо методу наименьших квадратов будет:Θ̂ = ( · )−1 · · Она является линейной,несмещенной и по теореме Гаусса - Маркова является оптимальной в среднем квадратическом в классе всех линейных инесмещенных оценок.Вопрос №10Явный вид оценок параметров по МНК.Оценка парамертаΘ:Θ̂ = ( · )−1 · · Оценка для среднего квадратического вектора остатков(2 ) 2 = ( ) =будет:∑︁1 :=2 − ( + 1) =12где = − ˆ .Вопрос №11Общая схема проверки гипотезы о параметре.Статистической гипотезой называется утверждение о распределении генеральной совокупности, соответствующее некоторым представлениям обизучаемом явлении.
В частном случае это может быть утверждение о значениях параметров нормально распределенной генеральной совокупности.Статистические гипотезы обычно рассматривают, генеральные совокупности, одна из которых может представлять собой теоретическую модель,а о второй судят по выборке из нее. В других случаях обе генеральныесовокупности представлены выборками. Изначально формулируются 2 гипотезы0и1 .Нулевая гипотеза гласит:Между двумя генеральными совокупностями нет ожидаемого различияСоответственно, альтернативная гипотезаСхема проверки:51заявляет об обратном.1.
Определяется уровень значимости = (0.1, 0.05, 0.001).2. По выборочным данным вычисляется значение некоторой новой случайной величиныпределение.набл , которая имеет известное стандартное расНапример, - распределение или - распределение.3. По таблицам соответствующего распределения(нормального,- рас-пределения и т.д.), находится значение критической константы присоответствующем уровне значимости -().4.
Если реально полученное наблюдаемое значениебольше, по модулю, чем(),то гипотеза05. Если выяснилось обратное, то говорят, чтонаблстатистикиотвергается.0не противоречит экс-перементальным данным.Вопрос №12Для чего используется Т-критерий.T-критерий или критерий Стьюдента используется для проверки гипотез, где выборки имеют распределение близкое к нормальному.
В случаеодной выборки применяется для проверки какого-то утверждения, например:() = В случае двух выборок проверяются различия между ними.В нашем курсе- критерий использовался для проверки гипотез:1. О том, что случайные величинытогда, когда и независимы,√· −2(, ) = 0: := √1 − 2тогда и только2. О том, что повторная выборка из одномерного нормального распреде-2ления (,) имеет − √ :=1такое же мат.ожидание, как и первая выборка:3. О значимости влияния отдельного фактора в присутствии всех остальных: :=Вопрос №13ˆОсновное различие Т-критерия и F-критерия в задаче про-верки значимости влияния фактораПусть есть такая линейная модель регрессии: = ·Θ+6 = Θ0 + Θ1 · 1 + . . .
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.