2015 Ответы на доп вопросы
Описание файла
Документ из архива "2015 Ответы на доп вопросы", который расположен в категории "". Всё это находится в предмете "(пмса) прикладной многомерный статистический анализ" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Онлайн просмотр документа "2015 Ответы на доп вопросы"
Текст из документа "2015 Ответы на доп вопросы"
Дополнительные вопросы к экзамену
по курсу «Прикладной многомерный статистический анализ»
-
Основные задачи многомерного статистического анализа:
- корреляционный анализ
Изучается наличие и, если присутствует, сила связи между случайными величинами. Для этого используют коэффициент корреляции.
- регрессионный анализ
Выделяется объясняемая переменная Y (отклик) и несколько (возможно 1) объясняющих факторов .
Если обнаружено сильное (значимое) влияние факторов на Y, то пытаются найти вид их связи в следующей форме: .
– влияние факторов
влияние неучтенных факторов
- снижение размерности
Обычно размерность d велика. Пытаются найти небольшое количество факторов (как старых, так и новых, выраженных через старые), которые достаточно хорошо представляют изменчивость в рамках исходящей совокупности. Например: методы факторного анализа, метод главных компонент, ~визуальный метод (?)
- дисперсионный анализ
метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях
(википедия)
- дискриминантный анализ
Предположим, что данные неоднородны: например, выбраны из двух совокупностей с разными средними.
Основная задача: найти процедуру (правило), позволяющее разделить все наблюдения по признаку принадлежности к одной из совокупности.
- кластерный анализ
Визуально видно, что данные как-то группируются в несколько классов. Заранее неизвестно, сколько классов.
Задача: предложить некоторое правило объединения точек в группу
-
Гильбертово пространство случайных величин
Гильбертово пространство – линейное пространство со скалярным произведением и которое является полным относительно сходимости, порожденной этим скалярным произведением (в данном случае сходимость в среднем квадратическом), то есть если :
(вообще изначально мы рассматриваем случайные величины такие, у которых )
-
Что такое наилучшая линейная оценка
– замкнутое линейное подпространство,
Случайная величина – наилучшее линейное приближение случайной величины , если
-
Лемма о перпендикуляре
– наилучшее линейное приближение
-
-
(это на самом деле СЛАУ)
-
Простой коэффициент корреляции и что он измеряет
Простой (парный) коэффициент корреляции невырожденных (не const, иначе ) случайных величин – число .
-
измеряет долю изменчивости , которую можно объяснить линейным влиянием
-
измеряет ту часть изменчивости , которую не удалось объяснить линейным влиянием и необходимо привлечь другие факторы
Свойства:
-
-
– не коррелированы
-
Если
-
Если
Если
-
Множественный коэффициент корреляции и что он измеряет
Пытаемся объяснить поведение Y с помощью нескольких факторов (совокупное влияние всех факторов вместе)
Пусть –наилучшее линейное приближение Y
Множественный коэффициент корреляции Y и набора случайных величин – число
-
- показывает, какую долю изменчивости Y можно объяснить линейным влиянием выбранных факторов
-
– то, что вызвано неучтенными факторами
-
Частный коэффициент корреляции и что он измеряет
Изучаем зависимость Y от факторов (чистое влияние одного фактора)
Выберем некоторый фактор
– набор остальных факторов.
– наилучшее линейное приближение Y через C
– наилучшее линейное приближение через C
Частный коэффициент корреляции Y и , когда устранено влияние всех остальных факторов, - число
Свойства:
– показывает, какую долю необъяснимой дисперсии удалось объяснить введением еще одного фактора. (когда факторов много простой коэф корреляции может давать неверную инфу, как фактор влияет на сл.в.)
-
Множественная линейная регрессия: модель и основные ограничения
Постановка задачи:
Y – объясняемая переменная, - объясняющие переменные
Представление: .
Необходимо найти функцию наилучшим образом приближающую Y с помощью факторов.
Если расстояние между сл.в. измеряется в среднем квадратическом, то наилучшее приближение задается по правилу: , тогда g – функция регрессии.
Вычислять мат ожидание очень сложно (распределение может быть не тривиальным), поэтому основная задача: по экспериментальным данным оценить функцию регрессии.
Модель:
Проводится N одновременных наблюдений Y и факторов . При этом предполагается, что
Ограничения:
-
Модель линейна по параметрам, то есть
-
Факторы измерены точно, то есть это не случайные величины
-
, то есть нет систематических ошибок
-
– дисперсия одинакова для всех j – условие гомоскедастичности
-
– ошибки некоррелированы
-
– имеет нормальное распределение
имеет многомерное нормальное распределение со средним и матрицей ковариации
-
Описание МНК для оценки параметров
– параметры модели.
Для оценки параметров модели решаем следующую экстремальную задачу:
Имеем невырожденную ситуацию, если векторы линейно независимы (экв матрица X имеет ранг d+1).
Задача на минимум решается с помощью необходимых условий на экстремум:
После преобразований получаем: – система нормальных уравнений. Если невырождена, то отсюда следуют оценки параметров.
(фактически решается задача о наилучшей линейной оценке Y в линейном пространстве, порожденном случайными векторами )
-
Явный вид оценок параметров по МНК
Предсказанные значения:
Остатки: ( наследуют многие свойства )
(средние у = 0)
Если бы были известны, то
Предлагается следующая оценка для :
(изменение нормировки нужно для того, чтобы получить несмещенную оценку)
Оценка
-
Линейная
-
Несмещенная - (математическое ожидание оценки равно оцениваемому параметру)
-
Если выполнены ограничения 1)-5), то оптимальная в среднем квадратическом в классе всех линейных несмещенных оценок
-
Если выполнены ограничения 1-5) и диагональные элементы матрицы , то оценка состоятельная – (оценка, сходящаяся по вероятности к своему параметру, количество наблюдений стремится к бесконечности)
Оценка
-
Если выполнены ограничения 1-6), то несмещенная и состоятельная
-
Общая схема проверки гипотезы о параметре (возможно, здесь вообще не это)
Пусть имеем линейную регрессию и выполнены основные ограничения 1-6). Рассмотрим проверку гипотезы:
-неслучайная матрица размером , a - неслучайный вектор размером p.
Описание процедуры проверки:
-
Оцениваем модель без учета ограничений (2) и находим сумму квадратов остатков
-
Оцениваем модель с учетом ограничений (2) и находим сумму квадратов остатков
-
При верной случ.в. независимы и имеют -распределение с N-(m+1) и p степенями свободы
-
Нужно учесть степени св при оценке ошибки, так как от этого зависит количество
Случайная величина имеет распределение Снедекора-Фишера с (p, N-(M+1)) степенями свободы.
-
При заданном ищем по таблицам
-
Если реально наблюдаемое значение статистики , то гипотеза H0 отвергается.
-
В противном случае H0 не противоречит экспериментальным данным.
-
Для чего используется Т-критерий
Статистика (имеет распределение Стьюдента с N-(m+1) степенями свободы при верной H0).
– элемент матрицы (см выше)
Т-критерий используется для проверки значимости влияния отдельного фактора. Этот критерий позволяет проверить значимость только 1 фактора, а не нескольких одновременно, т.к. задача решается, когда и другие факторы вместе влияют на результат.
Может быть ситуация, когда один фактор перекрывает другой или они тесно связаны.
-
Основное различие Т-критерия и F-критерия в задаче проверки значимости влияния фактора
В случае простой линейной регрессии критерии эквиваленты. Они различаются только для множественной линейной регрессии.
F – критерий оценивает чистое влияние одного фактора, когда устранено влияние всех остальных.
T – критерий проверяет значимость влияния фактора в присутствии всех остальных.
-
Адекватность модели. Постановка задачи
Модель адекватна, если предложенный наборов факторов совместно оказывает значимое влияние на Y.
Формально проверяем: .
Если отвергается, то модель адекватна. В противном случае выбранный набор факторов не оказывает существенного влияния и модель неадекватна.
-
Коэффициент детерминации и что он измеряет
Коэффициент детерминации - это число
Если близко к 1, то модель хорошая. – оценка квадрата множественного коэффициента корреляции (смещенная оценка. Вначале растет, потом убывает).
F-критерий однозначно записывается через