2015 Ответы на доп вопросы (1185336)
Текст из файла
Дополнительные вопросы к экзамену
по курсу «Прикладной многомерный статистический анализ»
-
Основные задачи многомерного статистического анализа:
- корреляционный анализ
Изучается наличие и, если присутствует, сила связи между случайными величинами. Для этого используют коэффициент корреляции.
- регрессионный анализ
Выделяется объясняемая переменная Y (отклик) и несколько (возможно 1) объясняющих факторов .
Если обнаружено сильное (значимое) влияние факторов на Y, то пытаются найти вид их связи в следующей форме: .
– влияние факторов
влияние неучтенных факторов
- снижение размерности
Обычно размерность d велика. Пытаются найти небольшое количество факторов (как старых, так и новых, выраженных через старые), которые достаточно хорошо представляют изменчивость в рамках исходящей совокупности. Например: методы факторного анализа, метод главных компонент, ~визуальный метод (?)
- дисперсионный анализ
метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях
(википедия)
- дискриминантный анализ
Предположим, что данные неоднородны: например, выбраны из двух совокупностей с разными средними.
Основная задача: найти процедуру (правило), позволяющее разделить все наблюдения по признаку принадлежности к одной из совокупности.
- кластерный анализ
Визуально видно, что данные как-то группируются в несколько классов. Заранее неизвестно, сколько классов.
Задача: предложить некоторое правило объединения точек в группу
-
Гильбертово пространство случайных величин
Гильбертово пространство – линейное пространство со скалярным произведением и которое является полным относительно сходимости, порожденной этим скалярным произведением (в данном случае сходимость в среднем квадратическом), то есть если
:
(вообще изначально мы рассматриваем случайные величины такие, у которых )
-
Что такое наилучшая линейная оценка
– замкнутое линейное подпространство,
Случайная величина – наилучшее линейное приближение случайной величины
, если
-
Лемма о перпендикуляре
– наилучшее линейное приближение
-
-
(это на самом деле СЛАУ)
-
Простой коэффициент корреляции и что он измеряет
Простой (парный) коэффициент корреляции невырожденных (не const, иначе ) случайных величин
– число
.
-
измеряет долю изменчивости
, которую можно объяснить линейным влиянием
-
измеряет ту часть изменчивости
, которую не удалось объяснить линейным влиянием
и необходимо привлечь другие факторы
Свойства:
-
-
– не коррелированы
-
Если
-
Если
Если
-
Множественный коэффициент корреляции и что он измеряет
Пытаемся объяснить поведение Y с помощью нескольких факторов (совокупное влияние всех факторов вместе)
Пусть –наилучшее линейное приближение Y
Множественный коэффициент корреляции Y и набора случайных величин – число
-
- показывает, какую долю изменчивости Y можно объяснить линейным влиянием выбранных факторов
-
– то, что вызвано неучтенными факторами
-
Частный коэффициент корреляции и что он измеряет
Изучаем зависимость Y от факторов (чистое влияние одного фактора)
Выберем некоторый фактор
– набор остальных факторов.
– наилучшее линейное приближение Y через C
– наилучшее линейное приближение
через C
Частный коэффициент корреляции Y и , когда устранено влияние всех остальных факторов, - число
Свойства:
– показывает, какую долю необъяснимой дисперсии удалось объяснить введением еще одного фактора. (когда факторов много простой коэф корреляции может давать неверную инфу, как фактор влияет на сл.в.)
-
Множественная линейная регрессия: модель и основные ограничения
Постановка задачи:
Y – объясняемая переменная, - объясняющие переменные
Представление: .
Необходимо найти функцию наилучшим образом приближающую Y с помощью факторов.
Если расстояние между сл.в. измеряется в среднем квадратическом, то наилучшее приближение задается по правилу: , тогда g – функция регрессии.
Вычислять мат ожидание очень сложно (распределение может быть не тривиальным), поэтому основная задача: по экспериментальным данным оценить функцию регрессии.
Модель:
Проводится N одновременных наблюдений Y и факторов . При этом предполагается, что
Ограничения:
-
Модель линейна по параметрам, то есть
-
Факторы
измерены точно, то есть это не случайные величины
-
, то есть нет систематических ошибок
-
– дисперсия одинакова для всех j – условие гомоскедастичности
-
– ошибки некоррелированы
-
– имеет нормальное распределение
имеет многомерное нормальное распределение со средним
и матрицей ковариации
-
Описание МНК для оценки параметров
– параметры модели.
Для оценки параметров модели решаем следующую экстремальную задачу:
Имеем невырожденную ситуацию, если векторы линейно независимы (экв матрица X имеет ранг d+1).
Задача на минимум решается с помощью необходимых условий на экстремум:
После преобразований получаем: – система нормальных уравнений. Если
невырождена, то отсюда следуют оценки параметров.
(фактически решается задача о наилучшей линейной оценке Y в линейном пространстве, порожденном случайными векторами )
-
Явный вид оценок параметров по МНК
Предсказанные значения:
Остатки: (
наследуют многие свойства
)
(средние у
= 0)
Если бы были известны, то
Предлагается следующая оценка для :
(изменение нормировки нужно для того, чтобы получить несмещенную оценку)
Оценка
-
Линейная
-
Несмещенная - (математическое ожидание оценки равно оцениваемому параметру)
-
Если выполнены ограничения 1)-5), то оптимальная в среднем квадратическом в классе всех линейных несмещенных оценок
-
Если выполнены ограничения 1-5) и диагональные элементы матрицы
, то оценка состоятельная – (оценка, сходящаяся по вероятности к своему параметру, количество наблюдений стремится к бесконечности)
Оценка
-
Если выполнены ограничения 1-6), то несмещенная и состоятельная
-
Общая схема проверки гипотезы о параметре (возможно, здесь вообще не это)
Пусть имеем линейную регрессию и выполнены основные ограничения 1-6). Рассмотрим проверку гипотезы:
-неслучайная матрица размером
, a - неслучайный вектор размером p.
Описание процедуры проверки:
-
Оцениваем модель без учета ограничений (2) и находим сумму квадратов остатков
-
Оцениваем модель с учетом ограничений (2) и находим сумму квадратов остатков
-
При верной
случ.в.
независимы и имеют
-распределение с N-(m+1) и p степенями свободы
-
Нужно учесть степени св при оценке ошибки, так как от этого зависит количество
Случайная величина имеет распределение Снедекора-Фишера с (p, N-(M+1)) степенями свободы.
-
При заданном
ищем по таблицам
-
Если реально наблюдаемое значение статистики
, то гипотеза H0 отвергается.
-
В противном случае H0 не противоречит экспериментальным данным.
-
Для чего используется Т-критерий
Статистика (имеет распределение Стьюдента с N-(m+1) степенями свободы при верной H0).
– элемент матрицы
(см выше)
Т-критерий используется для проверки значимости влияния отдельного фактора. Этот критерий позволяет проверить значимость только 1 фактора, а не нескольких одновременно, т.к. задача решается, когда и другие факторы вместе влияют на результат.
Может быть ситуация, когда один фактор перекрывает другой или они тесно связаны.
-
Основное различие Т-критерия и F-критерия в задаче проверки значимости влияния фактора
В случае простой линейной регрессии критерии эквиваленты. Они различаются только для множественной линейной регрессии.
F – критерий оценивает чистое влияние одного фактора, когда устранено влияние всех остальных.
T – критерий проверяет значимость влияния фактора в присутствии всех остальных.
-
Адекватность модели. Постановка задачи
Модель адекватна, если предложенный наборов факторов совместно оказывает значимое влияние на Y.
Формально проверяем: .
Если отвергается, то модель адекватна. В противном случае выбранный набор факторов не оказывает существенного влияния и модель неадекватна.
-
Коэффициент детерминации и что он измеряет
Коэффициент детерминации - это число
Если близко к 1, то модель хорошая.
– оценка квадрата множественного коэффициента корреляции (смещенная оценка. Вначале растет, потом убывает).
F-критерий однозначно записывается через
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.