3_Регрес (Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ), страница 5
Описание файла
Файл "3_Регрес" внутри архива находится в папке "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ". Документ из архива "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ", который расположен в категории "". Всё это находится в предмете "математический анализ" из 8 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "высшая математика" в общих файлах.
Онлайн просмотр документа "3_Регрес"
Текст 5 страницы из документа "3_Регрес"
Линейной оценкой параметров линейной регрессии называется оценка
где С - произвольная матрица размерности mN. Линейность оценки означает, что все компоненты этой оценки являются линейными комбинациями результатов измерений y1, y2,...,yN
Утверждение. МНК-оценка является линейной оценкой:
где С0 является матрицей линейного преобразования.
Сформулирует ряд условий, которые определяют полезные свойства линейных оценок.
Условие несмещенности. Для схемы линейной регрессии линейная оценка и является несмещенной оценкой параметров, тогда и только тогда, когда:
Учитывая условие несмещенности, которое дает .
Так как не предполагается каких либо ограничений на параметры , то полученное условие должно выполняться для любых значений , т.е.
Rm, CF=
Таким образом преобразование CF является тождественным, что и доказывает утверждение леммы.
Утверждение. МНК-оценка является несмещенной.
C0F= (FTF)-1FT F = Im
Дисперсионная матрица линейной оценки задается соотношением
что следует из преобразования
Утверждение. Дисперсионная матрица МНК-оценки равна
Наилучшей линейной несмещенной оценкой (НЛН-оценкой) параметров регрессии называется оценка, дисперсионная матрица которой удовлетворяет условию
Где знак ‘’ понимается в смысле неотрицательной определенности разности матриц. Т.е. если заданиы две квадратные матрицы A и B, тогда ABB-A - неотрицательно определенная матрица.
Приведем ряд свойств наилучшей линейно несмещенной оценки, которые следуют из свойств неотрицательно определенной матрицы. Если если есть НЛН-оценка, тогда
Из последнего свойства в частности следует, что дисперсии оценок всех параметров для НЛН-оценки минимальны.
Стандартной МНК-оценкой параметров называется вектор:
Теорема (Гаусса-Маркова). Пусть задана классическая линейная регрессионная модель, где матрица F имеет полный ранг, равный m. тогда МНК-оценка является НЛН-оценкой.
Действительно, пусть - произвольная линейная несмещенная оценка, а - МНК-оценка, где С0=(FTF )-1FT. Условие несмещенности дает соотношения CF= Im и C0F= Im. Положим А=С-С0. В результате получим, что:
A CT0=A(FTF)-1=0.
Выразим дисперсию линейной оценки через дисперсию МНК-оценки
и так как матрица AAT неотрицательно определенная, то , что и требовалось доказать.
Кроме МНК-оценок и наилучших линейных несмещенных оценок, существуют и другие, которые формируют на основании различных принципов оптимальности.
Принцип максимального правдоподобия. Для приведенных выше результатов не требуется задание типа распределения вектора ошибок измерений , необходимо лишь задание среднего и дисперсионной матрицы этого вектора. Далее будем предполагать, что у имеет нормальное распределение ~ N(0, 2IN)
В этом случае плотность распределения будет иметь вид
f(x, 0, 2IN) = (22)-N/2 exp(XTX/22))
При рассмотрении линейных регрессионных моделей вектор Y представляет выборку из распределения с некоторой плотностью L(Y,), зависящей от yRn и неизвестных параметров. Функцию L(Y,) как функцию от в статистике называют функцией правдоподобия, а значение =и, для которого функция правдоподобия принимает максимальное значение - оценкой максимального правдоподобия
Теорема. Пусть Y=F+ невырожденная классическая регрессионная модель. Тогда МНК-оценка является также оценкой максимального правдоподобия параметров , а статистика sN(N-m)s2/N - оценкой максимального правдоподобия 2.
В некоторых задачах решаются вопросы оценивания не самих параметров регрессии, а их некоторых линейных преобразовании.
Параметрической функцией называется линейная функция параметров регрессии , где c=(c1,...,cm) - известный вещественный вектор.
Параметрическая функция допускающей оценку, если для нее существует линейная несмещенная оценка вида = aTY, т.е. существует постоянный вектор a=(a1,...,am) такой, что:
Лемма. Функция = cT допускает оценку тогда и только тогда, когда существует вектор a: cT = aTF.
Теорема (Гаусса-Маркова) оценки параметрических функций. Пусть имеется совокупность наблюдений y1,...,yN удовлетворяющих условию:
MY=F, DY=2IN.
Тогда для каждой функции = cT, допускающей оценку, в классе линейных несмещенных оценок существует оценка минимальной дисперсией. Эта оценка единственная и может быть представлена как где - любая МНК-оценка вектора .
Оценка, полученная таким образом называется МНК-оценкой параметрической функции.
3.10 Гребневая регрессия
МНК-оценка является наилучшей в классе линейных несмещенных оценок. Однако в ряде случаев, когда дисперсионная матрица слабо обусловлена (практически вырождена), появляются технические сложности вычисления оценок параметров регрессии. Если отказаться от условия смещенности, то можно получить оценки, которые обладают рядом преимуществ перед МНК-оценкой.
Гребневой оценкой называется оценка вида:
Число k однозначно связано с некоторым числом a0, и соотношение , определяет это значение a0, которое задает смещение оценки.
Рассмотрим классическую линейную регрессионную модель, минимизирующую функционал:
Обозначим
В этих обозначениях получим . Существует многообразие векторов , удовлетворяющих соотношению , где a0>0 - наперед заданное значение.
При заданном соотношении минимизация одного из возможных критериев качества оценки - квадрата ее длины (квадрат длины вектора по определению T ) - на основании теории экстремальных задач метода множителей Лагранжа ведет к задаче поиска минимума по функции
где 1/k - множитель Лагранжа.
Функция R( ) квадратичная форма, поэтому для нахождения точки минимума этой функции достаточно решить систему уравнений R( ).
В матричном виде получим соотношение
Таким образом, если МНК-оценка удовлетворяет соотношению FTF=FTY, то гребневая – соотношению что и определяет выражение для гребневой оценки.
При малых значениях k оценки и (k) почти совпадают. Преимущества гребневой оценки по сравнению со стандартной МНК-оценкой проявляются в тех случаях, когда матрица FTF плохо обусловлена. Отметим, что в отличии от МНК-оценки гребневая оценка однозначно определяется вне зависимости от того, вырождена модель или нет.
Гребневая оценка может быть оптимальной при наличии разного рода априорной информации о параметрах.
Statistica. Найдем гребневые оценки для параметров линейной регрессии фактических объемов перевозок от плановых.На рис.11.приведены графики значений оценок параметров регрессии в зависимости от значения
График гребневой регрессии
Рис. | 3.11. |
Видно, что значения оценок параметров уменьшаются при увеличении .
3.11 Анализ выбросов
При больших объемах данных для реализации процедуры простой регрессия необходим контроль данных, который можно провести визуально на далеко отстоящие точки. Для множественной регрессии это гораздо сложнее. Ошибка даже в одном или двух значениях может привести к существенным изменениям оценок параметров регрессии.
В большинстве методов обнаружения выбросов параметры распределения m и D неизвестны, поэтому используются процедуры вычисления соответствующих оценок.
Пусть X1, X2,..., XK - случайная выборка, имеющая распределение N(m,D). Тогда выборочное среднее и ковариационная матрица соответственно имеют вид
Выборочным расстоянием Махаланобиса, называется величина:
Величина имеет F-распределение с p и k-p степенями свободы.
Процедура проверки на наличие выбросов в случайной выборке X1, X2,...,XN объема N предполагает выполнение следующих шагов:
Шаг 1. Для каждого вектора наблюдений Xi, i=1..N, вычисляется выборочный вектор средних и ковариационная матрица Si по всем k=N-1 векторам наблюдений, исключая Xi.
Шаг 2. Вычисляется выборочное расстояние Махаланобиса Di2 между Xi и с использованием оценки ковариационной матрицы.
Шаг 3. Вычисляется значение Fi-статистики для k=N-1 и соответствующее P-значение Pi=P(F(p,k-p)>Fi)
Шаг 4. Выполняется проверка P-значений P1, P2, ... , PN.
Если некоторое значение Pi<, то вектор наблюдений, соответствующий наименьшему P-значению, считается выбросом и исключается из выборки. Выполняется переход к шагу 1 с целью повторения процедуры для оставшихся N-1 наблюдений.
Если все Pi> для некоторого заранее взятого значения , то считается, что в выборке нет выбросов и процесс останавливается.
Statistica. Проверка модели на выбросы выполняется путем редактирования данных при построения графика. В результате ее выполнения на экран выводятся все значения исследуемой зависимости с возможностью удаления любой точки, выбранной пользователем, в интерактивном режиме, что позволяет оценить влияние каждой из них на изменение параметров линейной зависимости. На рис.12. приведена иллюстрация выполнения, процедуры удаления выбросов.
Результаты интерактивного отбрасывания
Рис. | 3.12. |
Как видно из рисунка, добавленные данные существенно изменили оценки параметров регрессии.
3.12 Нелинейный регрессионный анализ
Рассмотрим общую нелинейную схему регрессии, которая является естественным обобщением линейной регрессионной модели