4_Дисперс (Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ)
Описание файла
Файл "4_Дисперс" внутри архива находится в папке "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ". Документ из архива "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ", который расположен в категории "". Всё это находится в предмете "математический анализ" из 8 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "высшая математика" в общих файлах.
Онлайн просмотр документа "4_Дисперс"
Текст из документа "4_Дисперс"
21
Глава | 4. | Дисперсионный анализ |
Дисперсионный анализа, в отличие от регрессионного, предназначен для анализа влияния качественных факторов на некоторую числовую характеристику или показатель. Исходным понятием для постановки задач является простая группировка величин. Дисперсионный анализ объединяет группу статистических приемов, предложенных Фишером в связи с некоторыми экспериментальными задачами. Область применения этих методов весьма широка, и они с успехом применяются в самых разнообразных экспериментах.
Изложены методы Бонферрони, Тьюки и Шеффе, которые наиболее часто используются для решения практических задач. В предположении неизвестного априорного распределения выборки используются ранговые методы. В главе приведены основные концепции методов Фридмана и Краскелла-Уоллиса.
4.1 Основные задачи дисперсионного анализа
Предположим, что результатом эксперимента являются наблюдаемые значения x1,x2,...,xn некоторых величин и что эти значения можно считать независимо извлеченными из нормальных распределений с постоянным, хотя и неизвестным стандартным отклонением . С другой стороны, средние значения mi этих распределений могут меняться под влиянием некоторых факторов, входящих в эксперимент. Целью эксперимента является исследование этой изменчивости средних значений.
При общей нулевой гипотезе о том, что все xi имеют одно и то же среднее значение, несмещенной оценкой для неизвестной дисперсии 2 является величина:
Основная идея дисперсионного анализа заключается в разбиении этой суммы квадратов отклонений на несколько компонент, каждая из которых соответствует действительной или предполагаемой причине изменчивости средних значений. После разбиения формируются критерии для различных гипотез о поведении средних значений или оценки для различных интересующих нас функций от средних значений.
4.2 Модели дисперсионного анализа
Суть дисперсионного анализа сводится к расчленению общей дисперсии признака на компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости их влияния. В основе дисперсионного анализа лежит предположение, согласно которому значение результата эксперимента можно представить в виде суммы ряда компонент.
Если исследуется влияние одного фактора, то модель, описывающая структуру результата эксперимента, есть:
где yij - значение признака, полученное на i-ом уровне фактора (под уровнем фактора понимается некоторое значение его меры);
i - эффект фактора на i-ом уровне;
ij - случайная компонента.
Принимается предположение, что все ij имеет нормальное распределение с нулевым средним. Более сложные модели эксперимента предусматривают влияние нескольких факторов и их взаимодействие.
При анализе влияния двух факторов A и B и их взаимодействий структура результативного признака описывается моделью:
где yijk - значение признака в k-ом эксперименте на i-ом уровне фактора A и j-ом уровне B.
i - эффект фактора A на i-ом уровне;
j - эффект фактора B на j-ом уровне;
ij - эффект, вызванный совместным влиянием обоих факторов;
ijk - случайная компонента.
При использовании дисперсионного анализа исследуемая совокупность данных расчленяется на группы, отличающихся по уровню факторов. Предполагается, что распределения признаков являются нормальными, а дисперсии в каждой отдельной группе одинаковы. Оба предположения нуждаются в проверке. Небольшое различие дисперсий и умеренное отклонение от нормальности распределения существенно не отразятся на конечных результатах анализа.
4.3 Критерий, построенный по отношению правдоподобия
Принцип отношения правдоподобия может быть использован для большинства обычно применяемых статистических критериев. В общем случае для проверки гипотезы H в основных предположениях введем обозначение =H, имеющее смысл множества предположений, полученного добавлением условий гипотезы H к предположениям . Если через Y обозначены наблюдения или выборка, а через f(Y) - плотность распределения Y, то статистику отношения правдоподобия, служащую для проверки гипотезы H, определяют формулой:
Значение принимает значения от 0 до 1, так как каждое значение f(Y), возможное на , является возможным и на . Чаще всего вектор Y попадает в ту окрестность значений наблюдений, в которой f(Y)dY достигает максимума при истинных значениях параметров. Тогда, чем меньше максимум в y по сравнению с максимумом в , тем больше сомнений в истинности гипотезы H. Критерий отношения правдоподобия отвергает гипотезу H, если <0, где 0 выбирается так, чтобы получить желаемый уровень значимости.
Если МНК-оценки в и соответственно обозначить и и , а проекции Y на пространства оценок и ошибок и , то получим статистику:
которая обычно используется на практике вместо -статистики. Эта статистика называется F-статистикой, и она имеет F-распределение.
Статистике F можно дать наглядное объяснение. Величину |Y-| можно рассматривать как меру точности подбора оценок 1,.., n по наблюдениям y y1,…,yn.: чем меньше |Y-| тем лучше выбор оценок. Таким образом, |Y-| оценивает наилучший выбор оценок, который может быть в предположениях =H, и может рассматриваться как мера согласованности H с опытными данными. Величина |Y-| показывает, насколько мала может быть эта мера, если оставить только основные предположения.
Таким образом, показывает, насколько хуже выбор по данным в предположениях по сравнению с . Гипотеза H отвергается, если велико. Критерий для проверки гипотезы H в предположениях , построенный при помощи статистики F, называют F -критерием, который имеет F-распределение.
F-критерий можно рассматривать как предварительный метод решения вопроса о целесообразности продолжения обработки наблюдений другими более сложными методами.
F-критерий можно применить к исследованию оценки функции из рассматриваемого класса, которая в некотором смысле сильно отличается от нуля, и решить, значимо ли отличается от нуля эта оценка.
4.4 Простая группировка величин
Рассмотрим простейший случай, в котором наблюдаемые величины разбиваются на r групп, причем i-я группа содержит ni величин. Предполагается, что выборочные значения каждой группы имеют нормальное распределение с параметрами (mi, ), где не зависит от i.
Требуется исследовать свойства величин mi и в первую очередь проверить нулевую гипотезу о том, что все mi равны друг другу, т.е. распределения всех групп одинаковы. В частном случае, когда r=2, эта задача сводится к задаче о разности между двумя средними значениями, являющейся предметом элементарной математической статистики.
Пусть xij обозначает j-ю величину в i-ой группе, тогда:
- среднее арифметическое величин i-ой группы;
В результате получим тождество:
где каждая сумма распространяется на все r величин. Таким образом, полная сумма квадратов отклонений от общего среднего значения x разбивается на две компоненты, а именно:
сумму квадратов отклонений каждой величины от соответствующего группового среднего значения "сумма квадратов внутри групп";
сумму квадратов отклонений групповых средних значений от общего среднего значения "сумма квадратов между группами".
Переписывая тождество, меняя порядок слагаемых, получим
или Q = Q1 + Q2, где Q = Q1 + Q2 - квадратичные формы от xij:
С помощью ортогонального преобразования Q можно привести к виду , которая имеет ранг n-1.
Q1 есть сумма квадратов r линейных форм , и имеет ранг r-1. Аналогично, Q2 есть сумма квадратов т линейных форм и имеет ранг, меньший n-r. Но ранг Q не превосходит суммы рангов Q1 и Q2 , и отсюда следует, что ранги двух последних форм в точности равны, соответственно, r-1 и n-r.
Для значений рангов форм справедливо соотношение:
n-1=(r-1)+(n-r).
Утверждение. Существует ортогональное преобразование n величин xij в новые величины y1, y2, ... , yn, что три исходные суммы преобразуются к виду:
Предполагается, что величины xij независимы и распределены нормально с общим стандартным отклонением , и, следовательно, Q1 и Q2 независимы.
Предположим, что верна нулевая гипотеза, т.е. mi =m для всех i. Полагая xij=m+ij получим независимые и нормальные (0, ) величины ij.. Вводя это преобразование в Q, Q1 и Q2 и обозначая через и средние арифметические, соответствующие и , преобразуем три формы в идентичные выражения, в которых вместо x будет . При указанном ортогональном преобразовании величины ij заменяются новыми величинами 1, 2,…,n независимыми и нормально распределенными с параметрами (0,).
Q, Q1 и Q2 примут вид . Они имеют 2-распределение с n-1, r-1 и n-r степенями свободы соответственно.