Сравнение дисперсий нормально распределённых данных

2020-06-032021-03-09zzyxelСтудИзба

10.6. Сравнение дисперсий нормально распределённых данных

Иногда представляет интерес изучение степени вариации данных. В реальности этим может быть, например, вариация величины поглощения краски нейлоновой нитью или эффективность противотифозной вакцины. Уменьшающие дисперсию модификации изучаемого процесса могут представлять большую важность. И снова интересным может быть сравнение, например, вариаций двух аналитических методов. Далее описывается, как делаются проверки значимости дисперсий и находятся доверительные интервалы. Однако выполнение этих методов сравнения дисперсий много больше зависит от нормальности распределения исходных данных, чем соответствующие методы сравнения средних.

В главе 1 показано, что, считая верной гипотезу случайного выбора из нормально распределённой популяции, нормированная сумма квадратов отклонений от усреднённого имеет распределение c²(n–1). Отсюда, в силу (1.13.3), имеем

=~c²(n–1). (10.6.1)

Проверка значимости дисперсии

Считалось, что результаты измерений диаметра вала с точностью до сотых долей миллиметра имеют дисперсию s² не более 10. Для проверки этого сделаны шесть измерений и получен результат s²=13 оценки дисперсии. Допуская, что результаты измерений распределены независимо, одинаково и по нормальному закону, существует ли какое либо важное свидетельство того, что их дисперсия s² может быть больше 10?

При s²=10 найденное из выражения (10.6.1) значение (n–1)s²/s²=5x13/10=6,5 случайной переменной (х) с распределением c²(5) имеет показанную на Рис.10.6.1 интегральную вероятность Р_и=0,739. Эта вероятность находится из выражений

Р_и= или Р_и=pchisq(х, v),

где х=(n–1)s²/s², v – число степеней свободы и pchisq(х, v) – встроенная функция Mathcad. Большие чем 6,5 значения переменной (х) имеют вероятность 1–Р_и=0,261. Это значение много больше 0,05, поэтому нет смысла ставить под сомнение, что дисперсия s² может быть больше 10.

Рекомендуемые материалы

FREE

Нормальное ур-е прямой на плоскости,его получение из общего уравнения.Геометрическое толкование входящих в

Математика

FREE

Первые интегралы нормальной системы дифференциальных уравнений, их применение и

Математика

FREE

Сравнение б/м (бесконечно малых) функций. Бесконечно большие функции, связь с б/м (бесконечно малыми).

Математика

FREE

Сравнение бесконечно малых функций. Привести

Математика

FREE

Пределы. Сравнение бесконечно малых величин

Математика

FREE

Определение законов распределения случайных величин и их числовых характеристик на основе опытных данных. Проверка статистических гипотез

Математика

Рис.10.6.1. Графическое изображение интегральной вероятности Р_и под кривой функции плотности вероятности распределения c².

Интервал доверия для дисперсии

Крайние значения интервала доверия с вероятностью 1–α для дисперсии s² находятся из выражений и , где крайними значениями интервала доверия являются значения дисперсии, в пределах которых выборочная дисперсия s² является значимой при принятом уровне вероятности α.

Как и ранее, допустим, получен результат s²=13 оценки дисперсии с использованием пяти степеней свободы. Для дисперсии s² интервал доверия с вероятностью 0,95 может быть получен следующим образом. В отличие от распределения t здесь невозможно использовать симметрию кривой функции плотности вероятности. Каждое крайнее значение должно вычисляться отдельно. Считая, что интервал доверия имеет интегральную вероятность А=0,95 и показанные на Рис.10.6.2 площади хвостовых частей под кривой одинаковы, то площадь левого хвоста до х₀ равна (1–А)/2 и общая площадь под кривой до х₁ равна (1–А)/2+А= (1+А)/2.

Рис.10.6.2. Графическое изображение интегральной вероятности А интервала доверия под кривой функции плотности вероятности распределения c².

Тогда, если А=0,95 и v =5, то значения х₀ и х₁ вычисляются с использованием встроенной в Mathcad обратной кумулятивной функции распределения qchisq(A, v). В результате имеем х₀= qchisq[(1–А)/2, v]=0,831 и х₁= qchisq[(1+А)/2, v]=12,833. Поэтому искомые крайние значения интервала доверия с вероятностью 0,95 равны

==5,07 и ==78,22.

Заметим, что, если число степеней свободы небольшое, то дисперсия и её корень квадратный, то есть, стандартное отклонение, не могут оцениваться очень точно. В качестве грубого приближения, выраженное в процентах от s выборочное стандартное отклонение s равно 100/ [Box с соавт. (2005) стр. 103]. Поэтому, если желательна оценка s с не более чем, например, 5% стандартным отклонением, то необходима выборка примерно из 200 независимых наблюдений!

Упражнение 10.6.1. Используя данные упражнения 10.5.9, найдите доверительный интервал с вероятностью 0,90 для дисперсии приведённых данных. Внимательно формулируйте допущения.

Проверка значимости отношения двух дисперсий

Положим, что выборка размером n₁ получена случайным образом из популяции наблюдений с нормальным распределением и дисперсией s₁², а вторая выборка размером n₂ получена случайным выбором из второй популяции наблюдений с нормальным распределением и дисперсией s₂². Результаты s₁² и s₂² оценки дисперсий этих двух популяций вычисляются соответственно с v₁ и v₂ степенями свободы. При стандартном допущении нормального, независимого и одинакового распределения и, так как, в силу (1.13.4), s₁²/s₁² имеет распределение c²(v₁)/v₁ и s₂²/s₂² имеет распределение c²(v₂)/v₂, то отношение [c²(v₁)/v₁]/[c²(v₂)/v₂] имеет распределение F(v₁, v₂). Следовательно, в силу (1.13.5), имеем

~F(v₁, v₂) или эквивалентно ~F(v₁, v₂).

Например, в результате выполненных неопытным и опытным химиками анализов реплик получены дисперсии выборок соответственно s₁²=0,183 (при v₁=12) и s₂²=0,062 (при v₂=9). Положим, что полученные результаты химиков могут рассматриваться как нормально и независимо распределённые случайные переменные с дисперсиями s₁² и s₂² и желательно проверить нулевую гипотезу s₁²=s₂² в сравнении с той, что s₁²>s₂². Если нулевая гипотеза s₁²=s₂² верна, то отношение s₁²/s₂² имеет распределение F(12, 9). Значение s₁²/s₂²=0,183/0,062=2,95 случайной переменной с распределением F(12, 9) имеет показанную на Рис.10.6.3 интегральную вероятность P_F=0,94. Эта вероятность рассчитывается по формулам

P_F= или P_F=pF(x, v₁, v₂),

где х=s₁²/s₂², u – промежуточная переменная и pF(x, v₁, v₂) – встроенная функция Mathcad.

Рис.10.6.3. Графическое представление интегральной вероятности P_F под кривой функции плотности вероятности распределения F.

Вероятность, что отношение s₁²/s₂² равно или больше 2,95 получается 1–P_F =0,06. Это несколько больше обычно принимаемого уровня вероятности 0,05. Поэтому следует вывод, хотя и не очень убедительный, что работа неопытного химика даёт большую дисперсию.

Интервал доверия для отношения двух дисперсий

Рассуждая также как в случае с одной дисперсией и считая верной гипотезу нормального, независимого и одинакового распределения, значения х₀ и х₁ имеющей распределение F(v₁, v₂) переменной являются критическими, имеющими интегральные вероятности соответственно α/2 и 1–α/2, как показано на Рис.10.6.4. Тогда крайние значения интервала доверия с вероятностью 1–α для s₁²/s₂² находятся из выражений

и .

Рис.10.6.4. Графическое изображение интегральной вероятности А интервала доверия под кривой функции плотности вероятности распределения F.

Как и при распределении c² здесь невозможно использовать симметрию кривой функции плотности вероятности. Каждое крайнее значение должно вычисляться отдельно. Поэтому, считая, что интервал доверия с вероятностью А=0,90 и площади хвостовых частей под кривой функции плотности вероятности распределения F равны, то площадь левого хвоста до х₀ равна (1–А)/2 и общая площадь под кривой слева до х₁ равна (1+А)/2.

Для вычисления крайних значений интервала доверия с вероятностью А=0,90 для отношения дисперсий s₁²/s₂², как ранее, оценки дисперсий делались соответственно с 12 и 9 степенями свободы и s₁²/s₂²=2,95. Критические значения х₀ и х₁ вычисляются с использованием встроенной в Mathcad обратной кумулятивной функции qF(A, v₁, v₂) распределения F. В результате имеем х₀= qF[(1–А)/2, v₁, v₂]=0,358 и х₁= qF[(1+А)/2, v₁, v₂] =3,073. Следовательно, искомые крайние значения интервала доверия получаются

=2,95/3,073=0,96 и =2,95/0,358=8,24.

Зависимость проверок дисперсий от нормальности

Тогда как проверки при сравнении средних нечувствительны к справедливости допущения нормальности распределения исходных данных, это не так для проверок дисперсий (см. сравнения, сделанные для выборочных экспериментов в книге [Box с соавт. (2005) стр. 117]). Иногда можно избежать этой трудности путём преобразования проверки дисперсий в проверку средних [Bartlett, Kendall (1946)]. Логарифм выборочной дисперсии s² имеет распределение более близкое к нормальному, чем сам результат s² оценки. Также, при справедливости допущения нормальности, дисперсия log(s²) является независимой от дисперсии s² популяции. Если имеется некоторое число дисперсий для сравнения, то можно сделать приблизительную проверку, которая нечувствительна к отклонению от нормальности, беря логарифмы выборочных дисперсий и выполняя проверку по этим «наблюдениям» на основе распределения t.

Рассмотрим следующий пример [Box с соавт. (2005) стр.105]. Каждую неделю два аналитика выполняли пять проверок одинаковых выборок из изменяющихся каждую неделю источников. Эти специальные выборки были включены случайным образом в последовательность обычных анализов и не были опознаваемы аналитиками. Вычисленные в результате дисперсии и последующий анализ сведены в таблицу 10.6.1.

Используя сдвоенную проверку на основе распределения t для средних, получаем

=0,352, s_d=0,226 и =s_d/=0,101.

Поэтому значение статистики t_р с распределением t получается

t_р₀==0,352/0,101=3,49.

Таблица 10.6.1. Результаты расчёта выборочных дисперсий и их анализ

Неделя	Аналитик 1	Аналитик 2	d=log(100s₁²)–log(100s₂²)
s₁²	log(100s₁²)	s₂²	log(100s₂²)
1	0,142	1,15	0,043	0,63	0,52
2	0,09	0,96	0,079	0,90	0,06
3	0,214	1,33	0,107	1,03	0,30
4	0,113	1,05	0,037	0,43	0,62
5	0,082	0,91	0,045	0,65	0,26

Допуская естественные изменения анализируемых выборок от недели к неделе, в этом случае выполнялась сдвоенная проверка на основе распределения t. Уровень вероятности Pr(t_р≥3,49) для этого значения статистики и распределения t с четырьмя степенями свободы можно найти по формуле

Pr(t_р>3,49)=1–pt(3,49, 4)=0,013,

используя компьютерную программу Mathcad. График функции плотности вероятности распределения t симметричен, поэтому требуемая вероятность получается удваиванием ранее полученной вероятности, то есть, она равна вероятности, что значения статистики t_р больше +3,49 и меньше –3,49

Pr(|t_р|>|t_р₀|) =2xPr(t_р≥3,49) =0,026.

Это значение вероятности является значимым по отношению к уровню вероятности 0,05. Поэтому из двух сравниваемых второй аналитик является более точным.

В этом примере существует естественное разделение данных на группы. Когда это не так, наблюдения могут быть разделены случайно на малые группы и может использоваться этот же подход.

Приложение. Нахождение множества разностей усреднённых

Множество разностей усреднённых на современных компьютерах может быть найдено с использованием программы Microsoft Excel. При этом необходимо использовать язык программирования Visual Basic. В интернете на сайте http://www.get-digital-help.com/2015/02/26/return-all-combinations/ приводится подпрограмма на этом языке для приложений, которая генерирует необходимое число п (=462) комбинаций заданного числа элементов (5 или 6) из общего числа элементов (11). Эта подпрограмма имеет вид:

Public result() As Variant

Function Combinations(rng As Range, n As Single)

rng1 = rng.Value

ReDimresult(n - 1, 0)

Call Recursive(rng1, n, 1, 0)

ReDim Preserve result(UBound(result, 1), UBound(result, 2) - 1)

Combinations = Application.Transpose(result)

End Function

Function Recursive(r As Variant, c As Single, d As Single, e As Single)

Dim f As Single

For f = d To UBound(r, 1)

result(e, UBound(result, 2)) = r(f, 1)

If e = (c - 1) Then

ReDim Preserve result(UBound(result, 1), UBound(result, 2) + 1)

For g = 0 To UBound(result, 1)

result(g, UBound(result, 2)) = result(g, UBound(result, 2) - 1)

Next g

Else

Call Recursive(r, c, f + 1, e + 1)

28 - Эталонная модель взаимодействия открытых систем - лекция, которая пользуется популярностью у тех, кто читал эту лекцию.

End If

Next f

End Function

Для её использования необходимо запустить программу Excel и командой Alt+F11 перейти в редактор Visual Basic. В редакторе выбрать мышкой в меню Insert и затем щёлкнуть мышкой по Module. Далее скопировать приведённую выше подпрограмму в окно модуля и выйти из редактора Visual Basic в саму программу Excel.

В Excel сначала необходимо разместить числа строки «Урожаи» таблицы 10.1.3 в строке или столбце ячеек рабочего листа, например в В3:В13. Далее на этом листе выбрать матрицу ячеек, например, Е3:J464. В строке записи формулы ввести обращение к записанной подпрограмме в виде: =Combinations(B3:B13,6). Затем, нажав и держа две клавиши CTRL+SHIFT, нажать клавишу Enter. В результате все 462 комбинации по 6 чисел из строки Урожаи таблицы 10.1.3 появятся в матрице ячеек Е3:J464.

Усреднённые полученных комбинаций находятся с использованием функции =AVERAGE(E3:J3). Для нахождения усреднённых остальных 5 чисел из строки Урожаи таблицы 10.1.3 для 462 комбинаций по 6 чисел необходимо найти общую сумму чисел этой строки и из неё вычесть суммы чисел, полученных в 462 комбинациях по 6 чисел. Полученные результаты поделить на 5 и получить искомые усреднённые остальных 5 чисел. В итоге, вычитанием находится множество разностей усреднённых.

Поделитесь ссылкой:

Сравнение дисперсий нормально распределённых данных

Рекомендуемые материалы

Рекомендуемые лекции