rpd000003197 (1012246), страница 27
Текст из файла (страница 27)
Требуется подтвердить, что случайная величина имеет некоторый теоретический закон распределения (задаваемый функцией плотности распределения р(X) ). Зная теоретический закон распределения можно найти вероятности рi, i=1,...,k попадания случайной величины в каждый из интервалов группировки i, i=1,..,k.
Критерий согласия 2 использует в качестве количественной меры рассогласования между теоретическим и эмпирическим распределением сумму квадратов отклонений (p*i - pi)2 взятых с некоторыми весами.
Доказано, что при справедливости предположения о согласии эмпирического и теоретического распределений статистика:
асимптотически имеет 2 - распределение с k-1 степенями свободы. Для удобства вычислений, чтобы избежать дробных величин с большим числом нулей, обычно используют выражение для статистики 2 в следующем виде:
где mi - число реализаций случайной величины, попадающих в i-ый интервал группировки.
Зададим значение вероятности =P(2 2), определяющее вероятность того, что значение статистики 2 не превысит некоторого уровня 2. Как указывалось ранее, достаточная достоверность результатов проверки согласия достигается на уровне =0.95, =0.99 или =0.999. По таблице значений 2-распределения можно определить квантиль 2- предельное значение, не превышаемое статистикой 2 (при условии согласия эмпирического и теоретического распределения) с уровнем доверительной вероятности . Из приведенного выше выражения для 2 следует, что предположение о согласии должно быть отвергнуто, если рассчитанное на основе экспериментальных данных значение 2* слишком велико. Здесь, учитывая случайный характер статистики 2, термин «слишком велико» означает, что 2* 2.
Или, иными словами, если вероятность р=Р(2 2*) слишком мала, то есть р 1- где - принятое значение доверительной вероятности (=0.95, =0.99, =0.999), говорят, что нулевая гипотеза отвергается на уроне значимости 1-.
Асимптотический характер теоремы К. Пирсона, положенный в основу рассмотренного критерия согласия, предполагает, что число реализаций случайной величины достаточно велико. Теоретически и экспериментально показано, что использованная аппроксимация правомочна, если все ожидаемые частоты npi 10. Чтобы выполнить эти требования на практике приходиться увеличивать длину интервалов группировки, или что то же самое, объединять несколько исходов.
В известных статистических пакетах (в частности, в пакете STATISTICA) для поверки согласия пользователю достаточно ввести выборочные значения Хi,i=1,…,n случайного показателя Х и конкретизировать вид теоретического распределения, соответствие которому должно быть установлено. Напомним, что из всего многообразия известных теоретических законов распределения, с точки зрения последующего выбора метода статистической обработки результатов, нас интересует нормальный закон распределения.
В результате проверки согласия отображается рассчитанное значение статистики Колмогорова и уровень значимости p, на основе которой принимается решение о соответствии эмпирического и теоретического распределений. С учетом ранее введенного понятия доверительной вероятности следует отвергнуть предположение о согласии эмпирического и теоретического распределения случайного показателя, если уровень значимости p не превышает стандартного значения. В качестве таких стандартных значений, обеспечивающих необходимую достоверность выводов, обычно используются уровни значимости p=0.001, p=0.01, p=0.05. При этом, чем меньше стандартный уровень значимости, на основе которого принимается решение, тем большей достоверностью оно обладает. Строго говоря, принимая решение о возможности аппроксимации эмпирического распределения нормальным законом, следует указывать уровень значимости основной гипотезы.
В качестве примера на рис. 2.43 приведен экран, содержащий проверку согласия распределения экспериментальных (выборочных) значений численной характеристики с теоретически нормальным распределением
Здесь и в дальнейшем мы не описываем технологию работы с пакетом STATISTICA, учитывая большое число источников, содержащих руководство пользователя, в которых этот процесс исчерпывающе представлен. Мы сосредоточим внимание на квалифицированной интерпретации результатов, полученных с помощью статистического пакета.
В данном случае, пользователю отображается рассчитанное значение статистики Колмогорова D*n =0.09794 и вероятность p=Р{Dn D*n } получить такое или большее значение статистики при справедливости предположения о соответствии распределения выборочных значений нормальному закону. Видим, что полученное значение вероятности достаточно велико (более 20%), что не дает оснований отвергнуть выдвинутую гипотезу.
Следующим этапом статистического исследования в соответствии с ранее представленной схемой является обоснование метода, отвечающего целям исследования и типам экспериментальных данных. Рассмотрим типовые задачи из табл. 2.3, наиболее часто возникающие в процессе статистического исследования экспериментальных данных.
Лекция 3.doc
Леция 3. Оценка различий между двумя независимыми выборками экспериментальных значений.
Как уже указывалось ранее, одной из наиболее распространенных задач статистического анализа результатов экспериментальных исследований бортовых интегрированных комплексов ЛА является задача, предполагающая сравнение двух независимых выборок. В разд. 2.3 рассматривался пример подобного экспериментального исследования, имеющего целью оценку целесообразности включения в состав бортового комплекса ЛА перспективной информационно-экспертной системы поддержки управляющих действий летчика.
Несмотря на индивидуальные особенности подобных задач, все они объединяются общностью постановки и методов решения. Прежде всего, укажем область применения задач сравнения двух выборочных совокупностей:
1) объектом исследования являются две независимые выборки;
2. сравнение выборок проводится на основе некоторой числовой характеристики. В результате проведенных экспериментальных исследований сформированы две выборки реализаций x1,...,xm и y1,...,ym, объединяющих измеренные значения числовой характеристики.
Теоретической основой решения задач анализа двух выборочных совокупностей являются методы проверки статистических гипотез. Несмотря на огромное многообразие такого рода задач, подходы к их практическому решению во многом определяются видом статистической модели, описывающей распределение значений исследуемых показателей. Существуют три группы методов проверки статистических гипотез, применяемых в задачах анализа двух независимых выборочных совокупностей:
-
метод, используемый в тех случаях, когда распределение исследуемой количественной характеристики в каждой их двух сравниваемых групп является нормальным распределением с одинаковыми значениями генеральных дисперсий. В этом случае для анализа групповых значений используется критерий Стьюдента;
-
непараметрические (ранговые) методы, используемые в ситуации, когда числовая характеристика, на основе которой проводится сравнение групп, измерена в количественной шкале, но ее статистическое распределение не обладает свойствами, позволяющими использовать критерий Стьюдента. Подобные методы также используются в случае, когда числовая характеристика измерена в порядковой шкале. Наиболее распространенным методом, используемым для анализа групповых различий в этом случае, является критерий Манна-Уитни;
-
метод, используемый в ситуации, когда числовая характеристика, на основе которой проводится сравнение выборок, является качественным признаком.
Особый интерес представляет решение сформулированной задачи в условиях, когда доказанным (на основе критериев согласия) является факт, что исследуемый показатель имеет нормальное распределение. Как показывает практика, самые разнообразные экспериментальные данные с достаточной степенью точности можно считать выборками из нормального распределения. Это следует из того, что нормально распределенная случайная величина может рассматриваться как результат воздействия большого числа независимых (или почти независимых) факторов, каждый из которых вносит одинаковый вклад в изменение значений случайной величины.
Дальнейшее изложение посвящено краткому изложению сути упомянутых статистических критериев. Оно не претендует на их исчерпывающий анализ (эти вопросы подробно излагаются в любом специализированном издании по теории вероятностей и математической статистики). Нас будут интересовать в основном те особенности критериев, которые представляются важными с точки зрения правильной интерпретации результатов их реализации с использованием статистических пакетов.
3.1. Выявление различий между двумя независимыми выборками с использованием критерия Стьюдента.
Результаты экспериментальных исследований представлены выборками x1,...xn и y1,...,ym реализаций значений числовой характеристика, на основе которой проводится сравнение независимых групп . Область практического применения критерия Стьюдента требует выполнения двух обязательных условий:
-
случайные величины X и Y имеют нормальное распределение с параметрами: XN(mx,2x), YN(my,2y), где mx ,my - математические ожидания, а 2x, 2y - дисперсии измеряемого параметра в исследуемых группах. Заметим, что выдвинутое предположение должно быть строго обосновано на основе критерия согласия;
-
имеет место равенство генеральных дисперсий 2x = 2y.
В математической постановке при сделанных предположениях рассматриваемая задача анализа различий в значениях измеряемых параметров X,Y формулируется как задача сравнения их средних значений. Рассмотрим нулевую гипотезу Н0: mx=my, предполагающую равенство значений измеряемого параметра в сравниваемых выборочных совокупностях, против альтернативной гипотезы mxmy.