Методические указания (1161391), страница 19
Текст из файла (страница 19)
где функция В-распределения , зависящая от двух положительных параметров
и
,определяется на отрезке
формулой
и - так называемая В-функция Эйлера :
В соответствии с теоремой Лапласа при увеличении и отличной от нуля и единицы вероятности
биномиальное распределение можно аппроксимировать нормальным распределением с теми же математическим ожиданием и дисперсией , т.е.
и
.Это аппроксимирующее распределение дает приемлемые результаты , если
и
не менее 5. Поэтому ,когда это возможно , доверительные границы для
можно найти , используя аппроксимирующее нормальное распределение.
Базируясь на асимптотических свойствах биноминального распределения ( его стремление к нормальному распределению ), можно получить следующие соотношения для доверительных границ :
если и значения
и
порядка 1 и более , соотношения для
и
имеют вид :
;
(3)
где ,
- функция ,обратная функции Лапласа
;
При малом числе опытов последний подход к получению интервальной оценки неприемлем. В этом случае для определения доверительных границ необходимо использовать биномиальное или В-распределение.
Границы доверительного интервала для параметра при малом его значении , когда
=0 ,изложенными методами не могут быть найдены. Для определения верхней границы доверительного интервала следует воспользоваться формулой
(4) ,
где - число опытов ;
- заданная доверительная вероятность.
Нижняя граница доверительного интервала равна нулю. Для
=1 нижняя граница доверительного интервала определяется формулой
(5) . Верхняя граница
равна единице.
Для проверки соответствия вероятности наступления некоторого события заданной величине
по эмпирическим данным применяется аппарат проверки статистических гипотез. С этой целью при заданном уровне значимости проверяется нулевая гипотеза
, состоящая в том , что неизвестная вероятность
равна заданной
.В качестве конкурирующей гипотезы
может быть , например ,предположение о том , что вероятность
меньше заданной вероятности
.
Поскольку вероятность оценивается по относительной частоте , рассматриваемую задачу можно сформулировать и так : требуется установить , значимо или незначимо различаются наблюдаемая относительная частота и гипотетическая (заданная) вероятность.
В качестве статистической характеристики гипотезы выбирают
случайную величину (6) ,
которая при справедливости нулевой гипотезы :
=
распределена приблизительно нормально с параметрами
и
(удовлетворительные результаты получаются при
).
Для проверки нулевой гипотезы :
=
при заданном уровне значимости и конкурирующей гипотезе
:
<
вычисляется наблюдаемое значение случайной величины Z
и по таблице функций Лапласа находится критическая точка в соответствии с равенством
Если - нет оснований отвергнуть нулевую гипотезу .
Если - нулевую гипотезу отвергают.
Для сравнения вероятностей
и
появления событий в двух генеральных совокупностях из них берут выборки соответственно объемом
и
, и на основании полученных результатов проверяют гипотезу
, т.е. допущение о том , что обе генеральные совокупности имеют одинаковую вероятность
появления исследуемого события.
При независимых испытаниях для проверки гипотезы пользуются статистикой
(7).
Поскольку гипотеза
выражает лишь равенство вероятностей
и
, но не определяет величины
, последняя должна быть оценена по результатам наблюдений. Вероятность
заменяется ее оценкой максимального правдоподобия
(8)
представляющей средневзвешенное относительных частот из их выборок.
Подстановка
в (7) дает рабочую форму для вычисления наблюдаемого значения статистической характеристики гипотезы
(9)
Критическая область строится в зависимости от вида конкурирующей гипотезы. Поскольку вероятности оцениваются по относительным частотам
,
, рассматриваемую задачу можно сформулировать так : требуется установить значимо или незначимо различаются относительные частоты.
Сформулируем правила проверки нулевой гипотезы при различных конкурирующих гипотезах. Для того, чтобы при заданном уровне значимости проверить нулевую гипотезу
при конкурирующей гипотезе
, нужно вычислить наблюдаемое значение статистики по формуле (9) , и по таблице функции Лапласа найти критическую точку
по равенству
.
Если - нет оснований отвергнуть нулевую гипотезу.
Если - нулевую гипотезу отвергают.
При конкурирующей гипотезе находят критическую точку правосторонней критической области по равенству
.
Если - нет оснований отвергнуть нулевую гипотезу.
Если - нулевую гипотезу отвергают.
При конкурирующей гипотезе находят критическую точку левосторонней критической области.
3.6.2. Определение законов распределения случайных величин по эмпирическим данным
При построении закона распределения элементы исходной выборки разбиваются на группы , строится опытное распределение , подбирается теоретическое распределение и осуществляется проверка согласия опытного распределения с теоретическим в соответствии с критерием согласия ( критерий Колмогорова , критерий Пирсона ,критерий .
При выборе вида теоретического распределения очень удобно пользоваться графиками , приведенными на рис.1.
Рис.1. Области в плоскости ( ,
) для различных
распределений (система кривых Пирсона) :
1-критическая область; 2- равномерная область;
3- область U-образного -распределения ;
4- область J-образного -распределения ;
5- нормальное распределение ; 6- область -распределения ;
-
область Г-распределения ; 8- логарифмическое нормальное
распределение; 9- экспоненциальное распределение .
На рисунке представлена область плоскости ( ,
) , где
- квадрат коэффициента асимметрии,
- коэффициент эксцесса , которые определяются следующим образом:
где - центральный момент случайной величины к-го порядка К=2,3,4.
Рассматриваемая область разбита на подобласти , каждая из которых соответствует определенному классу распределений . При определении вида теоретического распределения предполагается использовать существенное отличие разных классов распределений по скошенности и островершинности. Так , для нормального распределения =0,
=3, для равномерного -
=0,
=1.8 ,для экспоненциального -
=4,
=9 ,поэтому
эти распределения отображаются на плоскости ( ,
) каждое одной точкой.
Для выбора вида теоретического распределения при данном походе необходимо по выборке вычислить оценки показателей асимметрии
плоскости и эксцесса
и отыскать точку на рис.1, соответствующую полученным оценкам. Для больших выборок вычисление оценок не составляет труда . В этом случае оценка моментов
,
и
находится по формулам:
;
;
; (11)
Заметим , что при применении этого метода необходимо учитывать два ограничения :
а) и
являются лишь оценками для
и
,и повержены колебаниям от выборки к выборке , поэтому необходимо осторожно пользоваться методом при малом числе наблюдений ;
б) в общем случае форма распределения не определяется однозначно его показателями асимметрии и островершинности .
В последнее время значительное внимание уделяется методам оценивания распределений по малой выборке. Выборку можно считать малой , если она содержит количество информации , недостаточное для получения заданных точности и достоверности в решаемой задаче.
Это определение хотя и является исчерпывающим, однако им нельзя воспользоваться для практической оценки достаточности объема выборки. Тем не менее такой подход следует считать наиболее правильным. Если нет возможности точно оценить количество информации , то это необходимо сделать хотя бы приближенно. Для этой цели можно использовать следующие соображения.
Во многих методах статистической обработки выборки используется идея группировки данных ( гистограмма, критерий и т. д.). При анализе выборок значительного объема с использованием этих методов обычно удается получить удовлетворительный результат. Но группировка наблюдений вызывает обычно уменьшение информации, которая извлекается из выборки . Значит , если применение такого метода в конкретной задаче удовлетворяет практические потребности ,то, очевидно, выборка содержит избыточную информацию для заданной точности и достоверности . Отсюда следует, что, во-первых, количество информации в выборке заданного объема неразрывно связано с возможностью достичь вполне определенные точность и достоверность. Следовательно, можно говорить о существовании достаточной выборки , которая как раз и является границей , разделяющей большие и малые выборки. Во-вторых, если выборка меньше достаточной , то для устранения потерь информации при её обработке необходимо отказаться от группировки наблюдений и перейти к методам, основанным на использовании каждой отдельной реализации.
Этот момент и может быть положен в основу определения малой выборки.
Таким образом, выборку следует считать малой, если при её обработке методами, основанными на группировке наблюдений, нельзя достичь заданных точности и достоверности.
Границу, разделяющую большие и малые выборки (достаточная выборка), нельзя, конечно, понимать как точку в ряду вещественных целых чисел.
Достаточные выборки в силу случайности выбора образуют некоторое конечное множество. Но самым существенным, что следует из определения малой выборки, является необходимость при обработке малой выборки индивидуального подхода к каждой отдельной реализации (отдельному результату наблюдений).
Оценка плотности распределения, полученная по выборке малого объёма, для большинства предложенных методов обобщенно может быть выражена линейной суммой двух компонент: априорной и эмпирической.