Л.Н. Фадеева, А.В. Лебедев - Теория вероятностей и математическая статистика, страница 53
Описание файла
DJVU-файл из архива "Л.Н. Фадеева, А.В. Лебедев - Теория вероятностей и математическая статистика", который расположен в категории "". Всё это находится в предмете "теория вероятностей и математическая статистика" из 3 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 53 - страница
Проведем краткое обоснование критерия Пирсона. Будем считать наступление события А,. успехом, а его ненаступление — неудачей. Тогда т,. — это число успехов в и испытаниях Бернулли, т,/и — относительная частота события Аи которая является асимптотически нормальной, несмещенной и состоятельной (т,1 оценкой вероятности этого события. Поскольку т~ — )=Р при больших п можно считать справедливым приближенное ра- И> венство — ' = рч т.е. вектор частот — =~ —,— " — ) является и и (,и и и) оценкой гипотетических вероятностей Р = (Р, Р, —. Ртт. В качестве меры расхомсдения гипотетической и теоретической вероятностей рассматривается сумма квадратов отклонений где тт — веса отклонений.
Например, в методе наименьших квадратов принято т,. = 1, но согласно теории ошибок Гаусса каждое слагаемое должно входить в сумму со своей точностью. Пирсон показал, что если положить тт = и/ри то полученная статистика критерия будет иметь известный закон распределения. Действительно 354 Глава гб © т; — пр; величина у, = ' ' также асимптотически нормальна и (пр,. у .
!!Г(0, 1). Если бы у, были независимы, то случайная величина тг = ~ у,' имела бы предельное распределение Х,'. Однако !! между случайными величинами у,. для различных ! существует линейная зависимость. Действительно, поскольку — ',/р, (тг — прг) ! ' 1 '~,!р,.у,.=~ ' ' ' = — Ч~ (т,.-пр,.)= — (п-п)=0, ь~ ь~ ~/пр, Л и с~П гп,. -пр, то у,.= ' ' линейно зависимы, причем их связь описывает,Яр,. ся всего одним уравнением. С учетом этого факта, при п -+ о случайная величина у' = ~ у,' имеет распределение тг с г — 1 степенями свободы. Если вероятности р„р„..., р„зависят от неизвестных параметров 8„8„..., 8„которйе можно оценить по т„т„... т то их оценивают методом максимального правдоподобия, получают соответствующие оценки р„р„..., р, и так же вычисляют статистику хи-квадрат, но в этом случае ее предельное распределение имеет уже г — lс — 1 степеней свободы.
Тогда, если Х ~к.,, и, то гипотеза принимается, иначе отвергается. Критерий хи-квадрат для простой гипотезы, т.е. в случае известных параметров, называют также критерием хи-квадрат Пирсона, а критерий хи-квадрат для сложной гипотезы (с оцениванием параметров) — критерием хи-квадрат Фишера. Критерий хи-квадрат можно применять и в более общей схеме, для проверки распределений случайных величин. В этом случае в качестве исходов А„А„... А„беруг попадания наблюдений в некоторые множества Ь„Л„...
Л„. Для дискретных величин это могут быть отдельные значения или их объединения. Для непрерывных величин используют обычную группировку, т.е. подсчитывают числа попаданий в некоторые интервалы. Если распределение не ограничено слева или справа, то крайние интервалы продолжают до бесконечности. Если числа попаданий в какие-то интервалы слишком малы (например„ меньше 5), то такие интервалы объединяют с соседними ин- 355 аа ЧАСТЬ 11. Матеиатичесиаа статистика тервалами. Всего желательно иметь не менее 50 наблюдений в выборке.
В результате есть множества Л„Л„... Ли находят числа т„ ит„... ит, попаданий наблюдений в эти множества и теоретические вероятности рт = Р(1 е Л,.), т = 1, 2, ... г, после чего применяют критерий хи-квадрат. Рассмотрим более подробно следующие случаи.
1. Пусть х„х„..., х„— независимые наблюдения некоторой случайной величины х с неизвестной функцией распределения Р(х). Требуется по выборке х„х,, ..., х„проверить нулевую гипотезу о том, что генеральная совокупность имеет функцию распределения Ре(х), если известны значения параметров закона распределения, т.е. имеет место простая гипотеза. Для проверки этой гипотезы область наблюдаемых значений х„х„..., х„случайной величины с произвольным образом разбивают на г непересекающихся областей ви 1 = 1, 2, ..., к Обычно это последовательность непересекающихся интервалов и полуинтервалов вида (- е, С,); [Си Ст); ...
(С и +ее); С,= — се; С,=+е. Если справедлива основная гипотеза, т.е. случайные величины х, имеют своей функцией распределения функцию Ре(х), то можно найти теоретические вероятности попадания случайной величины в частичные интервалы из условия г р, =Р(С,, яс,(С,.)=Х'(С,)-ре(Ст,), где р,. > О, ~ р;=1 т ! Со случайными величинами х„х„..., х„естественно связана полиномиальная схема с и испытаниями, в которой результатом тс-го испытания является попадание значения х„в какой-либо интервал. Обозначим через ит,. = итт(х„х„..., х„) число значений среди х„х„..., х„, попавших в промежуток Л,.= [САМС,.).
По теореме Пирсона получаем, что если х„х„..., х„— выборка из генеральной совокупности с функцией распреде' (т,. -ир,) ления Ге(х), то статистика тт= ~ ' ' имеет при и -е е ирт (т.е. при достаточно больших и) распределение хи-квадрат с г — 1 степенями свободы, если основная гипотеза верна. В противном случае статистика стремится к бесконечности. Поэтому в качестве критической области выбирают область больших значений.
з56 Глава «б ф Поскольку односторонний критерий более «жестко» отвергает нулевую гипотезу, чем двусторонний, построим правостороннюю критическую область, исходя из требования, что вероятность попадания критерия в эту область в предположении истинности нулевой гипотезы должна быть равна принятому уровню значимости Гк Р(Х'> Х'.,) = а. Алгоритм проверки гипотезй следующий. 1. Из генеральной совокупности производят выборку объема и (л > 50). 2. Составляют сгруппированный статистический ряд. 3.
Весь диапазон наблюдаемых значений разбивают на г частичных интервалов (в каждом из которых должно быть минимум 5-8 наблюдений, иначе интервалы объединяются; хорошие результаты получают при лр, > 10) 4. На основании гипотетической функции распределения Рв(х) вычисляют вероятности попадания случайной величины с в частичные интервалы: Р, = Р(С»«< Г, < С) = Р;(С) — Р«(С„,), 1 = 1, 2, ..., Г. 5.
Умножая полученные вероятности р,. на обьем выборки, получаем теоретические частоты лрл т.е. частоты, которые следует ожидать, если нулевая гипотеза справедлива. " (т,.-лр,.)' 6. Вычисляют статистику хи-квадрат: Х' = ~ лр, 7. По таблице критических точек распределения хи-квадрат по заданному уровню значимости а и числу степеней свободы г — 1 находим критические точки х'„ 8. Сравнивая наблюдаемые значения критерия х' с критическим значением Х'„... принимаем одно из двух решений: а) если Х' > Х'„... то нулевая гипотеза отвергается в пользу альтернативной, т.е.
считается, что гипотетическая функция распределения не согласуется с опытными данными; б) если х' < х„'... то нет основания для отклонения нулевой гипотезы, т.е. гипотетическая функция Рв(х) согласуется с опытными данными.
П. Если значения параметров гипотетической функции распределения Р;(х) неизвестны, то имеем сложную гипотезу. Основная гипотеза Н, заключается в том„что функция распределения имеет вид Р,(х) = г(х, 0„..., 0„) при некоторых 357 ф ЧАСТЬ Л. Математическая статистика неизвестных значениях параметров 0„0„..., 0„.
В этом случае вероятности р„р„... р„также зависят от параметров. Выборочный критерий проверки истинности нулевой гипотезы имеет вид " ( сс-вр,(0„0„...0„))' х'= 2. лр,(Е„0,,...,0„) При известных значениях параметров имел бы место первый случай. Но так как истинные значения 0„0„..., е„неизвестны, то, подставляя их оценки, найденные методом максимального правдоподобия, получаем статистический критерий т' с меньшим числом степеней свободы, а именно и = г — Й вЂ” 1, где г — число интервалов, на которые разбит весь диапазон наблюдаемых значений, lс — число параметров гипотетической функции распределения.
Сравнивая наблюдаемое значение критерия т' с критическим значением Х'„, „,, по приведенной схеме делаем заключение об истинности нулевой гипотезы: гипотеза принимается, если т' < Х„', „,, и отвергается в противном случае. Задача 1. В следующей таблице представлены данные о числе сделок, заключенных на фондовой бирже за квартал, для 517 инвесторов. 5 6 68 168 5 1 32 130 112 В первой строке приведено число сделок, во второй — число инвесторов, заключивших указанное число сделок за квартал. Проверить, используя критерий Пирсона на уровне значимости а = 0,05 число сделок, заключенных одним инвестором за квартал, распределено по закону Пуассона с параметром Л = 1,5. Решение. Поскольку распределение Пуассона дискретно, в качестве различных исходов здесь можно принять сами значения случайной величины.
Заметим, что два последних значения (6 и 7) встретились слишком мало раз, поэтому их следует объединить с предыдущим (5). Кроме того, распределение Пуассона не ограничено справа, и следует учесть все значения, превышающие число 7 (которые не встретились ни разу). 358 Глава лб яв Таким образом, в качестве множеств Л, выберем значения (0), (1), (2), (3), (4), 15, + о), Здесь г = 6. Найдем теоретические вероятности по формуле распределения Пуассона: РЯ~=У)= — е, 7 = О, 1, 2, „.
Х' /! При Л = 1,5 получаем: рв Р(Р, = 0) = 0,2231; р, = Р(Г, = 3) = 0,1255; Р, = Р(4 = 1) а 0,3347; Рл = Р(с, = 4) ~ 0,0471; рг = Р(4 = 2) = 0,2510; р5 = Р(е ~ 5) ~ 0,0186 Умножим эту величину на число инвесторов л = 517 и составим таблицу (табл. 16.1). таблица абл Суммируя значения в последнем столбце, получаем значение статистики хи-квадрат (х' = 3,51). По таблице критических точек распределения хи-квалрат при уровне значимости а = 0,05 и числе степеней свободы г — 1 = 5 находим критическую точку х'„„= 11,1.
Поскольку х' < х'~, можно считать, что число сделок, заключенных одним инвестором за квартал, распределено по закону Пуассона с параметром 1= 1,5. Замечание. Если бы значение параметра Х = 1„5 было оценено по самой выборке, следовало бы задать число степеней свободы г — 2 = 4. Тогда имеем Х'„, = 9,5, следовательно, гипотеза тоже принимается. 359 1 ЧАСТЬ Л. Метеиетическея стетистике Задача 2. В табл. 16.2 приведены сгруппированные данные о коэффициентах соотношения заемных и собственных средств на 100 малых предприятиях региона. Таблица тб.а На уровне значимости а = 0,05 проверить гипотезу о том, что коэффициенты можно описать нормальным распределением. Решение.
В рассматриваемом случае параметры распределения явно не заданы, их следует оценить по сгруппированным данным. Находим выборочное среднее (5,46) и выборочную дисперсию (0,03). Теоретические вероятности оцениваем по формуле: Р(с,, <Ц<с,)=Ф ' — Ф ' ', 1=1,2,...,8. Следует продолжить крайние интервалы и положить с, = — е, с, = + о, поскольку нормальное распределение не ограничено с обеих сторон. С учетом полученных значений строим таблицу (табл.
16.3). Таблица тбЗ Глава гб ф гтувдвлгнение табл. г6.3 т, т, ... тг ... т, ~г и,: 'г збг Суммируя значения в последнем столбце, получаем значение статистики хи-квадрат (тг = 2,22). С помощью таблицы критических точек распределения хиквадрат по уровню значимости а = 0,05 и числу степеней свободы г — 1 — /Г = 8 — 1 — 2 = 5 находим критическую точку Х' = 11,1. Поскольку Х'< Х'„,, можно считать, что коэффициенты хорошо описываются нормальным распределением. Замечание. В принципе здесь можно было бы объединить крайние интервалы с соседними.