Lektsia_7_Odnorodvyb_sredvelich (Лекции)
Описание файла
Документ из архива "Лекции", который расположен в категории "". Всё это находится в предмете "прикладная статистика" из 4 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. .
Онлайн просмотр документа "Lektsia_7_Odnorodvyb_sredvelich"
Текст из документа "Lektsia_7_Odnorodvyb_sredvelich"
Лекция 7
Проверка однородности двух биномиальных выборок (Пр.стат разд 1.3.3)
(в лекции более кратко)
Проверка однородности – одна из базовых проблем прикладной статистики. В маркетинге это важно для сегментации рынка. Если две группы не отличаются по ответам, значит, их можно объединить в один сегмент и проводить по отношению к ним одну и ту же маркетинговую политику.
Обсуждаемая далее постановка задачи в терминах прикладной статистики такова. Рассматривается вопрос с двумя возможными ответами, например, "да" и "нет". В первой группе из n1 опрошенных m1 человек сказали "да", а во второй группе из n2 опрошенных m2 сказали "да". В вероятностной модели предполагается, что m1 и m2 - биномиальные случайные величины B(n1 , p1 ) и B(n2 , p2 ) соответственно. (Запись B(n , p) означает, что случайная величина m, имеющая биномиальное распределение B(n , p) с параметрами n - объем выборки и p - вероятность определенного ответа (скажем, ответа "да"), может быть представлена в виде m = X1 + X2 +…+Xn , где случайные величины X1 , X2 ,…,Xn независимы, одинаково распределены, принимают два значения1 и 0, причем Р(Xi = 1) = р, Р(Xi = 0)= 1-р, i=1,2,…,n.)
Однородность двух групп означает, что соответствующие им вероятности равны, неоднородность - что эти вероятности отличаются. В терминах прикладной математической статистики: необходимо проверить гипотезу однородности
H0 : p1 = p2
при альтернативной гипотезе
(Иногда представляют интерес односторонние альтернативные гипотезы и .)
Оценкой вероятности р1 является частота р1*=m1/n1, а оценкой вероятности р2 является частота р2*=m2/n2 . Даже при совпадении вероятностей р1 и р2 частоты, как правило, различаются. Как говорят, "по чисто случайным причинам". Рассмотрим случайную величину р1* - р2*. Тогда
M(р1* - р2*) = р1 - р2 , D(р1* - р2*) = р1 (1 - р1 )/ n1 + р2 (1-р2 )/ n2 .
Из теоремы Муавра-Лапласа и теоремы о наследовании сходимости (глава 1.4 и [4, п.2.4]) следует, что
где - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Для практического применения этого соотношения следует заменить неизвестную статистику дисперсию разности частот на оценку этой дисперсии:
D*(р1* - р2*) = р*1 (1 - р*1 )/ n1 + р*2 (1-р*2 )/ n2 .
(Могут использоваться и другие оценки рассматриваемой дисперсии, например, по объединенной выборке). С помощью указанной выше математической техники можно показать, что
П
ри справедливости гипотезы однородности M(р1* - р2*) = 0. Поэтому правило принятия решения при проверке однородности двух выборок выглядит так:
1. Вычислить статистику
2. Сравнить значение модуля статистика |Q| с граничным значением K. Если |Q|<K, то принять гипотезу однородности H0 . Если же |Q|>K, то заявить об отсутствии однородности и принять альтернативную гипотезу H1 .
Граничное значение К определяется выбором уровня значимости статистического критерия проверки однородности. Из приведенных выше предельных соотношений следует, что при справедливости гипотезы однородности H0 для уровня значимости имеем (при
Следовательно, граничное значение в зависимости от уровня значимости целесообразно выбирать из условия
Здесь - функция, обратная к функции стандартного нормального распределения. В социально-экономических исследованиях наиболее распространен 5% уровень значимости, т.е. Для него К = 1,96.
Пример.
n1=400 n2=300 p1*=200/400=0.5
x1=200 x2=180 p2*=180/300=0.6
Вычислим статистику
Поскольку |Q| = 2.649 > 1,96, то необходимо отклонить нулевую гипотезу и принять альтернативную. Таким образом, мужчины и женщины отличаются по рассматриваемому признаку - любви к пепси-коле.
Теория средних
Общее определение средней величины (типичное значение)
Наиболее распространенные виды средних.
Далее: