Гмурман - Теория вероятностей и математическая статистика (969547), страница 37
Текст из файла (страница 37)
Обп(дй дисперсией называют дисперсию значений признака всей совокупности относительно общей средней: )'.),б~ = (~ ', пг(хг — х)')/и, где п/ — частота значения х;; х — общая средняя; и — объем всей совокупности. Пример 4. Найти общую дисперсию по данным примера 1. Р е ш е и и е. Найдем искомую общую дисперсию, учитывая, что общая средина равна 14/3: 1 (2 — 14/З)е+7 ° (4 — 14/3)з (-2 (5 — 14/3)е )Зоб щ†15 + 2 (3 — 14/3)з+3 (8 — 14/З)з 148 + 15 45' $12. Саоженне дисперсий Теорема. Если совокупность состоит из кесколь- ких групп, то оби(ая дисперсия равно сумме внутригруп- павой и межгрупповой дисперсий: Роби! Рвнгр+ Рмежгр. Доказательство.
Для упрощения доказательства предположим, что вся совокупность значений количест- венного признака Х разбита на две следукяцие группы: Группа . . . . . . . . первая вторая Значение признака . . . х, х, «! «в Частота ........ т, т, Объем группы ..... Асс =тс+т, йс',=пс+и, Групповая средняя... х, х, Групповая дисперсия . . Р„р Р„ Объем своей совокупности и = Ф! + су, Далее для удобства записи вместо знака суммы ~~~~~ с=! пишется знак ~~~~. Например,,'~,'тс= ~~~~тс =т, +сп, = У,. с ! Следует также иметь в виду, что если под знаком суммы стоит постоянная величина, то ее целесообразно выносить за знак суммы.
Например, ~~~~ тс (х! — х)! = (х, — х) ! ~!!' т, = (х, — х)* М!. Найдем общую дисперсию: Р~~в~ч — ( ~~ спс (хс «) + ~с пс (хс х) )!и, (с!) Преобразуем первое слагаемое числителя, вычтя н прибавив х,: ;~~ т, (х,— х)' = ~ч!',тс [(хс — х,)+(х,— х)1' = = ~чс, 'спс (хс — х,)! + 2 (х, — х) ~~~~ тс (хс — х,) + "!', тс(х, — х)'.
Так как ~~>„'тс (хс — х,)' = ЛссР! (равенство следует из соотношения Р, = Щзс'(хс — х!)')(У,) и всилу$7 ~я~; тс (хс — х!) = О, ио то первое слагаемое принимает вид ~ ги, (х, — х,)в = Ф,В„р+ у, (х, — х)'. (««) Аналогично можно представить второе слагаемое чи- слителя («) (вычтя и прибавив х,): ~ч~ п, (х; — х)' = увЕЭв + Л'з (х,— х)'.
(«««) Подставим (««) и («««) в («): О«аж (Фвйтгр +»)вЭ» р) И + +(М (х,— Х)в+Ив(хв — х)в)/п=сг „, +В„, Итак, '(увбщ в ~ввгр+ вгивжгр Пример, иллюстрирующий доказанную теорему, приведен в предыдущем параграфе, Ззмеча иве. Теорема имеет ве только теоретическое, яо в вкжиае практическое зиачеяие. Например, еслв в результате иябввдекий получеиы несколько групп зиачеввй првзиакя, то для вычяслепия общей дисперсии можяо группы в «дикую совокупяость ие объединять. С другой стороны, если совокупность имеет большоВ объем, то пелесаабрязво разбить ее па несколько групп. В том я другом случияк яепосредствеииае вычкслепие общей дисперсия зимевяется вычислевием двсперсвй отдельпык групп, по аблегчиег рес- $13.
Оценка генеральной дисперсии по исправленной выборочной Пусть из генеральной совокупности в результате п независимых наблюдений над количественным признаком Х извлечена повторная выборка объема п: значения признака,....... х, х, ... х» частоты . . . , . . . . . . . . . п, и, ... п» При этом и,+и,+... +п»=п. Требуется по данным выборки оценить (приближенно найти) неизвестную генеральную дисперсию ьу,.
Если в качестве оценки генеральной дисперсии принять выборочную дисперсию, то эта оценка будет приводить к систематическим ошибкам, давая заниженное значение генеральной дисперсии. Объясняется это тем, что, как можно доказать, выборочная дисперсия является смещенной оценкой П„, другими словами, математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дис!4в И1 персии, а равно Легко «нсправнть» выборочную дисперсию так, чтобы ее математическое ожидание было равно генеральной дисперсии. Достаточно для этого умножить О, на дробь п/(и — 1).
Сделав это, получим исправленную дисперсию, которую обычно обозначают через а*: ь е ~~~ и! (х! — х»)з Я п! (х! — х»)» и д~ и Мю! с=! и — !» л — ! и и — ! Исправленная дисперсия является, конечно, несмещенной оценкой генеральной дисперсии. Действительно, М[к'1=М ~ — „", Е),1 = — ", М Щ]= — ", ° —" В»=От. Итак, в качестве оценки генеральной дисперсии приннмают исправленную дисперсию Дл я оценки же среднего квадратического отклонения генеральной совокупности используют «нсп равленнов» среднее квадратическое отклонение, которое равно квадратному корню нз исправленной дисперсии: Подчеркнем, что а не является несмещенной оценкой; чтобы отразить этот факт, мы написали н будем писать далее так: «нсправленное» среднее квадратическое отклонен не.
3 а м е ч а н и е. Сравнивая формулы Ве (~~'~ и! (х! — х )з)/и и е» (~~ ~и! (.с! — х)» )/(и — (), видны, что они отличаются лишь зиаменателямн. Очевидно, прн достаточно большнх значениях и объема выборки выборочная и неправ- ленная дисперсии различаются мало. Нк практнке пользуются исправленной дисперсией, если примерно и < 30. 2(2 ф 14.
Точность оценки, доверительная вероятность (надежность). Доверительный интервал Точечной называют оценку, которая определяется одним числом. Все оценки, рассмотренные выше,— точечные. При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, т. е. приводить к грубым ошибкам. По этой причине при небольшом объеме выборки следует пользоваться интервальными оценками. Интервальной называют оценку, которая определяется двумя числами — концами интервала. Интервальные оценки позволяют установить точность и надежность оценок (смысл этих пЬнятий выясняется ниже), Пусть найденная по данным выборки статистическая характеристика й' служит оценкой неизвестного параметра 6. Будем считать 9 постоянным числом (6 может быть и случайной величиной).
Ясно, что В' тем точнее определяет параметр й, чем меньше абсолютная величина азности ~ 9 — 8' ~ . Другими словами, если 6 > 0 и й — В" ~ < 6, то чем меньше 6, тем оценка точнее. Таким образом, положительное число 6 характеризует точность оценки. Однако статистические методы не позволяют категорически утверждать, что оценка 9" удовлетворяет неравенству ~й — 9'~ < 6; можно лишь говорить о вероятности у, с которой это неравенство осуществляется.
Надежностью (доверительной вероятностью) оценки чэ по 9' называют вероятность у, с которой осуществляется неравенство ~ 9 — 6' ~ < 6. Обычно надежность оценки задается наперед, причем в качестве у берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.
Пусть вероятность того, что ~ — 6" ~ < б, равна у1 РЬ~ — Е~ < 61=у Заменив неравенство ~ сэ — В' ~ < б равносильным ему двойным неравенством — б < 6 — 9* < 6, или чэ' — б < 6 < < В'+6, имеем Р ~9 — 6 < 6 < О'+6~= у. Это соотношение следует понимать так: вероятность того, что интервал (В* — 6, В'+6) заключает в себе (покрывает) неизвестный параметр чэ, равна у. 213 Доверительным называют интервал (тт' — 6, ег'+ б), который покрывает неизвестный параметр с заданной надежностью т. 3 з м е ч а н и е. Интервал (6' — б, гте+6) имеет случайные концы (их называют доверительными границами). Лейстзятельно, в разных выборках получаются различные значения ез'.
Следовательно, от выборки к выборке будут изменяться я кояцы доверительного интервала, т. е. доверительные границы сами являются случайными величинами †функция от кы хз, ...,х . Так как случайной велнчнной является ие оцениваемый параметр 8, а доверительный интервал, то более правильно говорить ие о вероятности попадания В в доверятельный интервал, а о вероятности того, что доверительный интервал покроет 6. Метод доверительных интервалов разработал американский статистик Ю. Нейман, исходя из идей английского статистика Р.
Фишера. ф 15. Доверительные интервалы для оценки математического ожидания нормального распределения при известном о Пусть количественный признак Х генеральной совокупности распределен нормально, причем среднее квадратическое отклонение о этого распределения известно. Требуется оценить неизвестное математическое ожидание а по ныборочной средней х.
Поставим своей задачей найти доверительные интервалы, покрывающие параметр а с надежностью т. Будем рассматривать выборочную среднюю х как случайную величину Х (х изменяется от выборки к выборке) и выборочные значения признака х„ х„ ..., х †к одинаково распределенные независимйе случайные величины Х„Х„..., Х (эти числа также изменяются от выборки к выборке). Другими словами, математическое ожидание каждой из этих величин равно а и среднее квадратическое отклонение — о.