1193507387 (547421), страница 25
Текст из файла (страница 25)
); механический, при котором отбор производится через определенный интервал (например, мнение спросить у каждого шестидесятого...); сернйньгй, при котором объекты из генеральной совокупности отбираются «сериями», которые должны исследоваться при помощи сплошного обследования. На практике пользуются сочетанием вышеупомянутых способов отбора. Пример 6.1. Десять абитуриентов проходят тестирование по математике. Каждый из них может набрать от 0 до 5 баллов включительно.
Пусть Хк — количество баллов, набранных к-м (к = 1,2,..., 10) абитуриентом. Тогда значения О, 1, 2, 3, 4, 5 все возможные количества баллов, набранных одним абитуриентом, — образуют генеральную совокупность. Выборка Х1, Хг, Хз,..., Хш результат тестирования 10 абитуриентов. Реализациями выборки могут быть следующие наборы чисел: (5, 3, О, 1, 4, 2, 5, 4, 1, 5) или (4, 4, 5, 3, 3, 1, 5, 5, 2, 5) или (3, 4, 5, О, 1, 2, 3,4,5,4) итд. 6.3. Статистическое распределение выборки. Эмпирическая функция распределения Пусть изучается некоторая с. в.
Х. С этой целью над с. в. Х производится ряд независимых опытов (наблюдений). В каждом из этих опытов величина Х принимает то или иное значение. Пусть она приняла п1 раз значение хы и» раз — значение х2, ..., пь раз — значение хь. При этом п1+п2+... +нь = п — объем выборки. Значения хм х2,...,хь называются вариантпами с.в. Х. Вся совокупность значений с. в. Х представляет собой первичный статистический материал, который подлежит дальнейшей обработке, прежде всего — упорядочению. Операция расположения значений случайной величины (признака) по неубываиию называется ранзсираванием статистических данных. Полученная таким образом последовательность х~ц, х1»р..., хбй 182 ° Раздел второй. Основы математической статистики значений с. в.
Х (где хОО < х1з) « ... хйй и хОО = пнп Х;, ..., хйй = 1(4(п = шах Х;) называется вариационным ридом. 1(1(п Кисла пп показывающие, сколько раз встречаются варианты х; в ряде наблюдений, называются частотами, а отношение их к объему выборки — чаетостллми или относительными частотами 1рз), т, е. пъ и' (6.1) ь гдеп= ~ и;.
4=1 Перечень вариантов и соответствующих им частот или частостей называется статистическим распределением выборки или статистическим рядом. Записывается статистическое распределение в виде таблицы. Первая строка содержит варианты, а вторая — их частоты п1 1или частости р,"). 1,а а) Проранжировав статистические данные 1т. е.
исходный ряд), получим вариационный ряд (х~1), хор..., х~)о)): 10, 1, 1, 2, 3, 4, 4, 5, 5, 5). 6) Подсчитав частоту и частость вариантов х1 = О, хз = 1, хз = 2, х4 = 3, хз = 4, хе = 5, получим статистическое распределение выборки 1так называемый дискретный статистический ряд) ~Ф=) или Статистическое распределение выборки явллется оценкой неизвестноео распределенил, В соответствии с теоремой Бернулли 1п. 5.3) относительные частоты р,* сходятся при и -+ оо к соответствующим Пример 6.2. В результате тестирования 1см, пример 6.1) группа аби- П туриентов набрала баллы: 5, 3, О, 1, 4, 2, 5, 4, 1, 5. Записать полученную выборку в виде: а) вариационного ряда; 6) статистического ряда. Глава 6. Выборки и их характеристики ° 183 вероятностям р,, т, е, р,' — > р;. Позтому при больших значениях п и-+оп статистическое распределение мало отличается от истинного распределения.
В случае, когда число значений признака (с. в. Х) велико или признак является непрерывным (т.е. когда с.в. Х может принять любое значение в некотором интервале), составляют интервальный статистической ряд. В первую строку таблицы статистического распределения вписывают частичные промежутки [хв,х1), [х1,хз),..., [хь 1,хь), которые берут обычно одинаковыми по длине; 6 = х1 — хо = х2 — х1 = = ....
Для определения величины интервала (П) можно использовать формулу Стерджеса: хп~ах хппп 1+ 1о82 и где хп,ак — хпип — разность между наибольшим и наименьшим значениями признака, т = 1+1о82п — число интервалов (1ойзп 3,32218п). За начало первого интервала рекомендуется брать величину х„ап = Ь = хп,1п — —. Во второй строчке статистического ряда вписывают количество наблюдений и, (1 = 1, Й), попавших в каждый интервал. Пример 6.3. Измерили рост (с точностью до см) ЗО наудачу отобран- ных студентов.
Результаты измерений таковы: 178, 160, 154, 183, 155, 153, 167, 186, 163, 155, 157, 175, 170, 166, 159, 173, 182, 167, 171, 169, 179, 165, 156, 179, 158, 171, 175, 173, 164, 172. Построить интервальный статистический ряд. ( 'в Для удобства проранжируем полученные данные: 153, 154, 155, 155, 156, 157, 158, 159, 160, 163, 164, 165, 166, 167, 167, 169, 170, 171, 171, 172, 173, 173, 175, 175, 178, 179, 179, 182, 183, 186. Отметим, что Х вЂ” рост студента — непрерывная с. в, При более точном измерении роста значения с.
в. Х обычно ие повторяются (вероятность наличия на Земле двух человек, рост которых равен, скажем ъ~З = 1,732050808... метров, равна нулю!). Как видим, хт1п — — 153, х ... = 186; по формуле Стерджеса, при и = ЗО, находим длину частичного интервала 186 — 153 ЗЗ ЗЗ 5 59 1+ 1ойз ЗО 1+ 3,3221830 5,907 Примем 6 = 6. Тогда х„а„= 153 — — = 150. Исходные данные 6 2 Разбиваем на 6 (т = 1+ 1ойзЗО = 5,907 = 6) интеРвалов: [150,156), [156,162), [162,168), [168,174), [174, 180), [180, 186).
184 ° Раздел атсрсй. Основы математической статистики Подсчитав число студентов (и,), попавших в каждый из полученных промежутков, получим интервальный статистический ряд: [168 †1) [150 †1) [156 †1)[162 †1) [180 †1) [174 — 180) Рост Частота 3 ° Частость 0,13 0,23 0,17 0,20 0,17 0,10 Одним из способов обработки вариационного ряда является построение эмпирической функции распределения. Эмпирической (стпатпистичеекой) функцией распределения называется функция Р„'(х), определяющая для каждого значения х частость события (Х < х): Р„*(х) = р*(Х < х).
(6.2) Для нахождения значений эмпирической функции удобно Р„*(х) записать в виде Рп*(х) = и* где и — объем выборки, и — число наблюдений, меньших х (х Е Щ. Очевидно, что Р„*(х) удовлетворяет тем же условиям, что и истинная функция распределения Р(х) (см. п. 2.3). При увеличении числа п наблюдений (опытов) относительная частота события (Х < х) приближается к вероятности этого события (теорема Бернулли, п.
5.3). Эмпирическая функция распределения Р„"(х) является оценкой вероятности события (Х < х), т.е. оценкой теоретической функции распределения Р(х) с. в. Х. Имеет место Пример 6.4. Построить функцию Р„*(х), используя условие и резуль- П таты примера 6.2. Здесь и = 10. Имеем Р,'о(х) = — = 0 при х < <0 (наблюдений мень- 10 ше 0 нет)' Р1е(х) = — при О < х ~< 1 (здесь и = 1) и т. д. Окончательно 1 ъ 10 10 Глава б. Выборки и их характеристики ° 185 получаем О, прих<О, 0,1, при 0 < х < 1, 03, при1<х<2, 0,4, при2<х<3, 0,5, при3<х<4, 0,7, при4<х<5, 1, при5<х. г1о(х) = Рис. 59 6.4.
Графическое изображение статистического распределения Статистическое распределение изображается графически (для наглядности) в виде так называемых полигона и гистограммы. Полигон, как правило, служит для изображения дискретного (т. е, варианты отличаются на постоянную величину) статистического ряда. Полигоном частот называют ломаную, отрезки которой соединяют точки с координатами (хмп1), (хг,пг),..., (хг,пг); полигоном частостпеб — с координатами (хыр.*), (хг,р~),..., (хг,р',). Варианты (х;) откладываются на оси абсцисс, а частоты и, соответственно, частости на оси ординат.
График эмпирической функции распределения приведен на рис. 59. ° 186 ° Раздел второй. Основы математической статистики О, О, О, Рис. 60 Пример 6.5. Для примера 6.2 (и. 6.3) полигон частостей имеет вид, П изображенный на рис. 60. Заметим, что р~ +р~+... +рв — — 1. Как видно, полигон частостей является статистическим аналогом многоугольника распределения (см.
и. 2.2). Для непрерывно распределенного признака (т.е. варианты могут отличаться один от другого на сколь угодно малую величину) можно построить полигон частот, взяв середины интервалов в качестве значений тг, тг,..., ты Более употребительна так называемая гистограмма. Гистограммой частпот ("гаспгоспгей) называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат ча- нг стичные интервалы длины 6 а высоты равны отношению — — плот- Ь ргт гн ность частоты ( — или — — плотности частости).
Ь п ° 6 Очевидно, площадь гистограммы частот равна объему выборки, а площадв гистограммы частостей равна единице. Пример 6.6. Используя условие и результаты примера 6.3 из п. 6.3 П построить гистограмму частостей. г„)1 В данном случае длина интервала равна 6 = 6. Находим высоты 0,13 0,17 0,20 Ь; прямоугольников: Ь1 — — ' = 0,022, Ьг = ' -- 0,028, Ьз = — ' 0,23 0,17 0,1 =0,033,64 = ' -0,038,6, = ' =0,028,6.
= — ' Гистограмма частостей изображена на рис. 61. Гистограмма частот является статистическим аналогом дифферен- циала функции распределения (плотности) ~(т) с.в. Х. Сумма площа- Глава б. Выборки и их характеристики ' 187 0,0 О,О 0,0 0,0 0,0 Рис. 61 дей прямоугольников равна единице + ° +о' ) =Р1+..+Рв=1 что соответствует условию ,((т) Нт = 1 для плотности вероятностей ~(т) (см. и. 2.4).
На рис. 61 показана и плотность вероятностей ~(т). Если соединить середины верхних оснований прямоугольников от- резками прямой, то получим полигон того же распределения. 6.5. Числовые характеристики статистического распределения Для выборки можно определить ряд числовых характеристик, аналогичным тем, что в теории вероятностей определялись для случайных величин (см. п. 2.5).
Пусть статистическое распределение выборки объема и имеет вид: (6.3) Выборочным средним т, называется среднее арифметическое всех Я значений выборки: ь тв = й~~~ ~'в'пи (6.4) 188 ° Раздел второй. Основы математической статистики Выборочное среднее можно записать и так: ь х =~~~ х; р,, (6.5) ь Р, = — ~~~ (хг — х,) и; 1 — г (6.6) или, что то же самое, ь Р, = ~> (х, — х,) .р,". (6.7) Можно показать, что Р, может быть подсчитана также по формуле: ь Р, = — ~~~ х, п1 — (х„), т. е. в=1 .Р = хг — (х), (6.8) здесь х = х,.
Выборочное среднее квадратпическое отклонение выборки определяется формулой а, = т/Р,. (6.9) Особенность выборочного с.к.о. (а,) состоит в том, что оно измеряется в тех же Единицах, что и изучаемый признак. При решении практических задач используется и величина ь Я = .~(х; — х) .и;, 2 1 к ' — 2 и — 1 (6.10) т. е. (6.11) Пг где р,* = — — частость. Для обозначения выборочного среднего используют следующие символы: х, М'(Х), т*. Отметим, что в случае интервального статистического ряда в равенстве (6.4) в качестве х, берут середины его интервалов, а и; — соответствующие им частоты.
Выборочной дисперсией Р, называется среднее арифметическое квадратов отклонений значений выборки от выборочной средней х„ т. е. Глава 8. Выборки и их характеристики ° 189 которая называется исправленной выборочной дисперсией (см. далее п. 7.1). Величина (6.12) называется исправленным выборочным средним квадратическим отклонением.