Л.Н. Фадеева, А.В. Лебедев - Теория вероятностей и математическая статистика (1115296), страница 29
Текст из файла (страница 29)
Число )с различных значений в л наблюдениях всегда конечно, и тс < и. Очевидно, имеют место равенства ~ л,.=п и ~~ в,.=1. Результаты можно записать в таблицу. х„ х, х, те таб Глава 1о В случае непрерывной случайной величины на практике часто применяют группировку. Это означает, что весь интервал наблюдаемых значений разбивают на Ф частичных интервалов [с„с,), [с„с,), ... [с„„с„] равной длины Ь и затем подсчитываются числа йопаданьий йаблюдений в эти интервалы, которые принимают за частоты и,.
(для некоторой новой, уже дискретной случайной величины). В качестве новых значений вариант х, обычно берут середины интервалов (либо в таблице указывают сами интервалы). Группировка может применяться и в случае дискретных случайных величин, если шаг, с которым меняются их значения, кажется нам слишком мелким. Согласно формуле Стерджеса, рекомендуемое число интервалов разбиения 1Г ~ 1 + 1оя,л, а длины частичных интервалов л = (х — х .„)//с. Предполагается, что весь интервал имеет вид [Х в, Х ]. Понятно, что группировка связана с потерей части полезной информации, заключенной в выборке.
Однако она имеет и свои преимущества. Оценим величину экономии, например, для и = 10' наблюдений. Рекомендуемое число интервалов ГГ = 21, и от нас требуется сохранить и обработать лишь 21Г = 42 числа вместо миллиона! 5 1о.г. ]]зафическое представление статистических рядов Набор вариант х,(или частичных интервалов) и их относительных частот в,. называют статистическим рядом. Графически статистические ряды могут быть представлены в виде полигона, гистограммы или графика накопленных частот (рис.
10.1). Полигоном частот называют ломаную линию, отрезки которой соединяют точки (х„л,), (х„п,), ..., (х„, л,). Полигоном Рве. ао.а авт ЧАСТЬ!1. Математическая статистика относительных частот называют ломаную, отрезки которой соединяют точки (х„и,), (х,, и,), ..., (х„, и„). Полигоны обычно служат для изображения выборки в случае дискретных случайных величин. Зисаеча 1. Построить полигон частот по заданному распределению выборки.
и, 25 20 15 ГО 0 1 2 3 4 5 б 7 «г Рис. 10.2 Решение. Отложим на оси абсцисс (рис. 10.2) варианты х„а на оси ординат — соответствующие им частоты ля затем соединим последовательно точки (хе л,). Гистограммой относительных частот' (или просто гистограммой) называется ступенчатая фигура, состоящая из прямоугольников, основанием которых служат частичные интервалы длиною )г, а высоты равны ти/)г. Гистограмма обычно служит для изображения выборки в случае непрерывных случайных величин. Площадь гистограммы равна единице (рис. 10.3). Поэтому гистограмму можно рассматривать как график эмпирической (выборочной) плотности распределения Р„(х). Если у теоретического распределения Р существует конечная плотность, ' На практике гистограммами также называют ступенчатые фигуры с высотами м,(без деления на 7т) как на рис.
10.3. т88 Гла»а ы то эмпирическая плотность является некоторым приближением для теоретической. В этом и состоит практическая польза гистограммы. При построении гистограмм в реальных исследованиях следует понимать, что формула Стерджеса (как и любая другая) лля числа интервалов разбиения 1г дает лишь рекомендацию, а не строгое правило. Проблема выбора этого числа заключается в следующем. При слишком малых )1 гистограмма получается слишком грубой, «смазанной», плохо отражающей свойства распределения. При больших lс гистограмма становится «колючей», и в конце концов распадается на отдельные «иглы» (узкие столбцы) вперемешку с пустыми интервалами.
Оптимальное значение в общем случае неизвестно — оно зависит как от типа распределения, так и от конкретной выборки. Что касается концов интервалов и значений вариантов, то для человеческого восприятия удобнее, чтобы они выражались более или менее «круглыми» числами.
Поскольку гистограммы теперь строят не вручную, а на компьютере. Исследователь легко может варьировать параметры гистограммы (нижнюю и верхнюю границы интервала, число частичных) и в конечном счете выбрать тот вариант, при котором, по его мнению, график выглядит лучше всего. Графиком накопленным частот называется фигура, строящаяся аналогично гистограмме с той разницей, что для расчета высот прямоугольников берутся не простые, а иакоплениые отиосительные частоты, т.е.
величины в,' =) в, Эти величины не 1=! убывают, и таким образом, график накопленных частот имеет вид ступенчатой «лестницы» (от 0 до 1). График эмпирической функции распределения проходит через правые верхние углы прямоугольников, т.е. точки вида (с„в, ).
График накопленных частот и эмпирическая функция распределения на практике используются для приближения теоретической функции распределения (рис. 10.4). Задача 2. Анализируется выборка из 100 малых предприятий региона. 11ель обследования — измерение коэффициента соотношения заемных и собственных средств (х) на каждом 1-м предприятии. Результаты представлены в табл. 10.1.
189 ЧАСТЬ !!. Математическая статистика Тоблица тол козф$ицненты соотношений заемных и сойственнын средств предприятий 5,56 5,45 5,48 5,45 5,39 5„37 5,61 5,31 5,59 5,46 5,61 5,11 5,41 5.31 5,57 5,33 5,54 5,43 5,11 5,34 5,53 5,46 5,41 5,48 5,39 5,11 5,42 5,48 5,49 5,36 5,40 5,49 5,68 5,68 5,45 5,51 5,50 5,21 5,38 5,60 5,58 5,47 5,33 5,49 5,19 5,63 5,48 5,27 5,22 5,37 5,05 5,79 5,50 5,54 5,40 5.58 5,42 5,29 5,79 5,65 5,70 5,71 5,85 5,44 5,47 5,48 5,47 5,55 5,67 5,71 5,73 5,05 5,35 5,61 5,57 5,69 5,72 5,49 5,54 5,39 5,27 5,64 5,32 5,73 5,21 5,59 5,38 5,26 5,81 5,60 5,51 5,25 5,20 5,23 5,33 5,37 5,24 5„55 Таблица то.г Сгруппированный ряд набяюдений т9о Требуется построить гистограмму и график накопленных частот. Решение.
Построим группированный ряд наблюдений. 1. Определим в выборке х .„= 5,05 и х = 5,85. 2. Разобьем весь диапазон 1х и х 1 йа Тс равных интервалов: и = 1 + 1о8,100 = 7,62; й м 8, отсюда длина интервала х — х и 585 — 505 8 Глава то 4~ Гистограмма 30 25 20 !5 !О 5 6 5,0 5,! 5,2 5,3 5,4 5,5 5,6 5,7 5,8 5,9 Наблюлснил Рис. 10.3 На рис.
10.3 и 10.4, построенных по данным табл. 10.1 с помощью статистического пакета БТАТ1$Т1СА, представлены гистограмма и график накопленных частот. Кривые соответствуют плотности и функции нормального распределения, «подобранного» к данным.
График накоолснныл частот !00 аа 90 з К Во Р 70 60 Й 40 М 30 и 20 и !0 х 5,0 5,! 5,2 5,3 5,4 5,5 5,6 5,7 5,8 5,9 Наблюлснил Рис. 10.4 191 ЧАСТЬ П. Математическая патистика $ ао.Э. Эмпирическая функция распределения Эмпирической функцией распределения (или функцией распределения выборки) называют функцию Г„(х), определяющую для каждого числа х относительную частоту события с < х, т.е. Г„(х) = п„/п, где и„— число наблюдений, меньших х, и — объем выборки, т.е. долю из и наблюдений, меньших х. Иначе говоря, эмпирической функцией распределения называют функцию, определяющую для каждого числа х долю из и наблюдений, меньших х.
Из определения следует, что значения эмпирической функции распределения при каждом х являются случайными величинами. В отличие от эмпирической функции распределения функцию распределения Гс(х) генеральной совокупности называют теоретической функцией распределения. Эмпирическая функция распределения обладает всеми свойствами обычной функции распределения, а также некоторыми специфическими: 1. 0 < Г„(х) <1. 2. Г„(х) — неубывающая функция.
3. Г„(х) непрерывна слева. 4. Г„(х) = 0 при х < х .,„, и Г„(х) = 1 при х > х 5. Р( 1пп зпр ~ Г„(х) — Г(х) ~ = О) = 1 (теорема Гливенко — Кантелли). Доказательство теоремы Гливенко — Кантелли является довольно сложным, поэтому докажем следующий ее упрощенный вариант. ~ Теорема 1. При любам е > 0 верно 1пп Р(~ Г„(х) — Г(х) ~ < е) = 1 длн любого х. Доказательство. По определению Г(х) = — ", где и — число и и наблюдений, меньших х.
Рассмотрим наблюдения как п независимых испытаний Бернулли, в каждом из которых возможны два исхода: (х„< х) или (х„> х). Вероятности этих событий равны р = Р(с < х) = Г(х) и с) = Р(с > х) = 1 — Г(х) соответственно. Событие (х„< х) можем называть успехом, тогда и„— число успехов в и независимых испытаниях Бернулли. Следовательно, математическое ожидание Мп„= пр, и дисперсия Пп„= прд. Отсюда МГ„(х) = — Ми„= = Г(х); 1 пГ(х) и и 192 Глава |е ф )7Р = — 'В л л и В силу неравенства Чебышева для любого е > 0 верна оценка Р( ~ Р„(х) — У(х) ~ > е) < а)Р„(х) поэтому Р( ~ Р„(х) — У(х) ! ~ е) < , -+ О, и -+ с, Задача 3. Пусть задана таблица наблюдений случайной величины Р,. Тогда эмпирическая функция распределения имеет вид Р„(х) 1 0,95 если х < 2, если 2<х<3, если 3<х<5, если х > 5. О, 0,75, 0,95, 1, Р„(х) = 0,75 Ее график представлен на рис.