Lektsia_4_Gruppirovki_efr_glivenko_kolmo gorov (Лекции)
Описание файла
Документ из архива "Лекции", который расположен в категории "". Всё это находится в предмете "прикладная статистика" из 4 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. .
Онлайн просмотр документа "Lektsia_4_Gruppirovki_efr_glivenko_kolmo gorov"
Текст из документа "Lektsia_4_Gruppirovki_efr_glivenko_kolmo gorov"
Лекция 4
Данные с повторами (сгруппированные данные)
Построим по итогам рассмотрения примера выборочное распределение.
В качестве значений (xi) выступает доход (ЗП), в качестве количества повторов этих значений (fi) – число сотрудников с таким доходом
Значения xi | 100 | 200 | 300 | 1000 | 18500 |
Число повторов fi | 40 | 30 | 25 | 4 | 1 |
-
Выборочное среднее арифметическое
-
Выборочная дисперсия
-
Выборочное среднее квадратическое отклонение
Здесь – значения признака изменяются дискретно.
Для группировки дискретных повторяющихся данных необходимо лишь перечислить все возможные встречающиеся значения выборки, а затем для каждого из них подсчитать число повторений в ряду.
В случае, если значения признака изменяются недискретно, т.е. непрерывно, и число таких значений достаточно велико, а повторов почти не наблюдается – данные целесообразно группировать с помощью интервалов.
Группировка – процесс разделения совокупности (или выборки) на группы.
Интервалы бывают
Закрытые (обе границы присутствуют)
Открытые (отсутствует либо верхняя, либо нижняя граница).
Равные и неравные.
Процесс разделения на интервалы начинается с определения равномерности изменения значений признака. Для этого значения в любом случае целесообразно упорядочить в порядке возрастания (неубывания).
Затем определяется разумное число групп, на которое будет делиться выборка.
Существует целый ряд формул для определения числа групп в группировке.
Одной из самых распространенных, но не бесспорных, является формула Стерджесса (1961 год), Sturges.
Для n результатов измерений величины, подчиняющейся нормальному распределению, число классов, используемых при построении гистограммы следует брать как
и форма полученной гистограммы будет приближаться к форме нормального распределения для достаточно большого k. Это и есть формула Стерджесса. В этом виде она попала практически во все учебники по статистике.
Существует целый ряд альтернативных формул, некоторые из которых вычисляют длину интервала, после чего определяется число требуемых классов (см. здесь).¶¶Рассмотрим пару таких формул:¶¶
Формула Скотта (Scott, 1979)¶
, где h - длина интервала, s - стандартное отклонение значений ряда измерени鶶
Формула Фридмана Диакониса (Freedman and Diaconis, 1981)
¶ , где h - длина интервала, (IQ) - разница между верхним и нижним квартилем.¶¶Эти формулы довольно просты и обоснованы статистической теорией, и считаются предпочтительнее формулы Стерджесса.
Выбор числа интервалов группировки k при числе наблюдений n<100 – ориентировочное значение интервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде:
Затем определяется шаг интервала (одного для равных интервалов и по числу интервалов для неравных интервалов) и строятся интервалы от минимума к максимуму. (СЕМИНАРЫ!..)
h=R/k
Далее:
100>