Lektsia_4_Gruppirovki_efr_glivenko_kolmo gorov (Лекции)
Описание файла
PDF-файл из архива "Лекции", который расположен в категории "". Всё это находится в предмете "прикладная статистика" из 4 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Лекция 4Данные с повторами (сгруппированные данные)Построим по итогам рассмотрения примера выборочное распределение.В качестве значений (xi) выступает доход (ЗП), в качестве количества повторов этихзначений (fi) – число сотрудников с таким доходомЗначения xiЧислоповторов fi100402003030025100041850011. Выборочное среднее арифметическоеxx ffii=> x ix1 f1 x2 f 2 ... x5 f 5 100 * 40 200 * 30 ... 18500 *1 400f1 f 2 ... f 51002.
Выборочная дисперсияS2 f ( x x)fiii21 f i ( xi x) 2 ... nfxfi2i ( x) 2 - рассчитайте дома!i3. Выборочное среднее квадратическое отклонениеS S2 Здесь – значения признака изменяются дискретно.Для группировки дискретных повторяющихся данных необходимо лишь перечислитьвсе возможные встречающиеся значения выборки, а затем для каждого из нихподсчитать число повторений в ряду.В случае, если значения признака изменяются недискретно, т.е.
непрерывно, и числотаких значений достаточно велико, а повторов почти не наблюдается – данныецелесообразно группировать с помощью интервалов.Группировка – процесс разделения совокупности (или выборки) на группы.Интервалы бываютЗакрытые (обе границы присутствуют)Открытые (отсутствует либо верхняя, либо нижняя граница).Равные и неравные.Процесс разделения на интервалы начинается с определения равномерностиизменения значений признака.
Для этого значения в любом случае целесообразноупорядочить в порядке возрастания (неубывания).Затем определяется разумное число групп, на которое будет делиться выборка.Существует целый ряд формул для определения числа групп в группировке.Одной из самых распространенных, но не бесспорных, является формула Стерджесса(1961 год), Sturges.Для n результатов измерений величины, подчиняющейся нормальному распределению, числоклассов, используемых при построении гистограммы следует брать каки форма полученной гистограммы будет приближаться к форме нормального распределения длядостаточно большого k.
Это и есть формула Стерджесса. В этом виде она попала практически вовсе учебники по статистике.Существует целый ряд альтернативных формул, некоторые из которых вычисляют длину интервала,после чего определяется число требуемых классов (см. здесь).¶¶Рассмотрим пару таких формул:¶¶Формула Скотта (Scott, 1979)¶, где h - длина интервала, s - стандартное отклонение значений ряда измерени鶶Формула Фридмана Диакониса (Freedman and Diaconis, 1981)¶, где h - длина интервала, (IQ) - разница между верхним и нижнимквартилем.¶¶Эти формулы довольно просты и обоснованы статистической теорией, и считаютсяпредпочтительнее формулы Стерджесса.Выбор числа интервалов группировки k при числе наблюдений n<100 – ориентировочное значениеинтервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде:Затем определяется шаг интервала (одного для равных интервалов и по числуинтервалов для неравных интервалов) и строятся интервалы от минимума кмаксимуму.
(СЕМИНАРЫ!..)h=R/kДалее:.