Lektsia_4_Gruppirovki_efr_glivenko_kolmo gorov (818902)
Текст из файла
Лекция 4Данные с повторами (сгруппированные данные)Построим по итогам рассмотрения примера выборочное распределение.В качестве значений (xi) выступает доход (ЗП), в качестве количества повторов этихзначений (fi) – число сотрудников с таким доходомЗначения xiЧислоповторов fi100402003030025100041850011. Выборочное среднее арифметическоеxx ffii=> x ix1 f1 x2 f 2 ... x5 f 5 100 * 40 200 * 30 ... 18500 *1 400f1 f 2 ... f 51002.
Выборочная дисперсияS2 f ( x x)fiii21 f i ( xi x) 2 ... nfxfi2i ( x) 2 - рассчитайте дома!i3. Выборочное среднее квадратическое отклонениеS S2 Здесь – значения признака изменяются дискретно.Для группировки дискретных повторяющихся данных необходимо лишь перечислитьвсе возможные встречающиеся значения выборки, а затем для каждого из нихподсчитать число повторений в ряду.В случае, если значения признака изменяются недискретно, т.е.
непрерывно, и числотаких значений достаточно велико, а повторов почти не наблюдается – данныецелесообразно группировать с помощью интервалов.Группировка – процесс разделения совокупности (или выборки) на группы.Интервалы бываютЗакрытые (обе границы присутствуют)Открытые (отсутствует либо верхняя, либо нижняя граница).Равные и неравные.Процесс разделения на интервалы начинается с определения равномерностиизменения значений признака.
Для этого значения в любом случае целесообразноупорядочить в порядке возрастания (неубывания).Затем определяется разумное число групп, на которое будет делиться выборка.Существует целый ряд формул для определения числа групп в группировке.Одной из самых распространенных, но не бесспорных, является формула Стерджесса(1961 год), Sturges.Для n результатов измерений величины, подчиняющейся нормальному распределению, числоклассов, используемых при построении гистограммы следует брать каки форма полученной гистограммы будет приближаться к форме нормального распределения длядостаточно большого k.
Это и есть формула Стерджесса. В этом виде она попала практически вовсе учебники по статистике.Существует целый ряд альтернативных формул, некоторые из которых вычисляют длину интервала,после чего определяется число требуемых классов (см. здесь).¶¶Рассмотрим пару таких формул:¶¶Формула Скотта (Scott, 1979)¶, где h - длина интервала, s - стандартное отклонение значений ряда измерений¶¶Формула Фридмана Диакониса (Freedman and Diaconis, 1981)¶, где h - длина интервала, (IQ) - разница между верхним и нижнимквартилем.¶¶Эти формулы довольно просты и обоснованы статистической теорией, и считаютсяпредпочтительнее формулы Стерджесса.Выбор числа интервалов группировки k при числе наблюдений n<100 – ориентировочное значениеинтервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде:Затем определяется шаг интервала (одного для равных интервалов и по числуинтервалов для неравных интервалов) и строятся интервалы от минимума кмаксимуму.
(СЕМИНАРЫ!..)h=R/kДалее:.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.