Lektsia_4_Gruppirovki_efr_glivenko_kolmo gorov (818901)
Текст из файла
Лекция 4
Данные с повторами (сгруппированные данные)
Построим по итогам рассмотрения примера выборочное распределение.
В качестве значений (xi) выступает доход (ЗП), в качестве количества повторов этих значений (fi) – число сотрудников с таким доходом
Значения xi | 100 | 200 | 300 | 1000 | 18500 |
Число повторов fi | 40 | 30 | 25 | 4 | 1 |
-
Выборочное среднее арифметическое
-
Выборочная дисперсия
-
Выборочное среднее квадратическое отклонение
Здесь – значения признака изменяются дискретно.
Для группировки дискретных повторяющихся данных необходимо лишь перечислить все возможные встречающиеся значения выборки, а затем для каждого из них подсчитать число повторений в ряду.
В случае, если значения признака изменяются недискретно, т.е. непрерывно, и число таких значений достаточно велико, а повторов почти не наблюдается – данные целесообразно группировать с помощью интервалов.
Группировка – процесс разделения совокупности (или выборки) на группы.
Интервалы бывают
Закрытые (обе границы присутствуют)
Открытые (отсутствует либо верхняя, либо нижняя граница).
Равные и неравные.
Процесс разделения на интервалы начинается с определения равномерности изменения значений признака. Для этого значения в любом случае целесообразно упорядочить в порядке возрастания (неубывания).
Затем определяется разумное число групп, на которое будет делиться выборка.
Существует целый ряд формул для определения числа групп в группировке.
Одной из самых распространенных, но не бесспорных, является формула Стерджесса (1961 год), Sturges.
Для n результатов измерений величины, подчиняющейся нормальному распределению, число классов, используемых при построении гистограммы следует брать как
и форма полученной гистограммы будет приближаться к форме нормального распределения для достаточно большого k. Это и есть формула Стерджесса. В этом виде она попала практически во все учебники по статистике.
Существует целый ряд альтернативных формул, некоторые из которых вычисляют длину интервала, после чего определяется число требуемых классов (см. здесь).¶¶Рассмотрим пару таких формул:¶¶
Формула Скотта (Scott, 1979)¶
, где h - длина интервала, s - стандартное отклонение значений ряда измерений¶¶
Формула Фридмана Диакониса (Freedman and Diaconis, 1981)
¶ , где h - длина интервала, (IQ) - разница между верхним и нижним квартилем.¶¶Эти формулы довольно просты и обоснованы статистической теорией, и считаются предпочтительнее формулы Стерджесса.
Выбор числа интервалов группировки k при числе наблюдений n<100 – ориентировочное значение интервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде:
Затем определяется шаг интервала (одного для равных интервалов и по числу интервалов для неравных интервалов) и строятся интервалы от минимума к максимуму. (СЕМИНАРЫ!..)
h=R/k
Далее:
100>Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.