Lektsia_3_2013 (Лекции)
Описание файла
Документ из архива "Лекции", который расположен в категории "". Всё это находится в предмете "прикладная статистика" из 4 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. .
Онлайн просмотр документа "Lektsia_3_2013"
Текст из документа "Lektsia_3_2013"
Лекция 3
Тема 1. Вариационный ряд – понятие, построение, характеристики
Дана выборка:
Обрабатывать данные в таком виде неудобно. => Упорядочим данные так, чтобы:
В вариационном ряду элемент x(k) называется k-й порядковой статистикой.
Следующая выборочная характеристика:
-
Минимум
Для нашего ряда (см. пример):
-
Максимум
Для нашего ряда (см. пример):
-
Размах R – разность между n-й и первой порядковыми статистиками в выборке объема n, т.е. разность между наибольшим и наименьшим значениями в выборке: R = x(n) – x(1).
В ряде вероятностно-статистических методов принятия решений применяют и иные показатели рассеивания. В частности, в методах статистического регулирования процессов используют средний размах – среднее арифметическое размахов, полученных в определенном количестве выборок одинакового объема.
Вспомним понятие квантили:
Кванти́ль в математической статистике — значение, которое заданная случайная величина не превышает с фиксированной вероятностью.
Пусть x – случайная величина.
Квантиль порядка a – это число x(a) такое, что F(x(a))=a x(a)=F-1(a)
F(xa)=a, где xa – квантиль порядка а.
График: квантиль xa порядка a:
Сначала рассмотрим теоретические квантили:
а=0,5 x0.5 - медиана (теоретическая)
а=0,25 x0.25 – нижний квартиль;
а=0,75 x0.75 – верхний квартиль.
а=0,1 x0.1 – нижний дециль;
а=0,9 x0.9 – верхний дециль.
Так, первый дециль отделяет 10 % наименьших величин, лежащих ниже дециля от 90 % наибольших величин, лежащих выше дециля.
-
Выборочная медиана - результат наблюдения, занимающий центральное место в вариационном ряду, построенном по выборке с нечетным числом элементов, или полусумма двух результатов наблюдений, занимающих два центральных места в вариационном ряду, построенном по выборке с четным числом элементов. Таким образом, если объем выборки n – нечетное число…
где x(k) и x(k+1) – порядковые статистики.
-
Выборочный нижний квартиль
Для нашего примера:
-
Выборочный верхний квартиль
Для нашего примера:
-
Межквартильное расстояние, т.е. расстояние между выборочными квартилями x([0,75n]) и x([0,25n]) порядка 0,75 и 0,25 соответственно, где [0,75n] – целая часть числа 0,75n, а [0,25n] –целая часть числа 0,25n.
Другой вид выборочного среднего – выборочная медиана. Она определяется через порядковые статистики.
-
Мода выборки – наиболее часто встречающееся значение в ряду;
-
Амплитуда моды – количество повторений модального значения
Приведем пример:
№ | Вид работников | З/П | Число | Сумма |
1 | Низкоквал.рабочие | 100 | 40 | 4000 |
2 | Высококвал.рабочие | 200 | 30 | 6000 |
3 | Инженеры и служащие | 300 | 25 | 7500 |
4 | Топ-менеджеры | 1000 | 4 | 4000 |
5 | Ген директор,владелец | 18500 | 1 | 18500 |
100 | 40000 |
Средняя ЗП:
Мода:
Амплитуда моды:
Медиана:
Мода <медианы<М(х)
НА 16 МАРТА
Тема 2. Данные с повторами (сгруппированные данные)
Построим по итогам рассмотрения примера выборочное распределение.
В качестве значений (xi) выступает доход (ЗП), в качестве количества повторов этих значений (fi) – число сотрудников с таким доходом
Значения xi | 100 | 200 | 300 | 1000 | 18500 |
Число повторов fi | 40 | 30 | 25 | 4 | 1 |
-
Выборочное среднее арифметическое
-
Выборочная дисперсия
-
Выборочное среднее квадратическое отклонение
Здесь – значения признака изменяются дискретно.
Для группировки дискретных повторяющихся данных необходимо лишь перечислить все возможные встречающиеся значения выборки, а затем для каждого из них подсчитать число повторений в ряду.
В случае, если значения признака изменяются недискретно, т.е. непрерывно, и число таких значений достаточно велико, а повторов почти не наблюдается – данные целесообразно группировать с помощью интервалов.
Группировка – процесс разделения совокупности (или выборки) на группы.
Интервалы бывают
Закрытые (обе границы присутствуют)
Открытые (отсутствует либо верхняя, либо нижняя граница).
Равные и неравные.
Процесс разделения на интервалы начинается с определения равномерности изменения значений признака. Для этого значения в любом случае целесообразно упорядочить в порядке возрастания (неубывания).
Затем определяется разумное число групп, на которое будет делиться выборка.
Существует целый ряд формул для определения числа групп в группировке.
Одной из самых распространенных, но не бесспорных, является формула Стерджесса (1961 год), Sturges.
Для n результатов измерений величины, подчиняющейся нормальному распределению, число классов, используемых при построении гистограммы следует брать как
и форма полученной гистограммы будет приближаться к форме нормального распределения для достаточно большого k. Это и есть формула Стерджесса. В этом виде она попала практически во все учебники по статистике.
Существует целый ряд альтернативных формул, некоторые из которых вычисляют длину интервала, после чего определяется число требуемых классов (см. здесь).¶¶Рассмотрим пару таких формул:¶¶
Формула Скотта (Scott, 1979)¶
, где h - длина интервала, s - стандартное отклонение значений ряда измерени鶶
Формула Фридмана Диакониса (Freedman and Diaconis, 1981)
¶ , где h - длина интервала, (IQ) - разница между верхним и нижним квартилем.¶¶Эти формулы довольно просты и обоснованы статистической теорией, и считаются предпочтительнее формулы Стерджесса.
Выбор числа интервалов группировки k при числе наблюдений n<100 – ориентировочное значение интервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде:
Затем определяется шаг интервала (одного для равных интервалов и по числу интервалов для неравных интервалов) и строятся интервалы от минимума к максимуму. (СЕМИНАРЫ!..)
h=R/k
100>