Lektsia_3_2013 (Лекции)
Описание файла
PDF-файл из архива "Лекции", который расположен в категории "". Всё это находится в предмете "прикладная статистика" из 4 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Лекция 3Тема 1. Вариационный ряд – понятие, построение, характеристикиДана выборка:Обрабатывать данные в таком виде неудобно. => Упорядочим данные так, чтобы:В вариационном ряду элемент x(k) называется k-й порядковой статистикой.Следующая выборочная характеристика:5. МинимумДля нашего ряда (см. пример):6. МаксимумДля нашего ряда (см. пример):7.
Размах R – разность между n-й и первой порядковыми статистиками в выборкеобъема n, т.е. разность между наибольшим и наименьшим значениями ввыборке: R = x(n) – x(1).В ряде вероятностно-статистических методов принятия решений применяют ииные показатели рассеивания. В частности, в методах статистического регулированияпроцессов используют средний размах – среднее арифметическое размахов,полученных в определенном количестве выборок одинакового объема.Вспомним понятие квантили:Кванти́ль в математической статистике — значение, которое заданная случайнаявеличина не превышает с фиксированной вероятностью.Пусть x – случайная величина.Функция распределения ее - F ( x) P( X x) P(w : X (w) x)Квантиль порядка a – это число x(a) такое, что F(x(a))=aF(xa)=a, где xa – квантиль порядка а.P( xa ) ax(a)=F-1(a)y F ( x) P( x)axaГрафик: квантиль xa порядка a:Сначала рассмотрим теоретические квантили:а=0,5x0.5 - медиана (теоретическая)P( x0.5 ) 1 / 2P( x0.5 ) 1 / 2а=0,25а=0,75а=0,1а=0,9x0.25 – нижний квартиль;x0.75 – верхний квартиль.x0.1 – нижний дециль;x0.9 – верхний дециль.Так, первый дециль отделяет 10 % наименьших величин, лежащих ниже дециля от 90 % наибольшихвеличин, лежащих выше дециля.8.
Выборочная медиана ~х - результат наблюдения, занимающий центральноеместо в вариационном ряду, построенном по выборке с нечетным числомэлементов, или полусумма двух результатов наблюдений, занимающих двацентральных места в вариационном ряду, построенном по выборке с четнымчислом элементов. Таким образом, если объем выборки n – нечетное число…где x(k) и x(k+1) – порядковые статистики.x medn 2k 1 x med x(k 1)x(k ) x(k 1)n 2k x med 29.
Выборочный нижний квартильДля нашего примера:10. Выборочный верхний квартильДля нашего примера:11. Межквартильное расстояние, т.е. расстояние между выборочнымиквартилями x([0,75n]) и x([0,25n]) порядка 0,75 и 0,25 соответственно, где [0,75n]– целая часть числа 0,75n, а [0,25n] –целая часть числа 0,25n.Другой вид выборочного среднего – выборочная медиана. Она определяетсячерез порядковые статистики.12. Мода выборки – наиболее часто встречающееся значение в ряду;13. Амплитуда моды – количество повторений модального значенияПриведем пример:№ Вид работников1Низкоквал.рабочие2Высококвал.рабочие3Инженеры и служащие4Топ-менеджеры5Ген директор,владелецСредняя ЗП:Мода:Амплитуда моды:Медиана:Мода <медианы<М(х)З/П100200300100018500Число40302541100Сумма40006000750040001850040000НА 16 МАРТАТема 2. Данные с повторами (сгруппированные данные)Построим по итогам рассмотрения примера выборочное распределение.В качестве значений (xi) выступает доход (ЗП), в качестве количества повторов этихзначений (fi) – число сотрудников с таким доходомЗначения xiЧислоповторов fi100402003030025100041850011.
Выборочное среднее арифметическоеxx ffii=> x ix1 f1 x2 f 2 ... x5 f 5 100 * 40 200 * 30 ... 18500 *1 400f1 f 2 ... f 51002. Выборочная дисперсияS2 f ( x x)fiii21 f i ( xi x) 2 ... nfxfi2i ( x) 2 - рассчитайте дома!i3. Выборочное среднее квадратическое отклонениеS S2 Здесь – значения признака изменяются дискретно.Для группировки дискретных повторяющихся данных необходимо лишь перечислитьвсе возможные встречающиеся значения выборки, а затем для каждого из нихподсчитать число повторений в ряду.В случае, если значения признака изменяются недискретно, т.е. непрерывно, и числотаких значений достаточно велико, а повторов почти не наблюдается – данныецелесообразно группировать с помощью интервалов.Группировка – процесс разделения совокупности (или выборки) на группы.Интервалы бываютЗакрытые (обе границы присутствуют)Открытые (отсутствует либо верхняя, либо нижняя граница).Равные и неравные.Процесс разделения на интервалы начинается с определения равномерностиизменения значений признака.
Для этого значения в любом случае целесообразноупорядочить в порядке возрастания (неубывания).Затем определяется разумное число групп, на которое будет делиться выборка.Существует целый ряд формул для определения числа групп в группировке.Одной из самых распространенных, но не бесспорных, является формула Стерджесса(1961 год), Sturges.Для n результатов измерений величины, подчиняющейся нормальному распределению, числоклассов, используемых при построении гистограммы следует брать каки форма полученной гистограммы будет приближаться к форме нормального распределения длядостаточно большого k. Это и есть формула Стерджесса. В этом виде она попала практически вовсе учебники по статистике.Существует целый ряд альтернативных формул, некоторые из которых вычисляют длину интервала,после чего определяется число требуемых классов (см.
здесь).¶¶Рассмотрим пару таких формул:¶¶Формула Скотта (Scott, 1979)¶, где h - длина интервала, s - стандартное отклонение значений ряда измерени鶶Формула Фридмана Диакониса (Freedman and Diaconis, 1981)¶, где h - длина интервала, (IQ) - разница между верхним и нижнимквартилем.¶¶Эти формулы довольно просты и обоснованы статистической теорией, и считаютсяпредпочтительнее формулы Стерджесса.Выбор числа интервалов группировки k при числе наблюдений n<100 – ориентировочное значениеинтервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде:Затем определяется шаг интервала (одного для равных интервалов и по числуинтервалов для неравных интервалов) и строятся интервалы от минимума кмаксимуму.
(СЕМИНАРЫ!..)h=R/k.