Lektsia_3_2013 (818900)
Текст из файла
Лекция 3Тема 1. Вариационный ряд – понятие, построение, характеристикиДана выборка:Обрабатывать данные в таком виде неудобно. => Упорядочим данные так, чтобы:В вариационном ряду элемент x(k) называется k-й порядковой статистикой.Следующая выборочная характеристика:5. МинимумДля нашего ряда (см. пример):6. МаксимумДля нашего ряда (см. пример):7.
Размах R – разность между n-й и первой порядковыми статистиками в выборкеобъема n, т.е. разность между наибольшим и наименьшим значениями ввыборке: R = x(n) – x(1).В ряде вероятностно-статистических методов принятия решений применяют ииные показатели рассеивания. В частности, в методах статистического регулированияпроцессов используют средний размах – среднее арифметическое размахов,полученных в определенном количестве выборок одинакового объема.Вспомним понятие квантили:Кванти́ль в математической статистике — значение, которое заданная случайнаявеличина не превышает с фиксированной вероятностью.Пусть x – случайная величина.Функция распределения ее - F ( x) P( X x) P(w : X (w) x)Квантиль порядка a – это число x(a) такое, что F(x(a))=aF(xa)=a, где xa – квантиль порядка а.P( xa ) ax(a)=F-1(a)y F ( x) P( x)axaГрафик: квантиль xa порядка a:Сначала рассмотрим теоретические квантили:а=0,5x0.5 - медиана (теоретическая)P( x0.5 ) 1 / 2P( x0.5 ) 1 / 2а=0,25а=0,75а=0,1а=0,9x0.25 – нижний квартиль;x0.75 – верхний квартиль.x0.1 – нижний дециль;x0.9 – верхний дециль.Так, первый дециль отделяет 10 % наименьших величин, лежащих ниже дециля от 90 % наибольшихвеличин, лежащих выше дециля.8.
Выборочная медиана ~х - результат наблюдения, занимающий центральноеместо в вариационном ряду, построенном по выборке с нечетным числомэлементов, или полусумма двух результатов наблюдений, занимающих двацентральных места в вариационном ряду, построенном по выборке с четнымчислом элементов. Таким образом, если объем выборки n – нечетное число…где x(k) и x(k+1) – порядковые статистики.x medn 2k 1 x med x(k 1)x(k ) x(k 1)n 2k x med 29.
Выборочный нижний квартильДля нашего примера:10. Выборочный верхний квартильДля нашего примера:11. Межквартильное расстояние, т.е. расстояние между выборочнымиквартилями x([0,75n]) и x([0,25n]) порядка 0,75 и 0,25 соответственно, где [0,75n]– целая часть числа 0,75n, а [0,25n] –целая часть числа 0,25n.Другой вид выборочного среднего – выборочная медиана. Она определяетсячерез порядковые статистики.12. Мода выборки – наиболее часто встречающееся значение в ряду;13. Амплитуда моды – количество повторений модального значенияПриведем пример:№ Вид работников1Низкоквал.рабочие2Высококвал.рабочие3Инженеры и служащие4Топ-менеджеры5Ген директор,владелецСредняя ЗП:Мода:Амплитуда моды:Медиана:Мода <медианы<М(х)З/П100200300100018500Число40302541100Сумма40006000750040001850040000НА 16 МАРТАТема 2. Данные с повторами (сгруппированные данные)Построим по итогам рассмотрения примера выборочное распределение.В качестве значений (xi) выступает доход (ЗП), в качестве количества повторов этихзначений (fi) – число сотрудников с таким доходомЗначения xiЧислоповторов fi100402003030025100041850011.
Выборочное среднее арифметическоеxx ffii=> x ix1 f1 x2 f 2 ... x5 f 5 100 * 40 200 * 30 ... 18500 *1 400f1 f 2 ... f 51002. Выборочная дисперсияS2 f ( x x)fiii21 f i ( xi x) 2 ... nfxfi2i ( x) 2 - рассчитайте дома!i3. Выборочное среднее квадратическое отклонениеS S2 Здесь – значения признака изменяются дискретно.Для группировки дискретных повторяющихся данных необходимо лишь перечислитьвсе возможные встречающиеся значения выборки, а затем для каждого из нихподсчитать число повторений в ряду.В случае, если значения признака изменяются недискретно, т.е. непрерывно, и числотаких значений достаточно велико, а повторов почти не наблюдается – данныецелесообразно группировать с помощью интервалов.Группировка – процесс разделения совокупности (или выборки) на группы.Интервалы бываютЗакрытые (обе границы присутствуют)Открытые (отсутствует либо верхняя, либо нижняя граница).Равные и неравные.Процесс разделения на интервалы начинается с определения равномерностиизменения значений признака.
Для этого значения в любом случае целесообразноупорядочить в порядке возрастания (неубывания).Затем определяется разумное число групп, на которое будет делиться выборка.Существует целый ряд формул для определения числа групп в группировке.Одной из самых распространенных, но не бесспорных, является формула Стерджесса(1961 год), Sturges.Для n результатов измерений величины, подчиняющейся нормальному распределению, числоклассов, используемых при построении гистограммы следует брать каки форма полученной гистограммы будет приближаться к форме нормального распределения длядостаточно большого k. Это и есть формула Стерджесса. В этом виде она попала практически вовсе учебники по статистике.Существует целый ряд альтернативных формул, некоторые из которых вычисляют длину интервала,после чего определяется число требуемых классов (см.
здесь).¶¶Рассмотрим пару таких формул:¶¶Формула Скотта (Scott, 1979)¶, где h - длина интервала, s - стандартное отклонение значений ряда измерений¶¶Формула Фридмана Диакониса (Freedman and Diaconis, 1981)¶, где h - длина интервала, (IQ) - разница между верхним и нижнимквартилем.¶¶Эти формулы довольно просты и обоснованы статистической теорией, и считаютсяпредпочтительнее формулы Стерджесса.Выбор числа интервалов группировки k при числе наблюдений n<100 – ориентировочное значениеинтервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде:Затем определяется шаг интервала (одного для равных интервалов и по числуинтервалов для неравных интервалов) и строятся интервалы от минимума кмаксимуму.
(СЕМИНАРЫ!..)h=R/k.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.