Lektsia_2_2013-конвертирован (Лекции), страница 2
Описание файла
PDF-файл из архива "Лекции", который расположен в категории "". Всё это находится в предмете "прикладная статистика" из 4 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
В таком случае выборка состоит из набора векторов. Есть часть координат – числа, ачасть – качественные (категоризованные) данные, то говорим о векторе разнотипных данных.Одним элементом выборки, т.е. одним измерением, может быть и функция в целом.Например, электрокардиограмма больного или амплитуда биений вала двигателя. Иливременной ряд, описывающий динамику показателей определенной фирмы. Тогда выборкасостоит из набора функций.Элементами выборки могут быть и бинарные отношения. Например, при опросахэкспертов часто используют упорядочения (ранжировки) объектов экспертизы – образцовпродукции, инвестиционных проектов, вариантов управленческих решений.
В зависимости отрегламента экспертного исследования элементами выборки могут быть различные видыбинарных отношений (упорядочения, разбиения, толерантности), множества, нечеткиемножества и т.д.Объем выборки sample size, Volume of sampleПусть x1, x2, …, xn – выборка объема n из генеральной совокупности с функциейраспределения F(x). Рассмотрим методы нахождения оценок параметров этогораспределения. Рассмотрим для этого выборочное распределение, т.е. распределениедискретной случайной величины, принимающей значения x1, x2, …, xn с вероятностями,равными 1/n .
Числовые характеристики этого выборочного распределения называютсявыборочными (эмпирическими) числовыми характеристиками. Следует отметить, чтовыборочные числовые характеристики являются характеристиками данной выборки, ноне являются характеристиками распределения генеральной совокупности. Однако этихарактеристики можно использовать для оценок параметров генеральной совокупности.Точечной называют статистическую оценку, которая определяется одним числом.Несмещенной называют точечную оценку, математическое ожидание которой равнооцениваемому параметру при любом объеме выборки.Точечная оценка называется состоятельной, если при неограниченном увеличенииобъема выборки (n => ∞) она сходится по вероятности к истинному значениюпараметра.Эффективной называют точечную оценку, которая (при заданном объеме выборкиn) имеет наименьшую возможную дисперсию.Порядковые статистики – это члены вариационного ряда, который получается, еслиэлементы выборки x1, x2,…, xn расположить в порядке неубывания:х(1)<x(2)<…<x(k)<…<x(n).Пример 1.
Для выборки x1 = 1, x2 = 7, x3 = 4, x4 = 2, x5 = 8, x6 = 0, x7 =5, x8 = 7вариационный ряд имеет вид 0, 1, 2, 4, 5, 7, 7, 8, т.е. х(1) = 0 = x6, х(2) = 1 = x1, х(3) = 2 =x4, х(4) = 4 = x3, х(5) = 5 = x7, х(6) = х(7) = 7 = x2 = x8, х(8) = 8 = x5.В вариационном ряду элемент x(k) называется k-той порядковой статистикой.Порядковые статистики и функции от них широко используются в вероятностностатистических методах принятия решений, в эконометрике и в других прикладныхобластях [2].ЗБЧ:Из закона больших чисел теории вероятностей следует, что при неограниченном увеличении объемавыборки (т.е.
при n → ∞) с вероятностью, близкой к единице, все основные выборочныехарактеристики стремятся к соответствующим теоретическим характеристикам исследуемойслучайной величины ξ. Этот факт позволяет использовать выборочные характеристики дляприближенного описания свойств случайной величины ξ для всей генеральной совокупности.Все выборочные характеристики являются случайными величинами и поэтому возникает вопрос озаконе распределения вероятностей каждой из них.Если СВ x1,x2,…,xn взаимно независимы и все имеют одно и то же среднее значение aи среднее квадратическое отклонение, величинаx → M (X ) =n→x1 + x 2 + ... + xnnпри достаточно большом n будет с вероятностью, близкой к 1, мало отличаться от a.1. Выборочное среднее арифметическое, т.е.
сумму значений рассматриваемойвеличины, полученных по результатам испытания выборки, деленную на ееобъем:x=1 xi ,n 1i nгде n – объем выборки, xi – результат измерения (испытания) i-ого элемента выборки.Теоретический аналог: Математическое ожидание случайной величины Х указывает некотороесреднее значение, около которого группируются все возможные значения Х. Для дискретнойслучайной величины, которая может принимать лишь конечное число возможных значений,математическим ожиданием называют сумму произведений всех возможных значений случайнойвеличины на вероятность этих значений:Xср – состоятельная оценка M(xi): x → M ( xi )n →Xср – несмещенная оценка M(xi): M ( x) = M ( xi )2.
Выборочная дисперсияВ качестве выборочных показателей рассеивания результатов наблюдений чащевсего используют выборочную дисперсию, выборочное среднее квадратическоеотклонение и размах выборки.s2 =1( xi − x ) 2 .n 1 i nТеоретический аналог:Дисперсией случайной величины называется математическое ожидание квадрата ее отклонения отматематического ожиданияD(X) = M(X –М(Х))2=σ22S – состоятельная оценка дисперсии D(Xi): S2-> σ2S2 – смещенная оценка дисперсии D(Xi):УПРОЩЕННАЯ ФОРМУЛА ДИСПЕРСИИ!!!ПРИМЕР:iXi1522304-3576477Summ 22Xi225409491649152Xср=22/7=3,14S2=21.71-9.86=11.85S.2=7/6*11.85=13.833.
Выборочное среднее квадратическое отклонениеВыборочное среднее квадратическое отклонение s – неотрицательный квадратныйкорень из дисперсии, т.е.Теоретический аналог:s = + s2 .Средним квадратическим отклонением случайной величины Х называется арифметический кореньиз дисперсии, т.е.σ(X) =В некоторых литературных источниках выборочной дисперсией называют другуювеличину:s 02 =1 ( xi − x ) 2 .n − 1 1i nОна отличается от s2 постоянным множителем: 1s 2 = 1 − s 02 . nСоответственно выборочным средним квадратическим отклонением в этих литературныхисточниках называют величину s0 = + s02 . Тогда, очевидно,1s = 1 − s0 .nРазличие в определениях приводит к различию в алгоритмах расчетов, правилахпринятия решений и соответствующих таблицах.
Поэтому при использовании тех или иныхнормативно-технических и инструктивно-методических материалов, программных продуктов,таблиц необходимо обращать внимание на способ определения выборочных характеристик.Выбор s 02 , а не s2, объясняется тем, чтоM ( s 02 ) = D( X ) = 2 ,где Х – случайная величина, имеющая такое же распределение, как и результаты наблюдений.В терминах теории статистического оценивания это означает, что s 02 - несмещенная оценкадисперсии (см. ниже). В то же время статистика s2 не является несмещенной оценкойдисперсии результатов наблюдений, поскольку 1M ( s 2 ) = 1 − 2 . nОднако у s2 есть другое свойство, оправдывающее использование этой статистики в качествевыборочного показателя рассеивания.
Для известных результатов наблюдений x1, x2,…, xnрассмотрим случайную величину У с распределением вероятностейP(Y = xi ) =1,ni = 1,2,..., n,и Р(У = х) = 0 для всех прочих х. Это распределение вероятностей называется эмпирическим.Тогда функция распределения У – это эмпирическая функция распределения, построенная порезультатам наблюдений x1, x2,…, xn. Вычислим математическое ожидание и дисперсиюслучайной величины У:M (Y ) = x ,D(Y ) = s 2 .Второе из этих равенств и является основанием для использования s2 в качестве выборочногопоказателя рассеивания.Отметим, что математические ожидания выборочных средних квадратическихотклонений М(s) и М(s0), вообще говоря, не равняются теоретическому среднемуквадратическому отклонению σ.
Например, если Х имеет нормальное распределение, объемвыборки n = 3, тоM ( s ) = 0,724 , M ( s 0 ) = 0,887 .4. Выборочный коэффициент вариацииVn=S/XсрТеоретический аналог:Коэффициент вариации V=σ/M(ξ), ξ≥0Vn->V – состоятельная оценка, несмещенности нет.Кроме перечисленных выше статистических характеристик, в качестве выборочногопоказателя рассеивания используют5.
Размах R – разность между n-й и первой порядковыми статистиками в выборкеобъема n, т.е. разность между наибольшим и наименьшим значениями в выборке:R = x(n) – x(1).В ряде вероятностно-статистических методов принятия решений применяют ииные показатели рассеивания. В частности, в методах статистического регулированияпроцессов используют средний размах – среднее арифметическое размахов,полученных в определенном количестве выборок одинакового объема. Популярно и6.
Межквартильное расстояние, т.е. расстояние между выборочными квартилямиx([0,75n]) и x([0,25n]) порядка 0,75 и 0,25 соответственно, где [0,75n] – целая частьчисла 0,75n, а [0,25n] –целая часть числа 0,25n.Другой вид выборочного среднего – выборочная медиана. Она определяется черезпорядковые статистики.7. Выборочная медиана ~х - результат наблюдения, занимающий центральноеместо в вариационном ряду, построенном по выборке с нечетным числомэлементов, или полусумма двух результатов наблюдений, занимающих двацентральных места в вариационном ряду, построенном по выборке с четнымчислом элементов. Таким образом, если объем выборки n – нечетное число, n =2k+1, то медиана ~х = x(k+1), если же n – четное число, n = 2k, то медиана ~х =[x(k) + x(k+1)]/2, где x(k) и x(k+1) – порядковые статистики.x medn = 2k + 1 → x med = x(k + 1)=x(k ) + x(k + 1)n = 2k → x med =2Из центральной предельной теоремы теории вероятностей следует, что асимптотически (при n → ∞)практически независимо от типа случайной величины все основные выборочные характеристики заисключением r ведут себя как нормально распределенные случайные величины.
При этом, разумеется,параметры нормального закона, т.е. математическое ожидание и дисперсия, различные для разныхвыборочных характеристик. Так, например,- математическому ожиданию ξ,где σ2 - дисперсия ξ,- вероятности i-го значения соответствующей дискретной случайной величины ξ и т.д.Таблица – Оценки экспертов – исходные данные№Курс доллараИнфляция (%) заЦена батона белого Цена 1 лп/пСША, руб.период прогнозахлеба, руб.молока, руб.141854,08001305242702,8102813223320017,07607554400016,095010005350016,0820800638005,010001000735003,550015008330062,08007809410054,090089910356010,0870105011400054,01000100012520054,0150015001340009,0830130014600054,02000200015400040,0950120016340013,075090017350015,0100012501842002,510001500193560200,094012002043006,095015702140003,01000110022450012,0950110023420011,0890110024390054,01000100025550062,01000140026500073,01000120027560054,012002000283900-1500140029420038,0950110030368038,08501100Таблица – оценки экспертов – сгруппированные данныеПрогнозируемая цена молока№ п/пИнтервал, руб.Число ответов1700 – 79922800 – 89923900 – 999141000 – 1099551100 – 1199761200 – 1299471300 – 1399381400 – 1499391500 – 159941020002Всего33Прогнозируемая цена молока (крупные градации)№ п/пИнтервал, руб.Число ответов1700 – 999521000 – 12991631300 – 159910420002Всего33.