Lektsia_2_2013 (818898), страница 2
Текст из файла (страница 2)
Разновидности столбиковых диаграмм составляют так называемые ленточные или полосовые диаграммы. Их отличие состоит в том, что масштабная шкала расположена по горизонтали сверху или снизу и она определяет величину полос по длине.
Круговая диаграмма
0,2*360=72° 0,4*360=144°
0,1*360=36°
Особым видом графиков являются диаграммы распределения величин, представленных вариационным рядом. Это гистограмма, полигон, огива, кумулята.
Для визуального подбора теоретического распределения, а также выявления положения среднего значения ( ) и характера рассеивания (S2 и S) вариационные ряды изображаются графически.
С кумулятой сопоставляется график интегральной функции распределения F(x).
Вариационный ряд
Выборка
Выборка – реализации (т.е. значения для определенного элементарного исхода) независимых одинаково распределенных случайных величин;
- часть генеральной совокупности.
Выборка — или выборочная совокупность множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.
При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть координат – числа, а часть – качественные (категоризованные) данные, то говорим о векторе разнотипных данных.
Одним элементом выборки, т.е. одним измерением, может быть и функция в целом. Например, электрокардиограмма больного или амплитуда биений вала двигателя. Или временной ряд, описывающий динамику показателей определенной фирмы. Тогда выборка состоит из набора функций.
Элементами выборки могут быть и бинарные отношения. Например, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы – образцов продукции, инвестиционных проектов, вариантов управленческих решений. В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения, толерантности), множества, нечеткие множества и т.д.
Объем выборки sample size, Volume of sample
Пусть x1, x2, …, xn – выборка объема n из генеральной совокупности с функцией распределения F(x). Рассмотрим методы нахождения оценок параметров этого распределения. Рассмотрим для этого выборочное распределение, т.е. распределение дискретной случайной величины, принимающей значения x1, x2, …, xn с вероятностями, равными 1/n . Числовые характеристики этого выборочного распределения называются выборочными (эмпирическими) числовыми характеристиками. Следует отметить, что выборочные числовые характеристики являются характеристиками данной выборки, но не являются характеристиками распределения генеральной совокупности. Однако эти характеристики можно использовать для оценок параметров генеральной совокупности.
Точечной называют статистическую оценку, которая определяется одним числом.
Несмещенной называют точечную оценку, математическое ожидание которой равно оцениваемому параметру при любом объеме выборки.
Точечная оценка называется состоятельной, если при неограниченном увеличении объема выборки (n => ∞) она сходится по вероятности к истинному значению параметра.
Эффективной называют точечную оценку, которая (при заданном объеме выборки n) имеет наименьшую возможную дисперсию.
Порядковые статистики – это члены вариационного ряда, который получается, если элементы выборки x1, x2,…, xn расположить в порядке неубывания:
х(1)<x(2)<…<x(k)<…<x(n).
Пример 1. Для выборки x1 = 1, x2 = 7, x3 = 4, x4 = 2, x5 = 8, x6 = 0, x7 =5, x8 = 7 вариационный ряд имеет вид 0, 1, 2, 4, 5, 7, 7, 8, т.е. х(1) = 0 = x6, х(2) = 1 = x1, х(3) = 2 = x4, х(4) = 4 = x3, х(5) = 5 = x7, х(6) = х(7) = 7 = x2 = x8, х(8) = 8 = x5.
В вариационном ряду элемент x(k) называется k-той порядковой статистикой. Порядковые статистики и функции от них широко используются в вероятностно-статистических методах принятия решений, в эконометрике и в других прикладных областях [2].
ЗБЧ:
Из закона больших чисел теории вероятностей следует, что при неограниченном увеличении объема выборки (т.е. при n → ∞) с вероятностью, близкой к единице, все основные выборочные характеристики стремятся к соответствующим теоретическим характеристикам исследуемой случайной величины ξ. Этот факт позволяет использовать выборочные характеристики для приближенного описания свойств случайной величины ξ для всей генеральной совокупности.
Все выборочные характеристики являются случайными величинами и поэтому возникает вопрос о законе распределения вероятностей каждой из них.
Если СВ x1,x2,…,xn взаимно независимы и все имеют одно и то же среднее значение a и среднее квадратическое отклонение, величина
при достаточно большом n будет с вероятностью, близкой к 1, мало отличаться от a.
-
Выборочное среднее арифметическое, т.е. сумму значений рассматриваемой величины, полученных по результатам испытания выборки, деленную на ее объем:
где n – объем выборки, xi – результат измерения (испытания) i-ого элемента выборки.
Теоретический аналог: Математическое ожидание случайной величины Х указывает некоторое среднее значение, около которого группируются все возможные значения Х. Для дискретной случайной величины, которая может принимать лишь конечное число возможных значений, математическим ожиданием называют сумму произведений всех возможных значений случайной величины на вероятность этих значений:
Xср – состоятельная оценка M(xi):
Xср – несмещенная оценка M(xi):
-
Выборочная дисперсия
В качестве выборочных показателей рассеивания результатов наблюдений чаще всего используют выборочную дисперсию, выборочное среднее квадратическое отклонение и размах выборки.
Теоретический аналог:
Дисперсией случайной величины называется математическое ожидание квадрата ее отклонения от математического ожидания
D(X) = M(X –М(Х))2=σ2
S2 – состоятельная оценка дисперсии D(Xi): S2-> σ2
S2 – смещенная оценка дисперсии D(Xi):
УПРОЩЕННАЯ ФОРМУЛА ДИСПЕРСИИ!!!
ПРИМЕР:
i | Xi | Xi2 |
1 | 5 | 25 |
2 | 2 | 4 |
3 | 0 | 0 |
4 | -3 | 9 |
5 | 7 | 49 |
6 | 4 | 16 |
7 | 7 | 49 |
Summ | 22 | 152 |
S2=21.71-9.86=11.85
S.2=7/6*11.85=13.83
-
Выборочное среднее квадратическое отклонение
Выборочное среднее квадратическое отклонение s – неотрицательный квадратный корень из дисперсии, т.е.
Теоретический аналог:
Средним квадратическим отклонением случайной величины Х называется арифметический корень из дисперсии, т.е. σ(X) =
В некоторых литературных источниках выборочной дисперсией называют другую величину:
Она отличается от s2 постоянным множителем:
Соответственно выборочным средним квадратическим отклонением в этих литературных источниках называют величину Тогда, очевидно,
Различие в определениях приводит к различию в алгоритмах расчетов, правилах принятия решений и соответствующих таблицах. Поэтому при использовании тех или иных нормативно-технических и инструктивно-методических материалов, программных продуктов, таблиц необходимо обращать внимание на способ определения выборочных характеристик.
Выбор , а не s2, объясняется тем, что
где Х – случайная величина, имеющая такое же распределение, как и результаты наблюдений. В терминах теории статистического оценивания это означает, что - несмещенная оценка дисперсии (см. ниже). В то же время статистика s2 не является несмещенной оценкой дисперсии результатов наблюдений, поскольку
Однако у s2 есть другое свойство, оправдывающее использование этой статистики в качестве выборочного показателя рассеивания. Для известных результатов наблюдений x1, x2,…, xn рассмотрим случайную величину У с распределением вероятностей
и Р(У = х) = 0 для всех прочих х. Это распределение вероятностей называется эмпирическим. Тогда функция распределения У – это эмпирическая функция распределения, построенная по результатам наблюдений x1, x2,…, xn. Вычислим математическое ожидание и дисперсию случайной величины У:
Второе из этих равенств и является основанием для использования s2 в качестве выборочного показателя рассеивания.
Отметим, что математические ожидания выборочных средних квадратических отклонений М(s) и М(s0), вообще говоря, не равняются теоретическому среднему квадратическому отклонению σ. Например, если Х имеет нормальное распределение, объем выборки n = 3, то
-
Выборочный коэффициент вариации
Vn=S/Xср
Теоретический аналог:
Коэффициент вариации V=σ/M(ξ), ξ≥0
Vn->V – состоятельная оценка, несмещенности нет.
Кроме перечисленных выше статистических характеристик, в качестве выборочного показателя рассеивания используют
-
Размах R – разность между n-й и первой порядковыми статистиками в выборке объема n, т.е. разность между наибольшим и наименьшим значениями в выборке: R = x(n) – x(1).
В ряде вероятностно-статистических методов принятия решений применяют и иные показатели рассеивания. В частности, в методах статистического регулирования процессов используют средний размах – среднее арифметическое размахов, полученных в определенном количестве выборок одинакового объема. Популярно и
-
Межквартильное расстояние, т.е. расстояние между выборочными квартилями x([0,75n]) и x([0,25n]) порядка 0,75 и 0,25 соответственно, где [0,75n] – целая часть числа 0,75n, а [0,25n] –целая часть числа 0,25n.
Другой вид выборочного среднего – выборочная медиана. Она определяется через порядковые статистики.
-
Выборочная медиана
- результат наблюдения, занимающий центральное место в вариационном ряду, построенном по выборке с нечетным числом элементов, или полусумма двух результатов наблюдений, занимающих два центральных места в вариационном ряду, построенном по выборке с четным числом элементов. Таким образом, если объем выборки n – нечетное число, n = 2k+1, то медиана
= x(k+1), если же n – четное число, n = 2k, то медиана
= [x(k) + x(k+1)]/2, где x(k) и x(k+1) – порядковые статистики.
Из центральной предельной теоремы теории вероятностей следует, что асимптотически (при n → ∞) практически независимо от типа случайной величины все основные выборочные характеристики за исключением r ведут себя как нормально распределенные случайные величины. При этом, разумеется, параметры нормального закона, т.е. математическое ожидание и дисперсия, различные для разных выборочных характеристик. Так, например,
- математическому ожиданию ξ,
где σ2 - дисперсия ξ,
- вероятности i-го значения соответствующей дискретной случайной величины ξ и т.д.
Таблица – Оценки экспертов – исходные данные
№ п/п | Курс доллара США, руб. | Инфляция (%) за период прогноза | Цена батона белого хлеба, руб. | Цена 1 л молока, руб. |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 | 4185 4270 3200 4000 3500 3800 3500 3300 4100 3560 4000 5200 4000 6000 4000 3400 3500 4200 3560 4300 4000 4500 4200 3900 5500 5000 5600 3900 4200 3680 | 4,0 2,8 17,0 16,0 16,0 5,0 3,5 62,0 54,0 10,0 54,0 54,0 9,0 54,0 40,0 13,0 15,0 2,5 200,0 6,0 3,0 12,0 11,0 54,0 62,0 73,0 54,0 - 38,0 38,0 | 800 1028 760 950 820 1000 500 800 900 870 1000 1500 830 2000 950 750 1000 1000 940 950 1000 950 890 1000 1000 1000 1200 1500 950 850 | 1305 1322 755 1000 800 1000 1500 780 899 1050 1000 1500 1300 2000 1200 900 1250 1500 1200 1570 1100 1100 1100 1000 1400 1200 2000 1400 1100 1100 |
Таблица – оценки экспертов – сгруппированные данные
Прогнозируемая цена молока
№ п/п | Интервал, руб. | Число ответов |
1 2 3 4 5 6 7 8 9 10 | 700 – 799 800 – 899 900 – 999 1000 – 1099 1100 – 1199 1200 – 1299 1300 – 1399 1400 – 1499 1500 – 1599 2000 | 2 2 1 5 7 4 3 3 4 2 |
Всего | 33 |
Прогнозируемая цена молока (крупные градации)
№ п/п | Интервал, руб. | Число ответов |
1 2 3 4 | 700 – 999 1000 – 1299 1300 – 1599 2000 | 5 16 10 2 |
Всего | 33 |