lr1 (543706), страница 5
Текст из файла (страница 5)
где - число тех наблюдений, для которых xi<x. Ясно, что
- ступенчатая функция; это функция распределения, которое получается, если значениям x1,...,xn присвоить вероятности, равные 1/n. Ясно, что
-функция случайная , так.как зависит от наблюдений x1,...,xn.
Теорема Гливенко:
с вероятностью 1.
Проиллюстрируем эту теорему на примерах наблюдений над случайной величиной, распределенной по равномерному на [0,1] закону.
1) Выполнение в пакете STATGRAPHICS
используем имеющуюся выборку r (LIMIT.r) объема n = 2560, распределенную по закону R[0,1]. Образуем из нее несколько выборок объемов: n=10, 40, 160, 640, 2560 и посмотрим для этих n функцию эмпирического распределения.
a) Сформируем выборки объемов n =10, 40, 160, 640, 2560:
выберем процедуру A.2 (File Operations-операции с файлами), зададим имя файла (например, LIMIT) в окне file name и операцию J (Update- изменение) в окне Desired operation;
выберем режим N=New (новая переменная) нажатием N, введем имя переменной (например, x10), и в окне Enter assignment напишем определяющее выражение
10 TAKE r
Этот оператор из массива r выбирает первые 10 значений. На следующeе далее предложение Enter comment можно ответить отсутствием комментария (Enter) или ввести текст, если это необходимо.
Cнова выберем режим N=New для образования выборки объема 40,
назвав ее, например, x40, и т.д. до x640.
б) Пронаблюдаем функции эмпирического распределения при увеличении n:
выберем процедуру H.1.Distribution Fitting, в окне Data vector введем имя выборки LIMIT..x10 (это можно сделать короче: F7 (список полных имен переменных), курсор - на необходимую переменную, Enter), введем распределение теоретическое (17-Uniform), с которым хотим сравнивать эмпирическое, введем его параметры: Lower limit=0 Upper limit=2.0, выберем режим Histogram, поправим (если необходимо) пределы, зададим большое число классов (например, 500), т.е. фактически режим без группирования наблюдений), зададим режим Cumulative = Yes (клавишей "пробел") и Relative = Yes.
На экране появятся функции эмпирического и теоретического распре-делений. Запишем максимальную разность между ними при n=10: D10 ,
вернемся, введем x40,... , и.т.д. до x2560.
Убеждаемся, что с ростом n функция эмпирического распределения
приближается к теоретической (истинной); последовательность D10, D40, D160 ... уменьшается.
2) Выполнение в пакете STATISTICA
Сравним графически функцию эмпирического распределения для выборки объема n = 10 и функцию теоретического распределения. Будем работать в модуле Data Management, поскольку операция сортировки находится в нем.
а) Подготовка функции эмпирического распределения.
Заготовим таблицу размером 3v 10c.
В первом столбце (назовем его х) сгенерируем выборку объема 10 с равномерным на отрезке [0, 1] распределением.
Построим вариационный ряд, т.е. сделаем сортировку по возрастанию: выделим столбец x - Analysis - Sort -Var: x, Ascer (по возрастанию) - ОК.
Во втором столбце вычислим значения функции эмпирического рас-пределения:
выделим второй столбец: - Vars - Current Specs - Name: FE (например), long name: = v0 /10 - OK.
б) Подготовка функции теоретического распределения.
Поскольку функция равномерного на [a, b] распределения определяется на [a, b] отрезком прямой, ее можно задать двумя точками (а, 0) и (b, 1), в данном случае (0, 0) и (1, 1). В третьем столбце, назовем его FT, введем два значения 0 и 1 (с клавиатуры).
в) Покажем на одном графике две функции распределения:
Graphs - Custom Graphs - 2D Graphs - в Plot 1 укажем Х : Х, Y : FE, Step Plot (вместо Line Plot), в Plot 2 укажем X : FT, Y : FT, Line Plot - OK.
Наблюдаем функции теоретического и эмпирического распределений (рис.7). Выводим график на принтер.
Заметим, что в процедуре Custom 2D Graphs в окна X: и Y: значения можно вводить с клавиатуры или, кликнув дважды на соответствующем поле, из списков столбцов и строк; при этом из каждого списка столбцов (Column) или строк (Row) необходимо задать имена.
Если бы у нас была выборка с некоторой произвольной теоретической функцией распределения, в столбец FT нужно было бы записать ее значения в точках вариационного ряда - столбца Х. Например, если бы выборка была из совокупности с экспоненциальным распределением с параметром = 2, то для FT long name :
= IExpon (X; 2)
(I - интегральная функция). Настройка графика в процедуре 2D Graphs была бы такова : в PLOT 1 X : X, Y : FE, Step Plot, в Plot 2 X : X, Y : FT. Выполним это, не изменяя выборки.
Теперь повторим а) в) для n = 40, 160, 640. Убедимся в том, что при увеличении n функция эмпирического распределения приближается к теоретической (рис.8,рис.9).
Рис.7. Функции эмпирического и теоретического распределений n=10, R[0, 1].
Рис.8. Функции эмпирического и теоретического распределений n=40, R[0, 1].
Рис.9. Функции эмпирического и теоретического распределений n=160, R[0, 1].
3) Выполнение в пакете SPSS.
Сравним графически функцию эмпирического распределения для выборки объема n = 10 и функцию теоретического распределения F(x). Сделаем это на примере равномерного на [0, 1] распределения.
а) Вычисление функции эмпирического распределения.
Образуем новый файл. В столбец х (так, например, его назовем) сгенерируем выборку объема n = 10.
Построим вариационный ряд:
Data - Sort Cases - Sort by: x, Sort Order: Ascending (порядок сортировки: по возрастанию) - ОК.
Вычисление функции.
Statistics - Summarize - Frequencies - в правый список Variables перенесем х - ОК.
В окне Output в последнем столбце Cum. Percent находятся значения в процентах функции эмпирического распределения, соответствующие значениям аргумента в столбце Value (вариационного ряда). Выделяем его, и с помощью Copy и Paste заносим во 2-й столбец таблицы, которому даем имя Fn; значения делим на 100, чтобы проценты перевести в доли.
б) Вычисление функции теоретического распределения.
В третьем столбце (назовем его х1 ), запишем значения аргумента с равным, например, шагом; Numeric Expression: Fn. В четвертом столбце (назовем его F), запишем значения функции теоретического распределения; поскольку, в данном случае, F(x) = x, 0 x 1, для F Numeric Expression: x1.
в) Построение графика с двумя функциями:
Graphs - Scatter - Overlay - Define - в правый список Y - X Pairs вводим пару Fn - x, затем F - x1 - OK.
Появляется диаграмма с точками - Edit - кнопка “линии” (зигзаг) - выделяем точки эмпирического распределения (стрелка на точке + щелчок мышью), отмечаем Left step - Apply - выделяем точки теоретического распределения, отмечаем Straight Apply. Можно убрать или поменять точки с помощью кнопки *. Получаем график с двумя функциями; его сохраним или распечатаем.
Если бы имелась выборка с некоторой произвольной теоретической функцией распределения, в столбец х1 следовало бы записать значения аргумента с равным шагом (их можно получить умножением Fn на число), а в столбец F - вычисленные соответствующие значения.
Повторим а) в) для n = 40, 160. Убедимся в том, что при увеличении n функция эмпирического распределения приближается к теоретической.
5. Центральная предельная теорема
5.1. Содержание теоремы
Закон больших чисел утверждает , что при n
где а = Mi. Центральная предельная теорема утверждает нечто большее, а, именно, что при этом стремлении происходит нормализация:
где , т.е среднеарифметическое при больших n распределено приближенно по нормальному закону с дисперсией 2/n; этот факт записывают иначе, нормируя сумму:
Приведем формулировку одной из теорем.
Теорема Линдеберга. Если последовательность взаимно нeзависимых случайных величин 1, 2,..., n,... при любом постоянном >0 удовлетворяет условию Линдеберга
где
,
, то при n равномерно относительно x
Следствие. Если независимые случайные величины 1, 2,..., n,... одинаково распределены и имеют конечную отличную от нуля дисперсию, то выполняется (11).Условие Линдеберга в этом случае, т.е. Mk=a, Dk=2, Fk(x)=F(x), принимает вид: при любом > 0 и при n
оно, очевидно, выполняется, поскольку интеграл по всей оси, т.е. дисперсия, существует.
Убедимся статистически в том, что сумма нескольких случайных величин распределена приближенно по нормальному закону.
5.2. Одинаково распределенные слагаемые .
Сделаем это на примере суммы
шести (m = 6) независимых случайных величин, имеющих beta-распределение с параметрами a=b=0.5, плотность которого
где - beta-функция. Плотность при выбранных значениях параметров имеет U-образный вид, весьма далекий от нормального; убедимся в этом, построив график плотности .
чтобы статистически оценить закон распределения для суммы S, cследует многократно, N раз (например, N=500), промоделировать суммирование: получим S1, S2,...,SN - выборку для суммы; для этой выборки построим гистограмму и сравним ее визуально с нормальной плотностью.