man1 (542558), страница 2
Текст из файла (страница 2)
2. По всем выборкам определим среднее:
3. Выделим полученную строку средних и определим для нее стандартное отклонение:
4. Действия повторяем для n = 40, 160, 640. Результаты заносим в табл.1, вычисляем размах и убеждаемся, что с ростом n разброс средних уменьшается (распределение сжимается).
5. Сжатие распределения для с ростом n можно показать графически.
3. Усиленный закон больших чисел.
Теорема Бореля (1909 г.) ( первая теорема на эту тему) утверждает, что относительная частота fn появления случайного события с ростом числа n независимых испытаний стремится к истинной вероятности p
с вероятностью 1. Другими словами, при любом эксперименте с бесконечным числом испытаний имеет место сходимость последовательности fn к p.
Будем говорить, что последовательность случайных величин подчиняется усиленному закону больших чисел, если
с вероятностью 1.
В частном случае, при равных математических ожиданиях, Mi=a, это означает
с вероятностью 1.
Достaточное условие выполнения (7) дает
Теорема Колмогорова. Если последовательность взаимно независимых случайных величин удовлетворяет условию
то она подчиняется усиленному закону больших чисел.
Для независимых и одинаково распределенных случайных величин справедлив окончательный результат:
Теорема. Необходимым и достаточным условием для применимости усиленного закона больших чисел к последовательности независимых величин является существование математического ожидания.
Проиллюстрируем (6) на примере бросания симметричной монеты, а (8) - на примере равномерно R[0,1] распределенных случайных величин.
Из последовательности x1 ,..., xN независимых наблюдений построим последовательность f1, ..., fN среднеарифметических, где
и убедимся графически в том, что fn c ростом n приближается к математическому ожиданию.
Эксперименты с монетой.
Сгенерируем 3 последовательности по 500 бросаний монеты в первые 3 столбца таблицы 6v 500c. Посмотрим графически зависимость fn от n в различных диапазонах: от 1 до 25, до 50, до 100, до 500:
Наблюдаем график с тремя кривыми.
Аналогично получаем графики для других диапазонов по n (рис.3, рис.4). Убеждаемся, что частота выпадения герба fn c ростом n приближается к вероятности герба р = 0,5. Для большей наглядности графика добавим константу 0,5, для чего образуем 7 столбец с этим значением, и выведем его вместе с частотами.
Распечатываем график для диапазона 1100.
Рис.3. Относительная частота выпадения герба при изменении n.
Рис.4. Относительная частота выпадения герба при изменении n.
Эксперименты со случайными числами, распределенными равномерно на отрезке [0, 1].
Рис.5. Текущее среднее для R[0, 1] наблюдений.
Рис.6. Текущее среднее для R[0, 1] наблюдений.
Пример невыполнения закона
посмотрим на последовательностях случайных чисел, распределенных по закону Коши.
Выведем для них графики средних значений.
Анализируя результирующие графики, видим, что кривые среднеарифметических иногда испытывают скачки, которые отбрасывают их значения далеко от 0 – центра распределения.
4.Теорема Гливенко основная теорема статистики
Пусть x1, x2,...,xn - выборка из n независимых наблюдений над случайной величиной X с функцией распределения F(x). Расположим наблюдения в порядке возрастания; получим
-вариационный ряд. Определим функцию эмпирического распределения
где - число тех наблюдений, для которых xi
- ступенчатая функция; это функция распределения, которое получается, если значениям x1,...,xn присвоить вероятности, равные 1/n. Ясно, что
-функция случайная , так.как зависит от наблюдений x1,...,xn.
Теорема Гливенко:
с вероятностью 1.
Проиллюстрируем эту теорему на примерах наблюдений над случайной величиной, распределенной по равномерному на [0,1] закону.
Сравним графически функцию эмпирического распределения для выборки объема n = 10 и функцию теоретического распределения. Будем работать в модуле Data Management, поскольку операция сортировки находится в нем.
а) Подготовка функции эмпирического распределения.
Заготовим таблицу размером 3v 10c.
В первом столбце (назовем его х) сгенерируем выборку объема 10 с равномерным на отрезке [0, 1] распределением.
Построим вариационный ряд, т.е. сделаем сортировку по возрастанию
Во втором столбце вычислим значения функции эмпирического распределения:
б) Подготовка функции теоретического распределения.
Поскольку функция равномерного на [a, b] распределения определяется на [a, b] отрезком прямой, ее можно задать двумя точками (а, 0) и (b, 1), в данном случае (0, 0) и (1, 1). В третьем столбце, назовем его FT, введем два значения 0 и 1 (с клавиатуры).
в) Покажем на одном графике две функции распределения:
Наблюдаем функции теоретического и эмпирического распределений (рис.7). Выводим график.
Теперь повторим а) в) для n = 40, 160, 640. Убедимся в том, что при увеличении n функция эмпирического распределения приближается к теоретической (рис.8,рис.9).
Рис.7. Функции эмпирического и теоретического распределений n=10, R[0, 1].
Рис.8. Функции эмпирического и теоретического распределений n=40, R[0, 1].
Рис.9. Функции эмпирического и теоретического распределений n=160, R[0, 1].
5. Центральная предельная теорема
5.1.Содержание теоремы
Закон больших чисел утверждает , что при n
где а = Mi. Центральная предельная теорема утверждает нечто большее, а, именно, что при этом стремлении происходит нормализация:
где , т.е среднеарифметическое при больших n распределено приближенно по нормальному закону с дисперсией 2/n; этот факт записывают иначе, нормируя сумму:
Приведем формулировку одной из теорем.
Теорема Линдеберга. Если последовательность взаимно нeзависимых случайных величин 1, 2,..., n,... при любом постоянном >0 удовлетворяет условию Линдеберга
где
,
, то при n равномерно относительно x
Следствие. Если независимые случайные величины 1, 2,..., n,... одинаково распределены и имеют конечную отличную от нуля дисперсию, то выполняется (11).Условие Линдеберга в этом случае, т.е. Mk=a, Dk=2, Fk(x)=F(x), принимает вид: при любом > 0 и при n
оно, очевидно, выполняется, поскольку интеграл по всей оси, т.е. дисперсия, существует.
Убедимся статистически в том, что сумма нескольких случайных величин распределена приближенно по нормальному закону.
5.2. Одинаково распределенные слагаемые .
Сделаем это на примере суммы
шести (m = 6) независимых случайных величин, имеющих beta-распределение с параметрами a=b=0.5, плотность которого
где - beta-функция. Плотность при выбранных значениях параметров имеет U-образный вид, весьма далекий от нормального; убедимся в этом, построив график плотности .
чтобы статистически оценить закон распределения для суммы S, cследует многократно, N раз (например, N=500), промоделировать суммирование: получим S1, S2,...,SN - выборку для суммы; для этой выборки построим гистограмму и сравним ее визуально с нормальной плотностью.
Подготовим таблицу 9v 500c для размещения шести выборок, а в последних трех - сумм (для числа слагаемых m = 2, 4, 6).
Специфицируем переменные (столбцы):
Vars - All Specs - в окне Variables в столбце Name введем имена слагаемых x1, x2, ... x6 и имена сумм S2, S4, S6, в 4 столбце в первой строке – определяющее выражение
= VBeta (rnd (1); 0.5; 0.5),
эту запись перенесем в строки 26 с помощью операций Copy (кнопка или меню Edit - Copy) и Paste (вставить, кнопка или меню Edit - Copy); запишем выражение
для S2: = x 1 + x2,
для S4: = S2 + x3 + x4,
для S6: = S4 + x5 + x6,
Выполним вычисления:
Сравним гистограммы для m = 1, 2, 4, 6 слагаемых. Получим гистограмму для одного слагаемого:
выделим слагаемое, например, x1 – Quick Stats Graphs (кнопка на левой линейке или меню Graphs- Quick Stats Graphs...) - Histogram of x1 - Normal Fit. Наблюдаем гистограмму и плотность нормального распределения с параметрами, равными выборочным (рис.10). Убеждаемся в существенном отличии распределения слагаемого от нормального. Можно было также действовать через меню Graphs - Stats 2D Graphs - Histogram...
Аналогично получим гистограмму для суммы S2 двух слагаемых, для S4, для S6 (рис.11рис.13). Все 4 графика разместим на одном экране.
Убеждаемся, что уже при шести, даже четырех (!) слагаемых распределение близко к нормальному; подтверждением тому являются значения статистики Колмогорова - Смирнова К - Sd и уровень значимости p, которые указываются на графиках. Выпишем эти значения для всех 4 вариантов, а графики выведем на печать.
Теперь получим аналогичные гистограммы для 2-х, 4-х и 6-ти слагаемых.