lr4 (Лабник)
Описание файла
Файл "lr4" внутри архива находится в папке "Лабник". Документ из архива "Лабник", который расположен в категории "". Всё это находится в предмете "вычислительные машины, системы и сети (вмсис)" из 7 семестр, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "вмсс" в общих файлах.
Онлайн просмотр документа "lr4"
Текст из документа "lr4"
82
Работа N4. Доверительные границы и интервалы
результатом применения тчечной оценки â(x1,...,xn) является одно числовое значение; оно не дает представления о точности, т.е. о том, насколько близко полученное значение к истинному значению параметра. Интуитивно ясно, что такое представление может дать, например, дисперсия оценки, так что истинное значение должно находиться где-то в пределах
Внесем уточнения.
1.Основные положения
1.1. Определения и построение интервалов
Пусть (x1,...,xn) x - n независимых наблюдений над случайной величиной с законом распределения F(z/a), зависящим от параметра a, значение которого неизвестно.
Определение 1. Функция наблюдений a1(x1,...,xn) (заметим, что это случайная величина) называется нижней доверительной границей для параметра a с уровнем доверия РД (обычно близким к 1), если при любом значении
P{ a1(x1,...,xn) a} PД
Определение 2. Функция наблюдений a2(x1,...,xn) (случайная величина) называется верхней доверительной границей для параметра с уровнем доверия РД , если при любом значении
P{ a2(x1,...,xn) a } PД .
Определение 3. Интервал со случайными концами (случайный интервал)
I(x) = ( a1(x), a2(x) ) ,
определяемый двумя функциями наблюдений, называется доверительным интервалом для параметра a с уровнем доверия РД , если при любом значении a
P{ I(x) a } P{ a1(x1,...,xn) a a2(x1,...,xn) } PД ,
т.е. вероятность (зависящая от a) накрыть случайным интервалом I(x) истинное значение a - велика: больше или равна РД.
Построение доверительных границ и интервалов. Для построения доверительного интервала (или границы) необходимо знать закон распределения статистики =(x1,...,xn), по которой оценивается неизвестный параметр (такой статистикой может быть оценка = â(x1,...,xn) ). Один из способов построения состоит в следующем. Предположим, что некоторая случайная величина = (, a), зависящая от статистики и неизвестного параметра a такова, что
1) закон распределения известен и не зависит от a;
2) (, a) непрерывна и монотонна по .
Выберем диапазон для интервал так, чтобы попадание в него было практически достоверно:
P{ f1 (, a) f2 } PД , (1)
для чего достаточно в качестве и взять квантили распределения уровня (1- РД )/2 и (1+ РД )/2 соответственно. Перейдем в (1) к другой записи случайного события, разрешив неравенства относительно параметра a; получим (полагая, что монотонно возрастает по ):
P{ g(, f1) a g(, f2) } PД .
Это соотношение верно при любом значении параметра a (поскольку это так для (1)), и потому, согласно определению, случайный интервал
( g(, f1) , g(, f2) )
является доверительным для a с уровнем доверия РД . Если убывает по , интервалом является ( g(, f2) , g(, f1) ).
Для построения односторонней границы для a выберем значения и так, чтобы
P{ (, a) f1 } PД , f1=Q(1 - PД )
или P{ (, a) f2 } PД , f2 = Q( PД ),
где квантиль уровня . После разрешения неравенства под знаком получим односторонние доверительные границы для a.
Пример. Доверительный интервал с уровнем доверия РД для среднего a нормальной совокупности при известной дисперсии .
Пусть x , ... , xn - выборка из нормальной N(a, ) совокупности. Достаточной оценкой для а является
распределенная по закону N(a, ) ; пронормируем её, образовав случайную величину
которая распределена нормально N(0,1) при любом значении а.
По заданному уровню доверия РД определим для отрезок -fp, fp так, чтобы
т.е. fp - квантиль порядка (1+ РД )/2 распределения N(0,1); заметим, что зависит от а , но (3) верно при любом значении а. Подставим в (3) выражение для из (2) и разрешим неравенство под знаком вероятности в (3) относительно а ; получим соотношение
верное при любом значении а. под знаком вероятности две функции наблюдений
определяют случайный интервал
I( x1, ... , xn) =(a1( x1, ... , xn), a2( x1, ... , xn)), (5a)
который в силу (4) обладает тем свойством , что накрывает неизвестное значение параметра а с большой вероятностью РД при любом значении а, и потому, по определению доверительно интервала, он является доверительным с уровнем доверия РД .
В общем случае случайную величину в (1) можно построить следующим образом. Определим функцию распределения F(z/a) статистики (F, конечно, зависит от а). Для непрерывной случайная величина (, а) F( /a), как нетрудно видеть, распределена равномерно на отрезке 0, 1 при любом значении а; приняв f1= (1- PД)/2, f2 =(1+PД)/2, будем иметь в качестве (4)
P{f1 F( /a) f2} = PД .
Для дискретной ситуация аналогична.
Можно рассуждать иначе: при любом фиксированном значении а определим отрезок z1(a), z2(a) так, что
P{ z1(a) z2(a) } РД ; (6)
ясно, что в качестве z1 и z2 можно взять квантили, т.е. определить из условий
F(z!/a)=(1- РД )/2, F(z2/a)=(1+ РД )/2.
Если z1(a) и z2(a) монотонно возрастают по а, то, разрешив два неравенства под знаком Р в (6) и учитывая, что z1(a) < z2(a), получим:
P{ z2-1() a z1-1() } РД ,
вверное при любом а; ясно, что интервал ( z2-1() , z1-1() ), определяемый двумя функциями от , является доверительным с уровнем доверия РД.
1.2. Уровень доверия
Уровень доверия РД означает, что правило определения интервала дает верный результат с вероятностью РД, которая обычно выбирается близкой к 1, однако, 1 не равно.Убедимся статистически на примере в том, что доверительный интервал с уровнем доверия РД может не содержать (с малой вероятностью 1- РД ) истинное значение параметра.
Пример. рассмотрим приведенный в (5) случайный интервал I(x1, ..., xn), который при любом значении а накрывает это значение с большой вероятностью РД:
Р{ I(x1,...,xn) a } = РД ,
и потому, если пренебречь возможностью осуществления события aI, имеющего малую вероятность (1-РД), можно считать событие aI(x1,...,xn) практически достоверным, т.е. можно верить тому, что вычисленный по конкретным наблюдениям x1,...,xn интервал I содержит неизвестное значение параметра а.
Испытаем интервал (5) на 50 выборках объема n=10 для трех уровней доверия РД : 0.9 , 0.99 , 0.999 (соответственно, три значения fp) .
При РД = 0.9 число неверных из k =50 результатов окажется в окрестности 5, так как среднее число неверных
k(1- РД) = 5;
при РД =0.99 появление хотя бы одного неверного из k =50 весьма вероятно: вероятность этого события
1- РДk=1-0.9950 0.61;
при РД =0.999 появление хотя бы одного неверного весьма сомнительно: вероятность этого события
1- РДk=1-0.99950 0.05.
Задание.
1. Определить, сколько раз из k =50 доверительный интервал оказался неверным;.это сделаем для трех значений РД . Графики для РД =0.9 и РД =0.99 распечатать. Выполнение в пакетах см. в пп. 2 - 4.
2. Провести аналогично 50 испытаний доверительного интервала (7) - (9) для случая неизвестной дисперсии.
1.3. Интервалы для параметров нормального распределения
Пусть х1, … ,хn - выборка из нормального N(a,2) распределения; значения среднего а и дисперсии 2 неизвестны. Оценки для а и 2:
Как известно, доверительным интервалом для среднего а с уровнем доверия РД при неизвестной дисперсии является интервал
I(x) = (a1(х), a2(х) ), (8)
где , , (9) tp - квантиль порядка (1+ РД)/2 распределения Стьюдента с n-1 степенями свободы.
Доверительным интервалом для стандартного отклонения с уровнем доверия РД является интервал
I (x)=(1(х), 2(х)) , (10)
t1 и t2- квантили порядков соответственно (1+ РД)/2 и (1- РД)/2 распределения хи-квадрат с n-1 степенями свободы.
Сгенерируем выборку объема n=20 из нормального распределения с параметрами a =10, 2=22=4 и определим доверительные интервалы для a и с уровнем доверия РД : 0.8 , 0.9 , 0.95 , 0.98 , 0.99 , 0.995 , 0.998 , 0.999. Результаты выпишем в виде таблицы. C ростом РД интервал расширяется, с ростом n - уменьшается.
Выполнение см. в пп. 2 - 4.
Если нас интересуют не интервалы, а верхние или нижние доверительные границы, то, как известно, они определяются теми же формулами (9) è (11), îäíàêî, çíà÷åíèÿ ïîðîãîâ t изменяются. Например, нижней доверительной границей для a с уровнем доверия РД является значение
где tp - квантиль порядка РД распределения Стьюдента с n-1 степенями свободы, а верхней границей для с уровнем доверия РД является
где t2 - квантиль порядка 1- РД распределения хи-квадрат с n-1 степенями свободы.
Задание: определить верхние доверительные границы для а и с уровнем доверия РД = 0.95 .
1.4. Задание на самостоятельную работу
1) для заданной задачи построить оценку заданным методом (варианты заданий см. ниже);
2) построить доверительный интервал, основанный на этой оценке;
3) сгенерировать выборку заданного объема;
4) вычислить доверительный интервал.
Отчет по работе должен содержать:
постановки вопросов, формулы,
графики испытания доверительного интервала для 2-х случаев: с известной и неизвестной дисперсией (по п. 1.2),
таблицу доверительных интервалов для различных РД (по п. 1.3),
вывод формул для оценок и интервалов, сгенерированную выборку и вычисленный интервал (по п. 1.4) .
Варианты задач.
Задача1. Расстояние а до некоторого объекта измерялось n1 раз одним прибором и n2- вторым; результаты х1,…,хn1; y1,…,yn2. Оба прибора при каждом измерении дают независимые случайные ошибки, нормально распределенные со средним 0 и стандартными отклонениями 1 и 2 соответственно. Методом максимального правдоподобия построить оценку â для а и доверительный интервал с уровнем доверия РД .
Варианты исходных данных
¹ | n1 | n2 | 1, êì | 2, êì | Ðä | a, êì |
1 | 5 | 10 | 3 | 5 | 0.95 | 300 |
2 | 8 | 12 | 3 | 5 | 0.98 | 300 |
3 | 10 | 15 | 3 | 5 | 0.95 | 300 |
4 | 5 | 10 | 4 | 6 | 0.98 | 350 |
5 | 8 | 12 | 4 | 6 | 0.95 | 350 |
6 | 10 | 15 | 4 | 6 | 0.98 | 350 |
7 | 5 | 10 | 5 | 8 | 0.95 | 400 |
8 | 8 | 12 | 5 | 8 | 0.98 | 400 |
9 | 10 | 15 | 5 | 8 | 0.95 | 400 |
измерения получить моделированием с заданным параметром а.
Решение (без вывода). Оценка
доверительный интервал
где - квантиль порядка (1+РД)/2 распределения N(0,1).
Задача 2. Изготовлена большая партия из N=10000 приборов. Известно, что время безотказной работы случайно и распределено по показательному закону с плотностью
С целью определения значения параметра а этой партии были поставлены на испытания n приборов; времена безотказной работы оказались равными х1,…,хn. Методом моментов построить оценку для а и доверительный интервал с уровнем доверия РД . Кроме того, построить доверительный интервал для числа М приборов, имеющих время безотказной работы менее 50 часов.
Варианты исходных данных
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
n | 20 | 25 | 30 | 20 | 25 | 30 | 20 | 25 | 30 |
ÐД | 0.95 | 0.99 | 0.95 | 0.99 | 0.95 | 0.99 | 0.95 | 0.99 | 0.95 |
à | 300 | 400 | 500 | 300 | 400 | 500 | 300 | 400 | 500 |
измерения получить моделированием с заданным параметром а.
Решение (без вывода). Оценка
доверительный интервал для а
где t1=Q(2n, (1-РД)/2), t2=Q(2n, (1+РД)/2) - квантили распределения хи-квадрат с 2n степенями свободы; доверительный интервал для М
IM = ( N(1- exp(- )), N(1- exp(- )) ).
Çàäà÷à 3. Некоторое неизвестное расстояние а измерялось с аддитивной случайной ошибкой , распределенной по закону Коши с плотностью
По результатам х1,…,хn независимых измерений методом порядковых статистик построить оценку для а и приближенный доверительный интервал с коэффициентом доверия РД .
Варианты исходных данных
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
n | 30 | 40 | 50 | 30 | 40 | 50 | 30 | 40 | 50 |
b | 3 | 4 | 5 | 6 | 3 | 4 | 5 | 6 | 3 |
ÐД | 0.95 | 0.98 | 0.95 | 0.98 | 0.96 | 0.98 | 0.95 | 0.98 | 0.95 |
a | 15 | 20 | 25 | 15 | 20 | 25 | 15 | 20 | 25 |
измерения получить моделированием с заданным параметром а.
Решение (без вывода).Оценкой для а является выборочная медиана - порядковая статистика с номером [n/2]+1
(у этих статистик асимптотические свойства одинаковы). Приближенный доверительный интервал, основанный на асимптотическом распределении выборочной р-квантили
где tp=Q((1+РД)/2) - квантиль порядка (1+РД)/2 распределения N(0,1).
Задача 4. В водоеме обитает некоторая биологическая популяция, состоящая из смеси особей двух возрастов. Длина особи - случайная величина, распределенная по нормальному закону N( ai, i2 ), где i=1,2 - индекс, относящийся к возрасту. С целью определения доли q особей 1-го возраста проведен отлов n особей и измерена их длина. По результатам х1,…,хn методом моментов построить оценку для q и приближенный доверительный интервал с уровнем доверия РД . Построить гистограмму наблюдений.
Варианты исходных данных
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
n | 40 | 50 | 60 | 40 | 50 | 60 | 40 | 50 | 60 |
à1 | 5 | 6 | 5 | 6 | 5 | 6 | 5 | 6 | 5 |
à2 | 8 | 9 | 8 | 9 | 8 | 9 | 8 | 9 | 8 |
ÐÄ | 0.95 | 0.95 | 0.98 | 0.95 | 0.95 | 0.98 | 0.95 | 0.95 | 0.98 |
q | 0.5 | 0.4 | 0.3 | 0.5 | 0.4 | 0.3 | 0.5 | 0.4 | 0.3 |
Принять 1=1см, 2=1см. измерения получить моделированием с заданным значением q.
Решение (без вывода):
I = ( q1, q2 ),
tp- квантиль порядка (1+ РД)/2 для N(0,1).
2. Выполнение в пакете STATGRAPHICS
Уровень доверия
а) Сгенерируем массив z размером kn=5010=500 наблюдений, распределенных нормально с параметрами а=10, 2 = 22 = 4 (процедурой H.5. Random Number Generation) и образуем k=50 выборок объема n=10 т.е. матрицу х размерности 10 х 50: процедура A.2. File Operation, операция J.Update, оператором
10 50 RESHAPE z
б) Оценим средние (массив xs длиной k=50) по (1) процедурой A.2, операция J, оператором
SUM x/10
в) Определим квантили fp порядков (1+ РД)/2 (0.95 , 0.995 , 0.9995) нормального распределения N(0,1):
H.4. Critical Values (критические значения) - (Dist. Number: 14 (Normal)) - F6 - (mean: 0, std. deviation: 1) - F6 - (Area at or below: 0.95) - F6.
г) Определим массив a1 длины k = 50 левых концов интервалов по (5): процедура A.2 , операция J, оператор
xs - fp * / SQRT ( n )
д) Аналогично определим массив а2 правых концов интервалов.
е) Результаты k = 50 испытаний доверительных интервалов проанализируем по графику, полученному с помощью процедуры E.2. Multiple X-Y Plots, задав
X: COUNT 50
Y: a1
Y: a2
Y: 50 REP 10
Последняя строка потребовалась для изображения истинного значения а=10.
Определим, сколько раз из k=50 доверительный интервал оказался неверным. Это сделаем для трех значений РД (соответственно fp).
Графики для РД =0.9 и РД =0.99 распечатаем.
Задание. Провести аналогично k =50 испытаний доверительного интервала (7) - (9) для случая неизвестной дисперсии.
Интервалы для параметров нормального распределения
Сгенерируем выборку из 20 наблюдений над нормальной случайной величиной со средним а = 10 и дисперсией 2 = 4 и определим доверительные интервалы для а и с уровнем доверия РД : 0,8, 0,9, 0,95, 0,98, 0,99. Выполняется в процедурном блоке G. Estimation and Testing процедурой 1. One-Sample Analysis Результаты выпишем в виде таблицы. C ростом РД интервал расширяется, с ростом n - уменьшается.
3. Выполнение в пакете STATISTICA
Уровень доверия
Работаем в модуле Basic Statistics and Tables.
а) Генерируем k = 50 выборок по n = 10 наблюдений, нормально распределенных с параметрами: среднее а = 10, дисперсия 2 = 4.
Создадим таблицу с 50 строками (выборками) и 10 (объем выборки) столбцами:
File - New Data - File Name: Doverit (например)- ОК.
Создана таблица 10v 50c; добавим 40 строк после 10-й:
Кнопка Vars (или Edit - Cases) - Add - Number of Cases to Add: 40, insert after Case: 10 - OK.
Сгенерируем наблюдения:
Vars - All Specs - в появившейся таблице Variables Doverit.sta в 4-м столбце Long name выделим 1-ю клетку и запишем в ней
= Vnormal (Rnd (1); 10, 2)
и перенесем эту запись в строки со 2-й по 10-ю:
Edit - Copy (или кнопка Copy) (копирование в буфер),
затем выделим следующую клетку и
Edit - Paste (или кнопка Paste).
Закроем окно. Выполним назначения:
Edit - Variables - Recalculate...(или кнопка Х = ?).
б) Оценим средние:
Edit - Block Stats/Rows - Means.
Образован 11-й столбец MEAN. Присвоим ему имя xs:
выделим столбец MEAN - Vars - Current Specs...-Name: xs - OK.
в) Определим квантили fp порядков (1 + РД)/2 (0.95, 0.995, 0.9995) нормального N (0, 1) распределения:
Analisis-Probability Calculator - в окне устанавливаем Distribution Z (Normal), выделим Inverse, p: 0.95 - Compute; результат в поле Z: 1.645.
Аналогично определим fp для остальных вероятностей (2.57 и 3.29).
г) Определим по (5) столбцы а1 и а2 левых и правых концов доверительных интервалов.
Выделим заголовок столбца xs - Vars - Add - Number...: 2, after: xs - OK - выделим новый столбец - Vars - Current Specs - Name: A1 (левые концы), Long name:
= xs - 1,65 2 / Sgrt(10)
После ОК получаем столбец левых концов. Аналогично получаем столбец а2 правых концов.
д) Результаты k = 50 испытаний доверительного интервала представим графически:
выделим столбец а1 и а2 - Graphs - Custom Graphs - 2D Graphs - OK (соглашаемся с предложениями).
Видим график (рис.1), по которому определяем число экспериментов (6 из k = 50), в которых интервал не содержит истинного значения параметра. Можем определить координаты любой точки на рисунке, поставив на нее стрелку: координаты в верхнем левом углу. Распечатаем график.
е) повторим пп. г) и д) для двух других значений доверительной вероятности.
Задание: Провести аналогично k = 50 испытаний доверительного интервала (7) - (9) для случая неизвестной дисперсии (рис.2 для РД = 0.9; 5 ошибок).
Рис. 1.
Рис .2.
Интервалы для среднего нормальной совокупности
Сгенерируем выборку (столбец) из 20 наблюдений над нормальной случайной величиной со средним а = 10 и дисперсией 2 = 4 и определим доверительные интервалы для а с уровнем доверия РД : 0.8, 0.9, 0.95, 0.98, 0.99, 0.999. Выполняется командой
Analisis - Descriptive staistics - в поле Statistics выбрать Conf. Limits for means и указывать значение Alpha error: 80 (90, 95 т.д.).
4. Выполнение в пакете SPSS
Уровень доверия
а) Генерация k = 50 выборок по n = 10 наблюдений, нормально распределенных с параметрами: среднее а = 10, дисперсия 2 = 4.
Выборки поместим в таблицу с 50 строками (выборками) и 10 (объем выборки) столбцами (при таком размещении сокращается работа по генерации наблюдений). В первом столбце таблицы выделяем клетку в 50-й строке и вводим точку. 50 строк создано.
Переименуем 1-й столбец:
Data - Define Variable - Name: x 01 - OK
Сгенерируем наблюдения:
Transform - Compute - Target Variable (целевая переменная): x 01, Numeric Expression (числовое выражение):
NORMAL (2) + 10
это выражение вводим кнопками окна - ОК.- Change? - OK.
В первом столбце наблюдения получены. Повторяем, начиная с Transform, заменив х 01 на х 02; и так 9 раз (5 нажатий на 1 столбец). Матрица наблюдений получена.
б) Оценка средних.
В пакете статистики определяются по столбцам (переменным), поэтому выборки-строки преобразуем транспонированием в выборки-столбцы:
Data - Transpose...- все имена переменных переносим в правый список Variables (выделяем все, нажимаем кнопку-стрелку) - ОК.
Теперь имеется 50 столбцов - выборок по 10 строк - наблюдений. Первый столбец case - lbl можно удалить:
выделим его - Edit - Clear (или клавиша Delete).
Определим среднее по выборкам:
Statistics - Summarize - Descriptives...- перенесем имена всех столбцов в правый список, отметим Display labels (имена показывать) - Options...- отметим только Mean; îòìåòèì Display Order: Name (показывать по порядку) - Continue - OK.
В окне Output получаем столбец Mean результатов. Если в столбце есть пропуски или текст, удаляем лишние строки, чтобы столбец результатов состоял из 50 строк с числами.
Сохраним столбец результатов в буфере операцией Copy. Снова транспонируем матрицу (чтобы в дальнейшем не было пустых блоков). Получили 10 числовых столбцов и 50 строк (выборок).
Выделяем 1-й справа свободный столбец и с помощью Edit - Paste помещаем в него столбец средних. Присвоим ему имя as:
выделим его - Data - Define Variable - Name: as
в) Определение столбцов а1 и а2 левых и правых концов доверительных интервалов.
Пусть РД = 0.9, квантиль порядка (1 + РД )/2 = 0.95 есть fР = 1.645. Вычислим левые концы:
Transform - Compute - Target Variable: a1, Numeric Expression (по (5), учитывая, что = 2): as – 1.645 2/ SQRT(10).
Аналогично вычислим левые концы а2.
г) Результаты k = 50 испытаний доверительного интервала представим графически, предварительно образовав столбец а с истинным значением 10 параметра; затем:
Graphs - Line...- Multiple (несколько графиков), Values of individual cases - Define - Line Represent (представить линии): а, а1, а2 - ОК.
Наблюдаем график, из которого видно, сколько интервалов из 50 не содержат истинное значение. Записываем его; оно должно находиться приближенно в пределах 5 2 5 4. График распечатаем или сохраним: File - Save As...
д) Пусть РД = 0.99; тогда fР 2.57; если РД = 0.999, то fР 3.29. Повторим пп. в) и г) для этих значений РД . Убеждаемся, что с ростом РД число ошибок уменьшается, но ширина интервала увеличивается (чем надежнее гарантия, тем меньше она гарантирует).
Задание: провести аналогично k = 50 испытаний доверительного интервала (7) - (9) для случая неизвестной дисперсии.
ПРИЛОЖЕНИЕ 1. Методы построения оценок
Метод моментов
Пусть x1, ..., xn - n независимых наблюдений над случайная величиной с функцией распределения F (x/a), зависящей от параметра a (a1, ..., aR), nR; значение параметра требуется оценить по наблюдениям.
Пусть mk = Mk - момент порядка k. Моменты являются функциями параметра a: mk= fk(a1, ..., aR). Пусть существуют первые R моментов m1, ..., mR. Если бы моменты были известны, можно было бы составить систему уравнений для определения параметров по моментам:
m1 = f1(a1,...,aR),
. . .
mR = fR(a1,...,aR );
пусть эта система разрешима относительно a:
a1 = g1(m1,...,mR),
. . . (1)
aR = gR(m1,...,mR ).
когда решается задача оценивания, значения моментов неизвестны, однако, для моментов имеются несмещенные и состоятельные оценки
Подставив их в (1) вместо mk, получим некоторые оценки для aj:
(x1 ,... xn) = g1 ( 1 ,..., R ),
. . .
( x1 ,... xn) = gR ( 1 ,..., R ),
которые называют моментными оценками.
Несмещенностью они, вообще говоря, не обладают; обычно их исправляют. Справедливы следующие свойства.
1. Если функции gj (), j = 1 ,..., R, непрерывны, то оценки состоятельны.
2. Если функции gj() дифференцируемы, а распределение при любом a имеет 2R моментов, то оценки асимптотически нормальны:
Замечания.
1. В равенствах (1) вместо первых моментов можно взять любые R моментов так, чтобы система была разрешима.
2. Моментные оценки не всегда обладают хорошими характеристиками. Однако, часто они достаточно просты в вычислительном отношении.
Метод наибольшего правдоподобия
-
Определения. Пусть имеется некоторая совокупность x (x1 ,..., xn) наблюдений. Рассмотрим вероятность (или плотность) p(x/a) получить это x при различных a (a1 ,..., aR). в качестве оценки возьмем то значение а, для которого вероятность p(x/a) максимальна; такой способ оценивания называется методом наибольшего (максимального) правдоподобия.
Функция p(x/a), понимаемая как функция от а, называется функцией правдоподобия. Значение а, доставляющее максимум функции правдоподобия, называется оценкой наибольшего (максимального) правдоподобия:
Заметим, что а есть функция наблюдений х: а = а (х). При обычных условиях регулярности максимум находится из системы уравнений
Пример. Пусть х (х1, ..., xn) - независимые наблюдения над случайной величиной, нормально распределенной с параметрами b и 2 (роль двумерного параметра а в определении играет пара b и 2 ). Плотность распределения выборки
p(x/ b, 2) p(x1, ..., xn /b, 2) = . (3)
Поскольку значения х1 ,..., xn известны, величина p(x1, ..., xn/b,2) является функцией от b и 2. система (3):
Решение этой системы, т.е. оценки наибольшего правдоподобия:
-
Свойства оценок наибольшего правдоподобия.
Пусть - случайная величина с законом распределения q( /a), x(x1,..xn)- n независимых наблюдений, p(x1, ..., xn /a) = - распределение выборки.
При некоторых достаточно широких условиях оценки наибольшего правдоподобия обладают хорошими свойствами, а именно, они состоятельны, асимптотически эффективны и асимптотически нормальны с параметрами (для одномерного случая)
условия таковы: а) независимость множества X = x: q(x/a) = 0 от а; б) существование производных и ; в) существование . Доказательство можно найти, например, в 2.
Метод порядковых статистик
Пусть x1, ..., xn - n независимых наблюдений над случайная величиной с функцией распределения, зависящей от параметра a, значение которого тебуется оценить; x(1) x(2) ... x(n) - вариационный ряд (наблюдения, упорядоченные по возрастанию), x(k) - порядковая статистика с номером k.
Квантиль xр выбранного уровня р (например, р = 0.5, x0.5 -медиана) является функцией параметра а:
xр = f(a),
выразим а через xр
а = g(xр)
и вместо xр подставим выборочную квантиль = x([np]+1), которой является порядковая статистика с номером [np] +1; получим оценку
= g(x([np]+1))
Известны следующие свойства.
Если функция g непрерывна, то оценка состоятельна. Если распределение наблюдений непрерывно с плотностью q(x) , то асимптотически нормальна с параметрами
(теорема Крамера).
Ясно, что таким же образом можно построить оценки и для неодномерного параметра. Основное и очень важное преимущество оценок, основанных на порядковых статистиках, - их устойчивость к засорению наблюдений.
приложение 2. операторы пакета STATGRAPHICS
Здесь описываются операторы, использованные в работах.
N TAKE x –Выбирает заданное число значений с начала (N - поло жительно) или конца (N - отрицательно) массива х.
2 TAKE 1 2 3 4 дает 1 2
–2 TAKE 1 2 3 4 дает 3 4
m n RESHAPE x – Преобразует массив х в матрицу из m строк и n столбцов. Если требуется больше значений, чем в массиве х, значения повторяются циклически; если меньше – значения в конце массива опускаются.
2 3 RESHAPE COUNT 4 дает
1 2 3
4 1 2
n RESHAPE x – Расширяет циклически x до размера n.
7 RESHAPE 1 2 3
дает 1 2 3 1 2 3 1
n REP x – Делает n копий каждого элемента в массиве x.
2 REP 3 4 5 дает 3 3 4 4 5 5
2 3 4 REP 3 4 5 дает 3 3 4 4 4 5 5 5 5.
COUNT n – Создает вектор с целыми числами от 1 до n.
SUM x – Суммирует элементы массива. Если массив - матрица, ре-
зультат есть вектор сумм элементов столбцов.
MIN x – Выбирает минимальное (максимальное) значение в массиве.
MAX x Если х – матрица, результат есть вектор минимумов
(максимумов) элементов столбцов.
TAN x – Определяет тангенсы элементов массива х. Этот оператор относится к числу загружаемых. Перед использованием необходимо выполнить загрузку процедурой V. 1. Load Operators and Functions, опциями Mathematical functions и Read (после использования рекомендуется выгрузить (чтобы освободить память) опцией Erase).
SORTUP x – располагает в порядке возрастания элементы массива x; если x-матрица, - сортирует все столбцы. Этот оператор, как и предыдущий, относится к числу загружаемых.
заключение
использование пакетов существенно улучшает процесс изучения основ математической статистики, ускоряя его и вызывая интерес у студентов. Это показал двухлетний опыт применения в МЭИ на АВТФ. Данное учебное пособие является началом работы в этом направлении.
Авторам приятно отметить,что изобретателем и вдохновмтелем этого пособия является Наталья Александровна Сливина, зажигательный и неповторимый энтузиаст применения компьютеров и пакетов в преподавании математики. Хотелось бы также отметить участие в деле освоения пакетов студентов АВТФ - прекрасных программистов Евгения Голода, Дмитрия Горбунова, Петра Комарова.
Литература
-
Севастьянов Б.А. Курс теории вероятностей и математической статистики. М.: Наука, 1982. 256 с.
-
Рао С.Р. Линейные статистические методы и их применение. М.: Наука, 1968. 548 с.
-
Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983. 416 с.
-
Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. М.: ИНФРА-М, Финансы и статистика, 1995. 384 с.
-
Краткое описание пакета STATGRAPHICS. / Э.А. Вуколов, В.В.Лесин, Ю.П. Лисовец др. М.: МГИЭТ. вып. 1, 2. 1993.