Ю.Н. Тюрин - Лекции по математической статистике (1124591), страница 2
Текст из файла (страница 2)
. . . . . . . . . . . . . . . . . . . . . . . . . . . .69697070719.Асимптотическая нормальность оценок (статистических функций9.1. Функция влияния . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .9.2. Асимптотическая нормальность T (Fn ) . . . . . . . . . . . . .
. . . . . .9.3. Асимптотическое неравенство Крамера – Рао . . . . . . . . . . . . . . .фон Мизеса). . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .7476767710.Критерии согласия типа Пирсона-Фишера10.1. Правило К. Пирсона . . . . . . . . . . . . . . .
.10.1.1. Многомерная теорема Муавра-Лапласа .10.1.2. Доказательство теоремы Карла Пирсона10.2. Сложные гипотезы . . . . . . . . . . . . . . . . .10.3. Таблицы сопряженности. . . . . . . . . . . . . . ......7778797980814.......................................................................................................................................72741. Введение1.1.
Статистическая модель1.1.1. Простейшая модель: выборкаК общей (абстрактной) статистической модели мы придем, рассмотрев несколько примеров. Заодно укажем,каким образом статистический материал можно представить наглядно.Пример 1.Этот пример я заимствовал из старой книги А. Хальда, которую далее цитирую.Хальд приводит результаты измерений 200 головок заклепок. Эти числа записаны в том порядке, в которомони поступали.Первичное представление данных — таблица:Исходные данные13,3913,4213,3813,5313,5113,3013,4013,4013,2813,4313,4613,5313,5513,2913,2413,3413,5413,6613,4313,4213,3813,3413,5713,2613,33Диаметры13,43 13,5413,50 13,3213,44 13,5213,53 13,3913,48 13,6213,48 13,4013,34 13,2313,36 13,4513,59 13,4713,35 13,5613,44 13,4213,34 13,4513,33 13,3213,25 13,4413,28 13,5813,49 13,5013,33 13,3613,26 13,4013,26 13,5013,55 13,3713,54 13,3013,37 13,5013,31 13,4013,37 13,2813,33 13,31200 головок заклепок,13,64 13,40 13,5513,31 13,28 13,5213,53 13,37 13,3313,57 13,51 13,3413,58 13,57 13,3313,57 13,51 13,4013,37 13,48 13,4813,48 13,29 13,5813,46 13,62 13,5413,51 13,47 13,4013,29 13,41 13,3913,42 13,29 13,3813,69 13,46 13,3213,60 13,43 13,5113,31 13,31 13,4513,38 13,48 13,4313,46 13,23 13,4413,52 13,59 13,4813,38 13,43 13,3413,41 13,38 13,1413,18 13,32 13,4613,61 13,42 13,3213,36 13,28 13,5813,39 13,32 13,2013,45 13,39 13,45мм13,4013,4613,2413,3913,5113,5213,6213,4413,2013,2913,5013,4513,3213,4313,4313,3713,3813,4613,4113,4213,3913,3513,5813,4313,4113,2613,6313,1313,4713,4014,5613,3513,5613,3813,2013,4813,5013,4813,3813,4413,2913,2713,4013,2413,5213,3513,4013,3813,3413,45Таблица 1.Для получения более ясного представления о данных, результаты измерений располагаются в соответствии сих величиной следующим образом: на бумагу, разграфленную в клетку (обычно — на миллиметровую бумагу),наносится горизонтальная прямая и на ней специальным образом размечается шкала.
Результаты наблюденийотмечаются тогда точками над соответствующими числами.Правильность заполнения точечной диаграммы может быть проверена посредством суммарного подсчетаобщего числа наблюдений, произведенного как по таблице исходных данных, так и по точечной диаграмме.Для того, чтобы иметь возможность проследить появление возможных ошибок, перечисление и суммирование должно выполняться по группам, в каждой из которых содержится не более 100 наблюдений.Контроль суммированием, разумеется, не является вполне надежным, так как при этом способе контроляпротивоположные по знаку ошибки могут скомпенсировать друг друга.Результаты наблюдений могут перечисляться также при помощи карт, причем результат каждого из наблюдений наносится на карту, а карты сортируются по величине указанных в них результатов.Рисунок 1.
дает более ясное представление данных, чем первоначальный список из 200 чисел. Представлениеможно сделать еще более наглядным при помощи группировки наблюдений и построения т.н. гистограмм. Обратите внимание, как изменение интервалов группировки отражается на форме гистограмм. На последующих5рисунках можно видеть влияние изменения длины интервала группировки на внешний вид гистограммы.
Частоты и другие величины, связанные с распределением, используются в качестве ординат после их деления надлину соответствующих интервалов группировки; поэтому единица ординаты обратно пропорциональна длинеинтервала группировки, а 1см2 представляет на всех фигурах одно и то же число наблюдений.Если длина интервала группировки мала, то влияние случайных колебаний начинает преобладать, так каккаждый интервал содержит при этом лишь небольшое число наблюдений; если же длина интервала велика, тоскрадываются основные характерные черты распределения.Гистограммы и точечная диаграмма показывают, что данные из таблицы 1 ведут себя как совокупностьреализаций некой случайной величины.В статистике совокупность независимых одинаково распределенных случайных величин часто называютодним словом: выборка.
(Слово выборка имеет в статистике и другое, буквальное значение). Так что данные изтаблицы 1 похожи на выборку. Если разобраться в деле получше (например, с помощью выборочной функциираспределения и нормальной вероятностной бумаги), то можно убедиться, что эти двести чисел можно считатьвыборкой из нормального распределения (выборкой из нормальной совокупности).Итак, статистическая модель для 200 чисел этого примера — это выборка из нормального распределения.Параметры этого нормального распределения при этом не уточняются; они остаются неопределенными.Можно указать и некоторые задачи, естественные для этого примера:• оценить неизвестные параметры упомянутого нормального распределения;• указать пределы, в которые укладывается предписанная доля изделий;• проверить высказанное утверждение (предположение), что данная выборка извлечена из нормальной совокупности;• и т.д.1.1.2.
Простая линейная регрессияРассмотрим данные из статьи Э. Хаббла (E. Hubble) 1929 года, где впервые была подтверждена мысль орасширении вселенной (о «разбегании галактик»).Эти данные связывают расстояние от Земли до ближайших туманностей с лучевыми скоростями этих туманностей.Рисунок 6. Данные из статьи E. Hubble 1929 года, связывающие удаления и лучевые скорости24 туманностей.Рисунок наводит нас на мысль (так же, как и Э. Хаббла семьдесят лет назад), что лучевые скорости «вцелом» пропорциональны удалениям:yi = θxi + εi ,i = 1, 24.Здесь:• xi — удаление i-й туманности;• yi — ее лучевая скорость;• εi — отступление от линейной зависимости. Эти отступления, возможно, объясняются собственными движениями туманностей в пространстве, а также ошибками в измерении скоростей и удалений;• коэффициент θ, определяющий скорость расширения пространства, сейчас называют постоянной Хаббла.Величины удалений и скоростей для тех туманностей, которые отражены на рисунке 6, впоследствии былипересмотрены и уточнены, поэтому оценка для θ сильно изменилась по сравнению с той, которую нашел самХаббл.Были также измерены удаления и скорости для многих других туманностей, находящихся на гораздо больших расстояниях от Земли, чем первые двадцать четыре, о которых написал Хаббл.
Линейный характер зависимости, тем не менее, сохранился, был убедительно подтвержден и, в настоящее время, выражен из основныхзаконов астрономии. Впрочем, численное значение θ все еще вопрос дискуссионный (и чрезвычайно важныйдля теорий возникновения и эволюции вселенной).Основное статистическое предположение о ε1 , . . . , εn : это реализация независимых случайных величин. Именно предположение о случайности отклонений от определенной закономерности позволяет называть обсуждаемую модель явления статистической. Дальнейшее накопление данных и/или более глубокий их анализ, атакже опыт других задач обычно позволяет сказать больше о свойствах случайных ошибок ε1 , . . .
, εn :6(a) Eεi = 0,или P (εi > 0) = P (εi < 0) = 21 ;(Эти предположения выражают мысль об отсутствии в ошибках систематической составляющей.)(b) Случайные величины ε1 , . . . , εn одинаково распределены;(c) Случайные величины ε1 , .
. . , εn распределены по (общему) нормальному закону;(d) и т.д.1.1.3. Общая (абстрактная) статистическая модельИмеется наблюдение X. Это наш статистический материал. Все выводы мы будем делать, основываясьна наблюдении X. Его математическая природа несущественна: X может быть совокупностью чисел, вектором,матрицей, функцией времени (например, кривой, записанной самописцем) или пространства и.т.д.Мы рассматриваем X как точку некоего множества X , называемого пространством наблюдений, выборочным пространством, генеральной совокупностью и т.д.Выборочное пространство X мы примысливаем к нашему реальному наблюдению X, собирая вместе всезначения, которые, по нашему мнению, могли появиться вместо конкретного X.Мы предполагаем, что данное значение X появилось как результат случайного выбора элемента из X .
Этотслучайный выбор был произведен в соответствии с некоторым распределением вероятностей P на X . Как правило, это конкретное распределение P нам не известно. Однако мы можем указать какие-то свойства, которымиP обладает. Иначе говоря, нам известно (мы можем указать) некоторое множество P вероятностных распределений на X , которому принадлежит неизвестное истинное распределение P .Задача статистики — выводы о P на основании X. Например, основываясь на X, вычислить приближенныезначения функционалов от P или ответить, совместимы ли с наблюденным X предположения о тех или иныхсвойствах P .Множество P в практических задачах часто оказывается параметризованным с помощью некоторого параметра θ, который меняется в заданной области Θ.
Обычно Θ — интервал числовой прямой (когда θ — одномерныйпараметр) или область конечномерного пространства (когда θ — многомерный параметр).В параметрическом случае:P = {Pθ , θ ∈ Θ}.В этом случае нас обычно интересует значение θ, отвечающее истинному распределению Pθ (истинное значение θ) либо значение тех или иных функций τ (θ) при истинном θ. Основываясь на X, мы должны найти дляних приближенные значения.1.2. Теорема Гливенко(Пример того, как по выборке устанавливаются свойства распределения вероятностей.)Пусть x1 , .