Н.И. Чернова - Лекции по матстату (1115348)
Текст из файла
К РАТКИЙ КОНСПЕКТ ЛЕКЦИЙПО МАТЕМАТИЧЕСКОЙ СТАТИСТИКЕдля студентов 2 курса ЭФ, отделение«математические методы и исследование операций в экономике»(1 семестр 1997-98 уч.года)Чернова Н.И.cher@nsu.ru, тел. (3832) 46-73-0011.1О СНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИЗадачи математической статистикиМатематическая (или теоретическая) статистика опирается на методы и понятия теории вероятностей,но решает в каком-то смысле обратные задачи.В теории вероятностей рассматриваются случайные величины с заданным распределением или случайные эксперименты, свойства которых целиком известны. Предмет теории вероятностей — свойстваи взаимосвязи этих величин (распределений).Но часто эксперимент представляет собой черный ящик, выдающий лишь некие результаты, по которым требуется сделать вывод о свойствах самого эксперимента.
Наблюдатель имеет набор числовых(во всяком случае, их всегда можно сделать числовыми) результатов, полученных повторением одного итого же случайного эксперимента в одинаковых условиях. Примером такой серии экспериментов можетслужить социологический опрос, набор экономических показателей или, наконец, последовательностьгербов и решек при тысячекратном подбрасывании монеты.При этом возникают следующие вопросы:1) Если мы наблюдаем одну случайную величину — как по набору ее значений в нескольких опытахсделать как можно более точный вывод о ее распределении?2) Если мы наблюдаем одновременно проявление двух (или более) признаков, т.е.
имеем набор значений нескольких случайных величин — что можно сказать об их зависимости? Есть она или нет? А еслиесть, то какова эта зависимость?Часто бывает возможно высказать некие предположения о распределении, спрятанном в «черномящике», или о его свойствах.
В этом случае по опытным данным требуется подтвердить или опровергнуть эти предположения («гипотезы»). При этом надо помнить, что ответ «да» или «нет» может бытьдан лишь с определенной степенью достоверности, и чем дольше мы можем продолжать эксперимент, темточнее могут быть выводы (а это далеко не всегда возможно).Итак, о (математической) статистике имеет смысл вспоминать, еслиа) имеется случайный эксперимент, свойства которого частично или полностью незвестны,б) мы умеем воспроизводить этот эксперимент в одних и тех же условиях некоторое (а лучше — какоеугодно) число раз.1.2Основные понятия выборочного методаПусть ξ : Ω → R — случайная величина, наблюдаемая в случайном эксперименте. Предполагается,что вероятностное пространство задано (и не будет нас интересовать).
Будем считать, что проведя n разэтот эксперимент в одинаковых условиях, мы получили числа X1 , X2 , . . . , Xn — значения этой случайнойвеличины в первом, втором, и т.д. экспериментах. Пусть случайная величина ξ имеет некоторое распределение F, которое нам частично или совсем неизвестно.~ = (X1 , . . . , Xn ), называемый выборкой (случайной выборкой). ВРассмотрим подробнее вектор Xконкретной серии экспериментов выборка — это набор чисел. Но стоит эту серию экспериментов повторить еще раз, и вместо этого набора мы получим новый набор чисел. Вместо числа X1 появится другоечисло — одно из значений случайной величины ξ. То есть X1 (и X2 , и X3 , и т.д.) — не какое-то конкретное, раз и навсегда заданное число, а переменная величина, которая может принимать те же значения,что и случайная величина ξ, и так же часто (с теми же вероятностями).
То есть X1 — случайная величина,одинаково распределенная с ξ, а число, которое мы наблюдаем в данном первом эксперименте — одно извозможных значений случайной величины X1 .~ = (X1 , . . . , Xn ) объема n это:Итак, выборка X1) в конкретной серии экспериментов — набор из n чисел, являющихся значениями («реализациями») случайной величины ξ в n независимых экспериментах;2) в математической модели — набор из n независимых и одинаково распределенных случайных величин («копий ξ»), имеющих, как и ξ, распределение F.Что значит «по выборке сделать вывод о распределении»? Распределение характеризуется функциейраспределения, плотностью или таблицей, набором числовых характеристик — Eξ, Dξ, Eξ k и т.д.
Повыборке нужно уметь строить приближения для всех этих характеристик.11.3Эмпирическая функция распределения, гистограммаПоскольку неизвестное распределение F можно описать, например, его функцией распределения F ,построим по выборке «приближение» для этой функции.~ = (X1 , . . . , Xn )Определение 1. Эмпирической функцией распределения, построенной по выборке Xобъема n называется случайная функция Fn∗ : R × Ω → [0, 1], при каждом y ∈ R равнаяnFn∗ (y) =количество Xi ∈ (−∞, y)1X=I(Xi < y).nn i=1Напоминание: функцияI(Xi < y) =1,0,если Xi < y,иначеназывается индикатором события {Xi < y}. Это — случайная величина, имеющая распределение Бернулли с параметром p = P(Xi < y) = F (y) (почему?).Если элементы выборки X1 , .
. . , Xn упорядочить по возрастанию (на каждом элементарном исходе),получится новый набор случайных величин, называемый вариационным рядом:X(1) 6 X(2) 6 . . . 6 X(n−1) 6 X(n) .Здесь X(1) = min{X1 , . . . , Xn }, X(n) = max{X1 , . . . , Xn }. Элемент X(k) , k = 1, . . . , n, называется k-мчленом вариационного ряда или k-й порядковой статистикой.~ = (0; 2; 1; 2,6; 3,1; 4,6; 1; 4,6; 6; 2,6; 6; 7; 9; 9; 2,6).Пример 1.
Выборка, n = 15: XВариационный ряд: (0; 1; 1; 2; 2,6; 2,6; 2,6; 3,1; 4,6; 4,6; 6; 6; 7; 9; 9).Эмпирическая функция распределения имеет скачки в точках выборки, величина скачка в точке Xi равнаm/n, где m — количество элементов выборки, совпадающих с Xi .Fn∗ (y)610123456789y10Рис. 1: Пример 1Можно изобразить эмпирическую функцию распределения так:0, y 6 X(1) ,k∗Fn (y) =, X(k) < y 6 X(k+1) ,n1, y > X(n) .Другой характеристикой распределения является таблица (для дискретных распределений) или плотность (для абсолютно непрерывных). Эмпирическим, или выборочным аналогом таблицы или плотностиявляется так называемая гистограмма.Гистограмма строится по группированным данным.
Предполагаемую область значений случайнойвеличины ξ (или область выборочных данных) делят независимо от выборки на некоторое количество2интервалов (чаще — одинаковых, но не обязательно). Пусть A1 , . . . , Ak — интервалы группировки. Обозначим для j = 1, . . . , k через νj число элементов выборки, попавших в интервал Aj :νj = {число Xi ∈ Aj } =nXI(Xi ∈ Aj ).(1)i=1На каждом из интервалов Aj строят прямоугольник, площадь которого пропорциональна νj . Общаяплощадь всех прямоугольников должна равняться единице. Пусть lj — длина интервала Aj . Высотапрямоугольника над Aj равнаkXνj, здесьνj = n.fj =nljj=1Полученная фигура называется гистограммой.Пример 2. Имеется вариационный ряд (см. 1):(0; 1; 1; 2; 2,6; 2,6; 2,6; 3,1; 4,6; 4,6; 6; 6; 7; 9; 9).Разобьем отрезок [0, 10] на 4 равных отрезка.
В отрезок A1 = [0; 2,5) попали 4 элемента выборки, вA2 = [2,5; 5) — 6, в A3 = [5; 7,5) — 3, и в отрезок A4 = [7,5; 10] попали 2 элемента выборки. Строимгистограмму (слева). Справа — тоже гистограмма для той же выборки, но при разбиении области на 5равных отрезков.668/750.10123456789 10y0123456789 10yРис. 2: Пример 2Замечание 1.
Как утверждается в курсе «Эконометрия», наилучшим числом интервалов группировки («формула Стерджесса») являетсяk = k(n) = 1 + [3.322 lg n] .Здесь lg n — десятичный логарифм, поэтому k = 1 + log2 10 log10 n = 1 + log2 n, т.е. при увеличениивыборки в 2 раза число интервалов группировки увеличивается на 1.Заметим, что чем больше интервалов группировки, тем лучше. Но это «чем больше» имеет свои границы: если брать число интервалов, скажем, порядка n, то с ростом n гистограмма, очевидно, не будетпоточечно приближаться к плотности.Справедливо следующее утверждение: если плотность распределения элементов выборки является непрерывной функцией, то при k(n) → ∞, так что k(n)/n → 0, имеет место поточечнаясходимость по вероятности гистограммы к плотности (см.
замечание 1).1.4 Эмпирические моментыЗнание моментов распределения также многое может сказать о его виде и свойствах. Введем эмпирические (выборочные) аналоги неизвестных теоретических (истинных) моментов распределения.Пусть Eξ = EX1 = a, Dξ = DX1 = σ 2 , Eξ k = EX1k = mk — теоретические среднее, дисперсия, k-ймомент. Хорошо известны их выборочные «двойники»:3Теоретические характеристикиEξ = EX1 = aDξ = DX1 = σ 2Eξ k = EX1k = mkЭмпирические характеристикиn1XX=Xi —n i=1выборочное среднееn1X∗σ2 =(Xi − X)2 —n i=1выборочная дисперсияилиn1 X2S0 =(Xi − X)2 —n − 1 i=1несмещенная выборочная дисперсияn1X kXk =X —n i=1 iвыборочный k-й моментКоротко определить содержание правого и левого столбцов таблицы можно так: неизвестное «среднеепо пространству» заменяется «средним по времени» (цитата, группа 476).1.5Сходимость эмпирических характеристик к теоретическимМы ввели три вида эмпирических характеристик, предназначенных для замены (оценивания) неизвестных теоретических характеристик распределения: эмпирическую функцию распределения, гистограмму,выборочные моменты.
Понятно, что любое приближение хорошо, если с ростом объема выборки разницамежду истинной характеристикой и выборочной стремится к нулю. Такое свойство эмпирических характеристик («оценок») называют состоятельностью. Убедимся, что наши выборочные характеристикитаким свойством обладают.Свойства эмпирической функции распределения~ = (X1 , . . . , Xn ) — выборка объема n из неизвестного распределения F сТеорема 1. Пусть Xфункцией распределения F . Пусть Fn∗ — эмпирическая функция распределения, построенная поэтой выборке.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.