Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 30
Текст из файла (страница 30)
Так что «указать приближенные значенияпараметров» означает оценить их, указать оценки. Основой для этогодолжны служить только зарегистрированные во время экспериментазначения, которые приняли наблюдаемые случайные величины. Еслиx1 , . . . , xn — совокупность независимых одинаково распределенныхслучайных величин (выборка), закон распределения вероятностей кото"рых зависит от неизвестного параметра θ, то в качестве оценки могутвыступать функции от аргументов x1 , . . . , xn , скажем, t(x1 , . .
. , xn ).При этом надо, чтобыt(x1 , . . . , xn ) θ.(4.1)4.3.2. Выборка представляет собой простейшую, но далеко не единствен"ную модель случайных данных. Например, нам уже известна задача145сравнения двух выборок. В этой задаче мы можем использовать пред"положения (математическую модель), согласно которым законы рас"пределения этих выборок отличаются только сдвигом одного распреде"ления относительно другого. Если мы захотим проверить гипотезу отом, что этот сдвиг равен нулю, либо оценить величину сдвига, то этавеличина (неизвестная экспериментатору), будет выступать в данномслучае параметром модели. Задача оценивания параметров моделиявляется очень важной на практике.
В этой книге (гл. 6—8) мы будемрассматривать наиболее распространенные модели — регрессионные ифакторные. В каждой из них имеются несколько параметров модели,которые нужно оценить.Надо отметить, что даже точное знание значений параметров мо"дели не всегда позволяет идентифицировать закон случайности, т.е.
тораспределение вероятностей, которому подчиняются случайные наблю"дения. Например, знание величины смещения одной выборки относи"тельно другой не дает нам сведений о распределениях этих выборок. Вэтом отличие параметров модели от параметров распределения.4.4. …… … Вопросы оценки параметров статистических моделей будут рассмо"трены в следующих главах.
Здесь же мы обсудим подробнее методыоценивания параметров распределения по имеющейся выборке.В математической статистике есть много подходов, которые придаютвысказанному выше требованию (4.1) точную математическую форму.Ни один из них не может считаться универсальным или наилучшим.В зависимости от целей эти методы можно разделить на две группы.Первую группу составляют методы оценивания параметров по конечнойвыборке, вторую — методы оценивания по неограниченно растущейвыборке.
С практической точки зрения вторая группа подходов важнее,так как интуитивно понятно, что для получения сколько"либо надежныхвыводов о параметрах и характеристиках распределения, надо иметь до"статочно информации, т.е. проделать большое количество эксперимен"тов. Кроме того, с теоретической точки зрения вторая группа подходовпроще, так как при больших n исчезают многие проблемы, относящиесяк конечным выборкам. Основой для выводов в этом случае служит за"кон больших чисел — при больших n значения выборочных характери"стик распределения приближаются к неизвестным нам теоретическимзначениям этих характеристик.146Если посмотреть с этих позиций на теорему Чебышева, мы уви"дим, что она дает способ оценки по выборке теоретического значенияматематического ожидания, — его оценкой является среднее значениенаблюдений: x a.
Выведем аналогичный результат для дисперсиираспределения.Оценка дисперсии распределения. Пусть x1 , . . . , xn — совокуп"ность независимых реализаций случайной величины ξ. Согласно зако"ну больших чисел, для получения приближенного значения дисперсииDξ = M (ξ − M ξ)2 надо в определении дисперсии заменить теоретиче"скую функцию распределения F на ее выборочный аналог Fn . Иначеговоря, требуется заменить операцию математического ожидания Mусреднением по выборке. Сначала сделаем это по отношению к M ,стоящему внутри скобок. Вместо (ξ − M ξ)2 получим совокупность(x1 − x)2 ,(x2 − x)2 , . . .
,(xn − x)2 .Остается применить усреднение вместо внешнего. Получаемn символа M2(x−x).приближенное выражение для дисперсии: n1ii=1Докажем закон больших чисел для дисперсии. Нам надо показать, чтопри n → ∞n1 (xi − x)2 → Dξ.n i=12Для этого прежде преобразуем ni=1 (xi − x) следующим образом:n(xi − x)2 =i=1ni=1(xi − a)2 − 2(x − a)n(4.2)[(xi − a)2 − (x − a)]2 =i=1n(xi − a) + n(x − a)2 =i=1n(xi − a)2 − n(x − a)2 .i=1Поэтому левая часть соотношения (4.2) равнаn1 (xi − a)2 − (x − a)2 .n i=1(4.3)Так как x → a, второй член выражения (4.3) стремится при n → ∞ к нулю.Первый же член выражения (4.3) при n → ∞ сходится к M (ξ − a)2 , т.е. к Dξ,что и доказывает утверждение (4.2).n2Выражение n1i=1 (xi − x) можно назвать выборочной дисперсией(иногда говорят — дисперсия выборки).
Однако чаще вместо негоиспользуютn1 s2 =(xi − x)2 .n − 1 i=1147Понятно, что уменьшение n на 1 в знаменателе левой части (4.2) несказывается на предельном поведении этого выражения и s2 → Dξ приn → ∞. В то же самое время s2 обладает тем свойством, чтоM s2 = Dξпри любом n,(4.4)что считается достоинством. Говорят, что s2 является несмещеннойоценкой Dξ.Для доказательства (4.4) надо обратиться к (4.3) и учесть, что M (x −a)2 = Dx, так как M x = a.
Как отмечалось ранее, Dx = n1 Dξ, поэтомуnM i=1 (xi − x)2 = nDξ − Dξ = (n − 1)Dξ. Отсюда следует (4.4).Оценки параметров распределения. Пусть мы имеем выборку израспределения, принадлежащего некоторому параметрическому семей"ству F (θ), и хотим по выборке оценить неизвестные нам параметры θэтого распределения. Для этого часто используется следующий прием.Выбирают какую"либо характеристику распределения T (среднее, меди"ану, квантиль и т.д.), выражаемую через функцию распределения. Нопоскольку функция распределения F зависит от θ, то и значение харак"теристики T есть функция от неизвестного нам значения θ. Выбороч"ный аналог этой характеристики Tn на основании закона больших чиселбудет близок к ее теоретическому значению, если объем наблюденийдостаточно велик.
В связи с этим рассмотрим уравнение, правой частьюкоторого является теоретическое значение характеристики, а левой —ее выборочное значение: T (θ) = Tn . Если параметр θ одномерный,то разрешая подобное уравнение, получим оценку θ.
Если параметрθ многомерный (то есть параметров распределения несколько), то дляих нахождения выбираются несколько характеристик распределения исоставляется система из соответствующего количества уравнений.В качестве характеристик распределения часто используют моменты(метод моментов), реже — квантили (метод квантилей). Проследим задействием этих методов на примере оценивания по выборке параметровнормального распределения (оба параметра неизвестны).Метод моментов. Пусть X1 , . . .
, Xn — независимые случайныевеличины, распределенные по нормальному закону с параметрами a и σ 2(кратко — по закону N (a, σ 2 ). В качестве характеристик распределениябудем использовать первый и второй моменты (M ξ и M ξ 2 . Теорети"ческие значения этих характеристик равны a и σ 2 + a2 . Приравниваявыборочные моменты к их теоретическим аналогам, получим системууравнений относительно a и σ 2 :na = n1i=1 xi ,n222a + σ = n1i=1 xi .148Решение системы, т.е. моментные оценки a, σ 2 , обозначим через a∗ ,σ 2∗ . Легко видеть, чтоn1 a∗ = x,σ 2∗ =(xi − x)2 .n i=1Следует заметить, что если состоятельность — практически обязатель"ное свойство всех используемых на практике оценок (несостоятельные оцен"ки употребляются крайне редко), то свойство несмещенности является лишьжелательным.
Многие часто применяемые оценки свойством несмещенностине обладают.Заметим, что мы получили бы для a и σ 2 иные выражения, если быв качестве характеристик распределения взяли другие моменты (а непервый и второй, как в приведенном случае).Эффективность оценок. Прежде чем ставить вопрос о выборе наи"лучшей оценки, надо научиться сравнивать оценки между собой. Едино"го способа сравнения оценок не существует; приходится использоватьразличные подходы. Чаще всего в качестве критерия качества оценкиθn параметра θ выбирают малость величины M (θn − θ)2 , а наилучшейоценкой считают такую оценку, для которой эта величина минималь"на.
Более общий подход состоит в том, что вместо величины (θn − θ)2выбирают другую неотрицательную функцию «штрафа» W (θn , θ) за от"клонение θn от θ (иногда говорят, функцию потерь), и наилучшей оцен"кой считают такую, для которой математическое ожидание величиныштрафа M W (θn , θ) минимально.Оценки, для которых минимальна некоторой функции потерь, частоназывают оптимальными или эффективными. Не следует приписы"вать этим определениям какие"либо магические свойства, считая, чтотакие оценки заведомо лучше всех других. На самом деле оптимальныесвойства оценок получены при определенных предположениях, которыена практике могут и не выполняться или выполняться лишь прибли"женно. При этом свойства подобных оценок могут оказаться не стольхорошими.Метод квантилей.
Чтобы использовать метод квантилей, надо пре"жде решить, какими квантилями мы будем пользоваться. Для нормаль"ной выборки (и вообще для выборок, в которых параметрами служатсдвиг и масштаб) обычно используют медиану и квартили — верхнююи нижнюю.Случайную величину ξ, распределенную по закону N (a, σ 2 ), можнопредставить в виде ξ = a + ση, где η подчиняется N (0, 1).
Для стандарт"ного распределения N (0, 1) медиана равна 0, а нижняя и верхняя квар"тили равны ±Φ−1 (0.75) соответственно. Поэтому для N (a, σ 2 ) медианаравна a, квартили (верхняя, нижняя) равны a ± σΦ−1 (0.75).Видно, что σ равна половине разности верхней и нижней квартилейраспределения, деленной на Φ−1 (0.75).Обозначим через Qn (0.5) медиану выборки x1 , . .