korolev_matematicheskie_osnovy_teorii_ri ska (811435), страница 79
Текст из файла (страница 79)
. , Xn свойств независимости и совпадения распределений. В таком случае выборку можно интерпретироватькак n независимых реализаций одной и той же случайной величиныX. Если уверенности в наличии этих свойств нет, то сначала необходимо проверить однородность и независимость выборки так, как обэтом будет сказано в соответствующем разделе. Поскольку с формальной точки зрения анализ распределения интервалов времени междупоследовательными выплатами идентичен анализу распределения самих выплат, мы, если не оговорено противное, впредь будем иметь делотолько с размерами X1 , X2 , .
. . , Xn страховых выплат.11.1.2Непараметрическое оцениваниеДля визуализации данных необходимо построить непараметрическуюоценку распределений.В качестве такой оценки проще всего построить11.1.2. Непараметрическое оцениваниегистограмму, которая является оценкой функции плотности вероятностей f (x) рассматриваемого распределения. Гистограмма строится поформулеm1Xnj 1x ([L0 + (j − 1)h, L0 + jh)),fen (x) =n j=1где(√m=h=n,если n ≤ 200;c ln n, если n > 200,√10 2c=,ln 2 + 2 ln 10i1hmax xj − min xj ,1≤j≤nm 1≤j≤nL0 = min xj ,1≤j≤n1x (A) – индикаторная функция множества A, то есть(1x (A) =1, если x ∈ A;0, если x ∈/ A,nj – число элементов xi выборки, удовлетворяющих неравенствамL0 + (j − 1)h ≤ xi < L0 + jh.Если изучаемое распределение дискретно с целочисленными значениями, то строится частотная оценка видаfen (x) =m1Xnj 1x ([(j − 1)h, jh)),n j=1где m и h имеют тот же смысл, что и выше, а nj – число элементов xiвыборки, равных j.При всей простоте, гистограмма имеет несколько существенныхнедостатков.
Во-первых, гистограмма не является в достаточной степени гладкой функцией. Во-вторых, гистограмма строится по сгруппированным данным, и стало быть, происходит потеря информациипри группировании, когда наблюдения, попавшие в один интервал[L0 + (j − 1)h, L0 + jh), фактически заменяются их средним значением.Идея построения более совершенных оценок плотности заключается в следующем. Если наблюдаемыми значениями выборки X =47547611. Статистика страховой деятельности(X1 , .
. . , Xn ) является набор x = (x1 , . . . , xn ), то соответствующая реализация эмпирической функции распределенияFn (x) =nn1X1X1(−∞,x) (xj ) =Qj (x)n j=1n j=1является средним арифметическим функций(Qj (x) =0, если x ≤ xj ,1, если x > xj .Каждая функция Qj (x) представляет собой вырожденную функциюраспределения, соответствующую случайной величине, с вероятностьюединица принимающей значение xj . Теперь ясно, что если вместо функций Qj (x) взять какие-нибудь гладкие (непрерывные) функции распределения Gj (x), то соответствующая оценка для функции распределения F (x) также станет гладкой.
На практике в качестве Gj (x) берутфункции вида Gj (x) = G(x − Xj )/an ), где G(x) – некоторая фиксированная функция распределения, а an > 0 – так называемый параметргладкости, выбор которого является прерогативой исследователя, такчто получается приближенная формулаn³x − X ´1XjF (x) ≈G.n j=1an(11.1.1)Легко убедиться, что если при этом функции Rраспределения G(x) соxответствует плотность g(x), то есть G(x) = −∞g(x)dx, то функциираспределения, стоящей в правой части формулы (11.1.1) соответствует плотностьn³x − X ´1 Xjfn (x) =g.(11.1.2)nan j=1anФункция fn (x) представляет собой оценку для неизвестной плотностиp(x). Оценки типа (11.1.2) называются ядерными, а соответствующаяплотность g(x) называется ядром.При использовании ядерных оценок плотности главными проблемами являются выбор ядра и выбор параметра гладкости.
Как правило,используются ядра, удовлетворяющие условиямZ ∞−∞g(x)dx = 1,Z ∞−∞xg(x)dx = 0,Z ∞−∞x2 g(x)dx = 1.Первое из этих условий вытекает из требования, чтобы функция g(x)была плотностью распределения, второе условие означает, что случайная величина с плотностью распределения g(x) имеет нулевое математическое ожидание, а третье условие означает, что дисперсия этой11.1.3. Параметрическое оцениваниеслучайной величины равна единице. Чаще всего в качестве g(x) используются равномерная плотность g(x) = 1[−√3,√3] (x) (в этом случаеполучается непрерывная оценка для функции распределения F (x), ноступенчатая оценка для плотности f (x)) или стандартная нормальнаяплотность g(x) = φ(x). Некоторые исследователи отмечают, что хорошие, наглядные результаты дает применение квадратичного ядраg(x) =0при x < −2.5,576x2144+−390625 156250при −2.5 ≤ x ≤ 2.5,при x > 2.5.При малых значениях параметра гладкости an ядерная оценка имеетмного довольно часто расположенных острых зубцов.
При увеличениипараметра an ядерная оценка становится все более и более гладкой.При этом в качестве окончательного значения выбирается то, при котором вид ядерной оценки плотности в наибольшей степени устраивает исследователя. Другими словами, выбор параметра сглаживания напрактике – это в бо́льшей степени искусство или шаманство, нежелиматематика.11.1.3Параметрическое оцениваниеЗадача параметрического оценивания заключается в том, чтобы длякаждого из фиксированного набора (банка) распределений, наиболеечасто употребляемых для описания размера страховой выплаты илипериода времени между последовательными выплатами, найти приближенные значения соответствующих параметров, более всего соответствующих выборке.Перед тем как описать каждое из распределений, влюченных в банк,и привести формулы, определяющие статистические оценки их параметров, обсудим некоторые общие понятия и методы статистическогооценивания.Пусть x1 , x2 , .
. . , xn – выборка, представляющая собой n реализацийслучайной величины X. Предположим, что распределение случайнойвеличины задано с точностью до неизвестного параметра θ (которыйможет быть многомерным: θ = (θ1 , . . . , θr )). Функцию распределенияслучайной величины X будем обозначать F (x; θ). По определению,F (x; θ) = P(X < x),x ∈ IR;строго говоря, в последнем соотношении вероятность P зависит отпараметра θ. Символом f (x; θ) будем обозначать плотность вероятностей случайной величины X, если последняя является абсолютно47747811. Статистика страховой деятельностинепрерывной. Напомним, что плотность – это такая функция, что длялюбого x ∈ IRxZF (x; θ) =f (x; θ)dx.−∞Тем же самым символом f (x; θ) мы будем обозначать и функцию частоты дискретной случайной величины X, то есть такую функцию,что P(X = x) = f (x; θ), где x принадлежит множеству возможныхзначений случайной величины X.Оценкой параметра θ называется функция от выборки, принимающая значения в множестве возможных значений параметра θ.Среди всевозможных функций от выборки разумно иметь делотолько с такими функциямиbθb = θ(x1 , .
. . , xn ),для которых справедливо приближенное равенствоbθ(x1 , . . . , xn ) ≈ θ.Смысл символа ≈ раскрывается в следующих определениях.bБудем говорить, что оценка θb = θ(x1 , . . . , xn ) является несмещеннойоценкой параметра θ, еслиbEθ θ(X1 , . . . , Xn ) ≡ θ.(11.1.3)Здесь символ математического ожидания снабжен индексом θ, чтобыподчеркнуть зависимость распределения каждой из случайных величин X1 , . . . , Xn от параметра θ.
Свойство несмещенности означает, чтоb вычисленные по разным выборкам, должны групзначения оценки θ,пироваться вокруг истинного значения параметра θ.bБудем говорить, что оценка θb = θ(x1 , . . . , xn ) является состоятельной оценкой параметра θ, еслиblim Pθ (|θ(x1 , . . . , xn ) − θ| < ²) = 1n→∞(11.1.4)при любом ² > 0 и всех возможных значениях θ. Символ вероятности в(11.1.4) снабжен индексом θ по уже оговоренным причинам. Свойствосостоятельности означает, что по мере увеличения объема выборки nточность приближения параметра θ с помощью оценки θb возрастает.bТочность оценки θ(x1 , .
. . , xn ) может характеризовать функция риска, например, вида2bSθb(θ) = Eθ (θ(x1 , . . . , xn ) − θ) .11.1.3. Параметрическое оценивание479bПри этом, если оценка θ(x1 , . . . , xn ) является несмещенной, тоbSθb(θ) = Dθ θ(x1 , . . . , xn ).Предпочтительнее пользоваться той оценкой, которая имеет меньшийриск. При фиксированном объеме выборки функции риска нетривиальных оценок ограничены снизу одной и той же величиной.bБудем говорить, что оценка θ(x1 , .
. . , xn ) является оптимальной,eесли для любой другой оценки θ(x1 , . . . , xn ) выполняется неравенствоSθb(θ) ≤ Sθe(θ)при всех возможных значениях параметра θ.Наиболее распространенными методами построения оценок (то естьфункций от выборки) являются метод моментов и метод максимального правдоподобия. Опишем сначала метод моментов. Предположим,что θ = (θ1 , . . . θr ). Поскольку распределение F (x; θ зависит от θ, от θ,вообще говоря, также будет зависеть и Eθ X k – теоретический моментслучайной величины X порядка k (если он существует) – при каждомцелом k ≥ 1. Обозначимµk (θ1 , .