Диссертация (1151153), страница 16
Текст из файла (страница 16)
Весаa i определяются из статистических таблиц. Вычисляемая статистика имеет вид:nW( a i x ( i ) ) 2i 1n (xi 1.i x)(2.32)2Если p -статистика теста превышает уровень значимости , то гипотеза опринадлежности выборки нормальному распределению не отвергается.4. Прогнозируемый показатель накопленной за год интенсивности (1)человек на 1000 человек населения с целью наилучшего согласия сраспределением Пуассона приводится к другой единице масштаба по считающеймере народонаселения:Nтысяч человек. При этом интенсивность (1)пересчитывается в интенсивность ˆ (1) N (1) человек на N тысяч человек за год.Критическое событие (скачок) пуассоновского процесса реализуется принакоплении M численност ь населения региона, человек элементарных критическихN 1000событий (единичных рождений при прогнозировании рождаемости, либо смертейпри прогнозировании смертности).5.
Для построения моделей АРПСС используется подход Бокса-Дженкинса(Box,Jenkins,1976):определяетсяпорядокинтегрированностиряда;осуществляется выбор порядка модели при помощи графиков выборочныхавтокорреляционной (ACF) и частичной автокорреляционной функций (PACF);ценивается модель и проверяется адекватности модели путем:•оценки параметров и вычисление остатков,•проверки соответствия модели исходным данным.6.
Для выбора спецификации модели АРПСС ( p, d , q)используетсяинформационный критерий Акаике AIC ( p q) / 2 ln( ESS / n) , где ESS – суммаквадратов остатков. Чем меньше значение информационного критерия, тем лучшеспецификация модели.862.4. Учет особенностей выборок малого объемаДанные ежегодной демографической статистики рождаемости и смертностипо РФ и регионам публикуются Росстатом в ЦБСД начиная с 1990 года сдвухгодовым запаздыванием. Таким образом, к началу 2013 года имеютсявыборки из 22-х наблюдений.С точки зрения возможностей применения тех или иных методовстатистики такое количество наблюдений соответствует выборке малого объема.Выборке большого объема соответствует около 100 наблюдений, среднего –около 30-ти, малого – менее 30-ти, 6 наблюдений – для распознавания образов.Например, для дисперсии выборочного математического ожидания, при переходеот 20 наблюдений к 30 точность оценки среднего должна повыситься примерно на18%, а к 100 – примерно на 55%.
В нашем случае речь идет о построениипрогнозов на основе специально подобранных в соответствии со свойствамидемографическихпроцессовмоделей.Неточностьпрогнозаопределяетсяследующими факторами: будущее значение само по себе является случайной величиной, возможна ошибка спецификации модели, возможно непредсказуемое изменение окружающей среды.Методыпостроениядоверительныхинтерваловпрогнозовдемографических процессов региона. Для учета возможной неопределенностиокружающей среды и разработки отдельных сценариев для разных ее состоянийлучше использовать интервальный прогноз. Интервальный прогноз, как правило,строится для лучшей (с точки зрения аппроксимации данных) спецификациимодели с использованием гипотезы нормальности (либо другого распределения)остатков. Интервальный прогноз состоит из верхней и нижней границы, междукоторымиожидаетсяобнаружитьбудущеезначениесопределеннойвероятностью.
Теоретические интервалы прогноза существуют для АРПСС,экспоненциального сглаживания, регрессий и структурных моделей. Схематичноинтервальный прогноз можно представить следующим образом. Пусть имеется n87наблюдений временного ряда: x1 , x2 , , xn . Обозначимhгоризонт прогноза, апрогноз на h шагов вперед, основанный на данных вплоть до момента n какxˆ n (h) .
Когда становится доступно реальное значение x n h , можно вычислитьошибкупрогнозаen (h) xnh xˆ n (h) .Доверительныйинтервалпрогнозапредставляется в виде xˆn (h) z / 2 D(en (h)) , где z / 2 – двусторонняя квантильраспределения ошибок прогноза.Для построении доверительного интервала прогноза сформулированы [69]следующие рекомендации: Допустимо использовать квантили нормального распределения,предварительно убедившись в отсутствии автокорреляции остатков иих примерной нормальности. Для работы с тяжелыми хвостам можно использовать меньшиеквантили нормального распределения. Можно использовать другиепараметрические законы распределения остатков. Для работы с более тяжелыми хвостами – t -распределение Стьюдентаи вычислительные методы (имитация, перемешивание). Больше всего на ошибку прогноза влияет выбор спецификациимодели (оценка параметров влияет порядка 1 / n , где n – количествонаблюдений).
Не всегда большие остатки говорят о худшей модели.Полезно использовать не одну, а несколько моделей. Более простая модель с большими остатками лучше более сложнойиз-за возможности переподгонки.В работе используются следующие подходы для построения интерваловпрогноза накопленной интенсивности демографических процессов.1) Доверительные интервалы прогноза, основанные на квантилях t распределения Стьюдента, задаваемого случайной величиной:tY0n1 / n Yi 2i 1,(2.33)88где Y0 , Y1 , , Yn – независимые стандартные нормальные случайные величины, n –число степеней свободы.В случае выборок малого объема для данных демографической статистикиРФ гипотезу нормальности остатков проверить практически невозможно, аиспользование квантилей нормального распределения в таком случае дастслишкомузкийкоридорпрогнозагодовыхпоказателейнакопленнойинтенсивности.
По этой причине мы используем распределение Стьюдента дляпостроениядоверительныхинтерваловпрогнозамоделейАРПСС,экспоненциального сглаживания и регрессионного сплайна.2) Использование методологии бутстрэпа для определения диапазонатраекторий накопленной по месяцам интенсивности демографических процессов.Бутстрэп (англ. Bootstrap) – компьютерный метод оценки статистическойпогрешности [84]. Меры статистической погрешности – это дисперсия, смещение,ошибка прогноза. В его основе лежит использование метода Монте-Карло.Рассмотрим простейший случай. Пусть имеется случайная выборканезависимых одинаково распределенных случайных величин из неизвестногораспределения вероятностейFна вещественной прямой:X 1 , X 2 , , X n ~ iid F .Наблюдаем одну из ее реализаций X 1 x1 , X 2 x2 , , X n xn как y ( x1 , x2 , , xn ) .Обозначим неизвестный параметр, оцениваемый по выборке, как (F ) , а еговыборочную оценку как ˆ ˆ( y) .
Нужно оценить стандартное отклонениестатистики ˆ как функцию от неизвестного распределенияF : ( F ) [VarF {ˆ( y)}]1 / 2 .Стандартное отклонение (F ) зависит также от объема выборки n и от формыстатистики ˆ( y) . Бутстрэп-оценка стандартного отклонения (F ) – это ˆ ( Fˆ ) ,где F̂ – эмпирическое распределение такое, что для каждого xi , i 1, 2, , nустанавливаетсявероятность1/ n .Вомногихслучаях,например,длякоэффициента корреляции, невозможно представить (F ) в простом виде.
Эфронпредлагает следующий алгоритм оценки ˆ ( Fˆ ) методом Монте-Карло [84]:1. Обозначим выборку с возвратом объема n из начальной выборки{x1 , x2 , , xn } как y * ( x1* , x2 * , , xn * ) . Это бутстрэп-выборка. Осуществим89независимыйвыборбольшогоколичестватакихBвыборок:y * (1), y * (2), , y * ( B) .2. Длякаждойˆ* (b) ˆ( y * (b)),бутстрэп-выборкирассчитываемстатистикуb 1, 2, , B .3.
Рассчитываем выборочное стандартное отклонение для ˆ * (b) : B {ˆ * (b) ˆ * ()}2ˆ B b 1B 11/ 2,ˆ * () Bˆ * (b)b 1B.(2.34)При B значение ˆ B стремится к ˆ ( Fˆ ) . В большинстве случаевдостаточноот50до200итераций.В дальнейшемпредполагаемихэквивалентность.Таким образом, бутстрэп-оценкасоответствующимэмпирическимдля ( F , n, ˆ)аналогомпо сути является ( Fˆ , n, ˆ) .Такимобразом,используется информация из начальной выборки наблюдений с сохранениемсвойства сходимости бутстрэп-оценки ˆ к теоретическому значению (F ) .ПосколькуF̂являетсяправдоподобия дляF,непараметрическойто иˆоценкоймаксимальногоявляется непараметрическойоценкоймаксимального правдоподобия для (F ) .
Общий случай применения методабутстрэпа иллюстрирует Рис. 3. Принципиальный для метода переход оттеоретического распределения к эмпирическому обозначен фигурной стрелкой.90СемействовозможныхвероятностныхмоделейPИсследуемаявероятностнаямодельВыборкавероятностноймоделиPyОцененнаявероятностнаямодельВыборка изоцененнойвероятностноймоделиy*P̂БутстрэпоценкаИсследуемаяоценкаR( y * , Pˆ )R( y, P)Рисунок 3 – общая схема методологии бутстрэпаИдеяметодабутстрэпаиспользованадляразработкиалгоритмамоделирования распределения демографических (пуассоновских) событий помесяцам.