Диссертация (1151153), страница 17
Текст из файла (страница 17)
Семейство возможных вероятностных моделей – это неоднородные повремени пуассоновские процессы. Неопределенность вероятностной моделизаключается в том, что нам не известна конфигурация траектории накопленной помесяцам интенсивности процесса ((1/ 12); 1/ 12), ((2 / 12); 2 / 12),, ((1); 1) .Мы основываемся на понятии случайного процесса как функции от двухпеременных – случая (элемента множества случайных событий) и времениt R : (t ) (t, ) . При фиксированном случае получаем некоторую функцию отвремени (траекторию). При фиксированном моменте времени – случайнуювеличину. Мы рассматриваем траекторию накопленной по месяцам одного годаинтенсивности как реализацию случайного процесса при фиксированном случае.91На основе имеющихся 22 траекторий, образующих случайную выборкуоцениваемой вероятностной модели, строим оценку конфигурации накопленнойинтенсивности (ˆ (1 / 12); 1 / 12), (ˆ (2 / 12); 2 / 12),, (ˆ (1); 1) .
Накопленная на конец годаинтенсивность фиксируется на основе прогноза для годовых показателейинтенсивности. Бутстрэп-траектория строится при помощи стандартного методамоделированиянеоднородногопуассоновскогопроцесса.Наоснованииполученных траекторий строится коридор прогноза (Рис. 2, пунктир) путемвычисления процентилей (или размаха) наколенной интенсивности за каждыймесяц. Сходимость обеспечивается автоматически за счет использования моделинеоднородногопуассоновскогопроцесса,конфигурацией накопленной интенсивности.однозначноопределяемогоГЛАВА3.ПРИМЕНЕНИЕСОСТАВЛЕНИЯМЕТОДОВТРЕХВАРИАНТНОГОИАЛГОРИТМОВПРОГНОЗАДЛЯСОЦИАЛЬНО-ДЕМОГРАФИЧЕСКОЙ СТРУКТУРЫ НАСЕЛЕНИЯ РЕГИОНА3.1.
Анализ и прогнозирование рождаемостиРасчеты произведены для трех субъектов РФ: Вологодской области,Тюменской области и Кабардино-Балкарской республики. Регионы выбраны поразмеру валового регионального продукта на душу населения: близкого ксреднему, максимуму и минимуму по РФ, а также наличию необходимыхстатистических данных в базе Росстата.
Основные графики построены дляВологодской области. В качестве исходных данных использовано количествоноворожденных на 1000 женщин репродуктивного возраста за календарный год.Рассмотрим исходные данные (Рис. 4, графики для других регионовпредставлены в Приложении 2). На графике видно несколько «переломов»тенденции. Для перехода от абсолютных приращений к относительнымпроизведено логарифмирование.Рисунок 4 – Показатель числа новорожденных на 1000 женщин репродуктивноговозраста по годам, Вологодская область93Рисунок 5 – Логарифм числа новорожденных на 1000 женщин репродуктивноговозраста по годам, Вологодская областьСудя по графику, ряд не стационарен.
Используется предположение оналичии тенденции рождаемости. Методы сглаживания при помощи скользящегоокна и скользящего среднего при данной длине ряда не годятся. Тенденция явнонелинейная, поэтому для первого приближения использован полиномиальныйтренд. Также построены различные варианты сплайновой регрессии, как основноеобобщение и альтернатива полиномиальной регрессии.
Основное преимуществосплайновой регрессии – возможность выбора большего количества параметров взависимости от данных, а также возможность получения более точногоприближения при меньшей степени полинома.Аппроксимация сплайнами. Для аппроксимации тенденции рождаемостииспользован метод сплайновой регрессии на основе базисных сплайнов третьегопорядка. Для обоснования выбора внутренних узлов, соответствующих моментамреакциинаважныесоциально-экономическиесобытия,предварительнорассмотрены различные варианты сетки узлов.
В применяемой для расчетовфункции «bs()»6 пакета «R» по умолчанию для левого граничного узла6B-Spline Basis for Polynomial Splines.94используется граничное условие равенства нулю второй производной. Дляправого – условие отсутствия узла. Поскольку точной информации о поведениипроизводной аппроксимируемой функции в граничных узлах у нас нет, то такиеусловия приемлемы.Сплайн №1. Это кубический сплайн без внутренних узлов разбиения сграничными узлами в 1990 и 2010 годах. По сути, имеет место приближениеполиномом третьей степени.Сплайн №14.14Логарифм числа детей3.93.83.73.63.5201020082006200420022000199819961994199219903.4ГодРисунок 6 – Сплайн-аппроксимация кубическим полиномомМодель имеет значимые коэффициенты и близкую к нулюp -статистику.Рассмотрим другие варианты.Сплайн №2.
Задана одна точка разбиения, соответствующая 1999 году,когда рождаемость достигла своего минимума после пика кризиса 1998 года. Длядругого варианта задано число степеней свободы 4 (в этом случае использованаквантиль 50%, соответствующая 2000 году). Тонкий пунктир – сплайн с точкойразбиения по квантили, толстый пунктир – сплайн с точкой разбиения в 1999году. Как видно, добавление одной точки разбиения практически не улучшилоситуацию в плане среднеквадратичного отклонения, зато последнее наблюдениелучше легло на линию регрессии.95Сплайн №24.1Логарифм числа детей43.93.83.73.63.5201020082006200420022000199819961994199219903.4ГодРисунок 7 – Сплайн-аппроксимация кубическим полиномом с одним внутреннимузломСплайн №3.
Добавлены еще две точки разбиения по квантилям: 25%, 50%и 75%, им соответствуют 1995, 2000, 2005 годы, а также внутренние узлы пособытиям в 1993 (последствия либерализации цен), 1999 (последствия дефолта) и2007 (ввод материнского капитала) годах.Тонкий пунктир – сплайн с точками разбиения по квантили, толстыйпунктир – по событиям. Сумма квадратов ошибок: 0,0324 для сплайна,построенного по квантилям, и 0,0336 для сплайна, построенного по важнымсоциально-экономическим событиям.96Сплайн №34.1Логарифм числа детей43.93.83.73.63.5201020082006200420022000199819961994199219903.4ГодРисунок 8 – Сплайн-аппроксимация кубическим полиномом с тремявнутренними узламиДобавление новых узлов дает положительный эффект аппроксимации наконцах, но не уменьшает среднеквадратичное отклонение модели. Удалениевыброса (замена на среднее), связанного с кризисом 1998 года не даетзначительного эффекта на концах и влияет только на прохождение линии сплайнав средней части, что связано с наличием трех внутренних узлов.
Кроме того,таких же важных политических и экономических событий, как либерализация1992 года, кризис 1999 года и ввод материнского капитала в 2007 году (послепринятия самого закона в 2006 году) не прослеживается. Еще одной точкой могбы стать экономический кризис 2008 года, но нельзя добавить еще одинвнутренний узел, т.к.
будет недостаточно точек для построения сплайна.Отметим, что для республики Кабардино-Балкария удалось подобрать толькоодин внутренний узел, соответствующий моменту ввода материнского капитала.Рассмотрим аппроксимацию полиномами для обоснования выбора степениалгебраического многочлена, используемого в сплайн-аппроксимации.Аппроксимация полиномами. В нашем случае не имеет смыслапользоваться полиномами высоких степеней, т.к. ряд визуально стабилизируетсяпосле взятия первых двух разностей, а достаточную гладкость дает полином97третьейстепени.Такжепосмотрим,насколькобудетуменьшатьсясреднеквадратичное отклонение при увеличении порядка полинома. Начнемприближать данные полиномами, начиная с первой степени и выше. Выпишемсреднеквадратичное отклонение регрессии: 0,1776; 0,0713; 0,0323; 0,0321;0,0309… Оно стабилизируется начиная с полинома третьей степени.Анализ остатков аппроксимации кубическим сплайном по точкамсобытий. В качестве тренда используем сплайн с внутренними узлами,расположенными по событиям, так как он имеет под собой экономическоеобоснованиеВерификацияприпрочихвыбраннойнезначительномоделипоотличающихсяпоследнимхарактеристиках.двумточкамдаетудовлетворительный эффект по отклонениям: 1,5% для 2009 года и 2% для 2010.Верификация сплайновой модели для Кабардино-Балкарии дает отклонение,соответственно, в 6% и 9%, но, как мы увидим дальше, этот результат не так ужплох.
Для Тюменской области отклонение составило 1% и 2,2%. Рассмотримграфик остатков.Остатки Сплайна № 30.060.040.02201020082006200420022000199819961994-0.02199219900-0.04-0.06-0.08Рисунок 9 – График остатковПолученный ряд визуально стационарен. Можно было бы предположитьсезонную авторегрессию, если бы у нас было хотя бы три полных цикла. Попытки98построить модель АРПСС не дают приемлемого результата – ошибка оченьвелика, а прогноз мало отличается от среднего.Другие модели.