Диссертация (1151153), страница 21
Текст из файла (страница 21)
Во-первых, имеет место малая выборка. Вданном случае порядка 20 наблюдений. Поэтому практически невозможноприменить для сглаживания скользящее среднее, а прогнозы и их доверительныеинтервалы нужно использовать очень аккуратно. Во-вторых, кубический сплайнобеспечивает достаточную степень гладкости (непрерывная вторая производная)при использовании небольшого объема данных.
В-третьих, сетка по моментамважных социально-экономических событий позволяет учитывать последнюютенденцию. Это важно при экстраполяции, т.к. сплайны сами по себе дают неочень хороший прогноз.Использование демографических методов когортного анализа (по методуфиктивного поколения) подразумевает, что из имеющейся информации нужнополучить данные, характеризующие определенную когорту лиц. Например,женщин репродуктивного возраста или мужчин пенсионного возраста.Использование стресс-тестов необходимо для понимания возможнойреакции модели на выброс и выбора оптимальной модели, в случае если моделейслишком много. В нашем случае моделей немного. Но с накоплением данных ихнабор будет расширяться.Использование метода Монте-Карло (и как его частной разновидности –метода Бутстрэп) требует определение числа итераций.
Например, для построениядоверительного интервала методом Бутстрэп рекомендуется использовать неменее 1000 реплик.Для прогноза общего коэффициента смертности на год вперед ключевымявляется метод экспоненциального сглаживания, т.к. смертность в меньшейстепени подвержена внешним воздействиям. Например, при повышении уровняжизни после кризиса рождаемость, как правило, растет, поскольку женщиныпринимаютрешениеродитьвмоментулучшениясвоегосоциально-120экономического положения.
Потом рождаемость, как правило, идет на убыль,поскольку отложенные рожденияисчерпываются.Смертностьженоситслучайный характер и учитывает накопленные повреждения организма, поэтомуболее инертна.Для анализа возможного распределения числа смертей и рождений втечение года используется моделирование процессов Пуассона.
Их применениелогично, поскольку и рождение, и смерть являются достаточно редкимисобытиями. Число наблюдений (численность населения региона) достаточновелико, а смерть (рождение) двух отдельных людей, как правило, независимы.Схема алгоритма принятия решений представлена на рис. 26Прогнозысоциальноэкономическогоразвития, новости1. Прогнозрождаемости,смертности иструктурынаселения регионаДемографическаястатистика региона иРФ (Росстат)Порядокназначения МСП(НПД)Данные социальнойстатистики (ЭСРН)ХарактеризацияМСП и ЛК,порядка выплатОценка запаздыванияи доли обратившихсяза МСП для ЛК2. Прогнозструктуры ЛК3. Прогноз денежнойпотребностиВыбор методови калибровкапараметровОбоснование денежнойпотребности: вариантыпрогнозов, графики,доверительныеинтервалыРисунок 26 – Алгоритм поддержки принятия решенийДвумерная временная структура данных.
Информационные системытипа «Социальный регистр населения» [110] (далее ИС ЭСРН – электронныйсоциальный регистр населения), изначально предназначенные дляучетальготников, все более и более интегрируются в общую систему государственнойсоциальной политики. В то же время к ним растут требования со стороны их121первичного предназначения – обеспечения наиболее полной информации дляпринятия решений о назначении социальной помощи и социальных услуг.Эти два процесса в значительной мере связаны между собой: для того,чтобы обеспечить планирование бюджетного процесса в сфере социальногообеспечения населения, также нужно построить структуру сбора и храненияинформации таким образом, чтобы из нее можно было получить статистическиеданные в любом требуемом разрезе.Один из важных аспектов решения проблемы развития ИС ЭСРН в этомнаправлении – классификация данных, учитывающая потребности всех групппотребителей информации.
Среди них:группа операторов ИС ЭСРН (специалисты по приему граждан,назначению мер социальной поддержки и выплате пособий),группа по контролю (специалисты контролирующих органов),группа по анализу и планированию (специалисты по социальнойстатистике, специалисты законодательных органов).К данным ИС ЭСРН предъявляются следующие требования:обеспечениеактуальности,полнотыинеизбыточностиинформации, требуемой для принятия решений о социальном обеспеченииграждан на всех уровнях управления;историчностьданных,возможностьвосстановленияинформации о прошлых состояниях целевых объектов;быстрый и удобный доступ к данным, требуемым для принятиярешений, контроля, анализа и прогнозирования;универсальностьструктурыданных,возможностьцентрализованной обработки информации из разных локальных баз данных;объектовадаптивность, возможность добавления новых характеристикпредметнойобластиспараллельнымсохранениемпредшествующих им данных.В виду всего сказанного выше, немаловажной является задача делениявходных данных на вариативные и не вариативные, определения степени122вариативности и отражения результатов анализа в физической структуре данных.Часто эту задачу не удается свести к анализу актуального законодательства,актуальных форм отчетности и документооборота.
Нужен ретроспективныйобзор, и, если есть возможность получения такой информации, например,консультация с органами законодательной власти, перспективы развитияанализируемых сущностей предметной области. Тем не менее, стандартнойреляционной модели обычно бывает достаточно для построения структурыданных, отвечающей требованиям, связанным с вариативностью данных.В рамках термина «вариативные данные» мы будем подразумевать данные,об объектах, меняющихся во времени. В западной литературе для описанияданной ситуации используется термин «temporal data» [92].
Буквально его можноперевести как «временные данные» (ударение на последний слог). Вариативныйхарактерданныхзаключаетсявтом,что,во-первых,меняютсясамихарактеристики объектов, а во-вторых, меняется представление пользователя оних.Исторически сложилось два подхода к отражению вариативного характера вструктуре данных: подход научного сообщества и подход IT-сообщества.Главным теоретиком первого подхода, предложившим временное расширения кстандарту SQL, является Ричард Снодграс.
Он предлагает вводить два измерениявремени, являющихся по сути периодами, ограниченными двумя датами – датойначала и датой окончания. Первый период характеризует промежуток времени, втечение которого объект имел определенные характеристики с точки зренияпользователя.
Второй период характеризует промежуток времени, в течениекоторого объект на самом деле имел такие характеристики. Например, льготникубыл назначен размер пособия 1000 рублей с января 2010 года по конец мая 2010года. А на самом деле с начала мая он имел право на получение пособия в размере1100 рублей. Таким образом, чтобы описать эту ситуацию, нам потребуетсяследующая структура данных (для простоты укажем только идентификаторразмера пособия, назначенного льготнику, размер пособия, даты периодов):123Таблица 2Пример применения двух измерений времени в структуре данныхIDSIZEDB1DE1DB2DE21100001.01.201030.04.201001.01.201031.12.99991100001.05.201031.05.201001.05.201031.05.20101110001.05.201031.05.201001.06.201031.12.9999Для сохранения возможности однозначной идентификации строк атрибутыпериодов времени также включаются в первичный ключ отношения.
При этом втаблице может содержаться несколько версий объекта за разные периоды инесколько вариантов представлений о правильности этих данных. При помощидополнительных запросов из этой структуры можно получить сведения, какойразмер льготы был назначен фактически, каким он должен был быть и за какиепериоды. Датой DE2 = 31.12.9999 в первой строке обозначен факт того, чтопользователь до сих пор уверен в том, что льготнику в период с DB1 по DE1 былназначен верный размер пособия 1000 рублей. Третья строка являетсяисправлением второй, причем факт того, что пользователь был в заблуждениинасчет размера пособия 1000 рублей с 01.05.2010 по 31.05.2010 (DB1 и DE1)определен тем, что при одинаковых значениях DB1 и DE1, период исправленныхданных закрыт, а строка с исправлением имеет открытую дату.Не будем останавливаться на принципах реализации и локализации этихзапросов и обеспечении непротиворечивости данных.
Об этом подробнее в [91]. Видеальном варианте процесс добавления этих двух периодов должен быть скрытот пользователя и может осуществляться средствами либо системы управлениябазами данных (если временное расширение к стандарту SQL будет все-такипринято),либопутемобращенияинтерфейсаприкладныхпрограммксамостоятельно разработанному фреймворку, обрабатывающему такие обращенияи передающему адаптированные запросы системе управления базами данных.124Второй подход – подход практический, как правило, применяемыйадминистраторами баз данных при поступлении запроса от пользователей онеобходимости изменить те или иные объекты. Так же вводится период времени,в течение которого объект соответствовал характеристикам, хранимым в базеданных. Далее вместо периода используется момент времени, в который этихарактеристики были внесены в систему.Том Джонсон и Рэндэл Вэйс противопоставляют эти два подхода [91],причем более прогрессивным считается научный подход.
С точки зрениятребований, предъявляемых к ИС ЭСРН, эти подходы можно совместить:использовать два измерения времени для поддержки историчности данных, амомент создания и/или изменения данных – в целях контроля со стороны ITперсонала.Для того чтобы соблюсти требования неизбыточности данных, для каждойсущности предметной области нужно ответить на ряд вопросов.1.Меняются ли характеристики ее объектов с течением времени иесли да, то нужно ли хранить эти изменения в базе данных.2.Еслида,товводимпериодвремени,отвечающий,засоответствие характеристик объекта хранимой информации и переходим квопросу, нужно ли хранить информацию о фактическом представлениипользователя о характеристиках объекта.3.Если да, то вводим второй временной период, и решаем, нужноли нам отслеживать моменты заведения информации в системе и еемодификации.
Если да, то заносим атрибуты для фиксации этих моментоввремени.Естественно, введения двух измерений времени недостаточно, чтобырешить проблему адаптации системы при таких изменениях законодательства,которые подразумевают изменение системы сущностей предметной области исвязей между ними. Тем не менее, грамотное использование двух временныхизмерений вместе с некоторыми другими атрибутами, характеризующими времяопераций над объектом, может помочь в решении задач, которые при125использовании статичной реляционной структуры решаются либо путем сверкиданных в отстоящих друг от друга по времени версиях баз, либо восстановлениемданных по журналам транзакций.126ЗАКЛЮЧЕНИЕВ результате проведенного диссертационного исследования: обоснованаактуальностьвыбраннойтемы,обусловленнаяеетеоретической и практической значимостью; построены модели процессов рождаемости и смертности на основемодели неоднородного пуассоновского процесса; выбраны методы прогнозирования показателей рождаемости исмертности; сформулированыалгоритмымоделированиядемографическихпроцессов по месяцам прогнозного года; даны рекомендации по использованию предложенных алгоритмов вцелях прогнозирования объемов социальных выплат; представленрезультатпрактическогорасчетанаосновепредложенных алгоритмов и рекомендаций, в значительной мересоответствующийрезультатамфактическойвыплатызапрогнозируемый месяц.В процессе исследования было обнаружено отсутствие современныхметодовпрогнозированиярождаемости,объясняющеесябольшойнепредсказуемостью данного демографического процесса и невозможностьюиспользования аналогий как в историческом, так и в территориальном смысле.Тем не менее, имеется объективная потребность прогнозирования показателярождаемости в целях государственного социально-экономического планирования.Предложенныйвработеметодсплайн-аппроксимациинепротиворечитуказанным особенностям процесса рождаемости, а также учитывает инертностьреакции на социально-экономические события: постепенное снижение числарождений при ухудшении внешних условий и постепенное увеличение приулучшении, а также постепенное затухание и даже изменение тенденции принеизменных условиях (за счет исчерпания числа отложенных рождений).Прогнозирование осуществляется на основе тенденции, сформировавшейся в127результате последнего значимого события.