Алгоритмы прогнозирования нестационарных временных рядов (1102322), страница 15
Текст из файла (страница 15)
Ф Если значение К(Т,г;Т) соответствует номерам Й некоторой ячейки, помещаем в нее индикатор «1». Ячейки, номерам которых нс отвечак>т значения функционала 1'(Т,г;г'), заполняем нулями, Совокупность ячеек для данного г или А образует полосу. В каждый момент времени г' Ь-ая полоса состоит, таким образом, из нулей и единиц, Значением Ь1 (Г') горизонтного ряда в Ь-ой полосе называется индекс (ячейки, следующей за ячейкой е наибольшим индексом, содержащей ноль, Если нулевая ячейка — последняя, то значение горизонтного ряда в этой полосе отсутствует.
Плопюсть у~ „(Т) представляет собой выборочную функцию распределения временного ряда Ь1 (Г'), построенную по выборке объема г -г, доставляющей исходному ряду условие ограничснной т-а-стационарности Если требуется, чтобы было выполнено условие полной т-а-стационарности (1.7), то процедуру формирования членов ряда Ьь (г') следует дополнить рассмотрением всех значений г' от 1 до т. именно, при каждом значении г' рассматриваются Ьу,(г',г'), которые определяктгся по вышеописанному алгоритму.
Затем находятся величины Ь1 (~') =гпахЬ1 (Г',г'). Определим интегральную функцию распределения Смысл функции (2.3) в том, что если вместо величины Я(г; е) нз (2.2), во многих случаях оказыва|ощсйея равной своему теоретическому максимуму 2г/к, взять некоторое меныпее значение Т „то с вероятностью Ч' а(Т ) будут выполнены условия соответственно ограниченной (1.6) или полной (1,7) т-а-стационарности. Аналогично проведенному рассмотрению, для каждой выборки объема Т не меньшего, чем 12/в1, существует максимальное значение горизонта сдвигов з(г, Т;в), такое, что прн всех г < з(г,Т;е) значения функционала г'(Т,т;г) не превосходят а.
Введем Я(Т;л) = ш1пз(/, Т;ь). (2.4) Функция о(Т„к) представляет эмпирическую оценку максимального горизонта прогноза, внутри которого распределсннс остается т-е-стационарным. Из доказательства предложения 2 следует, что если взять Я(Т;ь) =еТ/2, то любые г <лТ/2 являются допустимыми горизонтами прогноза с указанной точностью.
Пусть ру (г) представляет плопюсть функции распределения ряда з1/, Т;ь), т.е. вероятность того, что при фиксированном объеме выборки Т расстояние между двумя ВФР, сдвинутыми на интервал времени г, пе превосходит л. Эта величина строится по аналогичному алгоритму, как и для р,, (Т), только вместо ячеек на плоскости 1Тх Р"~ рассматриваются ячейки на плоскости 1гх1"~. Значением максимального пропюзпого горизонта зЯ) в Ь-ой полосе называется индекс / ячейки, предшествующей ячейке с наименьшим индексом, содержащей ноль. Если нулевая ячейка — первая, то значение ряда горизонта прогноза в этой полосе отсутствует.
Эта процедура позволяет определить вероятность с-близости ВФР исходного ряда для фиксированного объема выборки. Если требуется, чтобы было вь1полиено условие полной т-в-стационариости (1.7), то процедуру формирования членов ряда з~ . (г') следует дополнить рассмотрением всех значений Т' от Тдо 2т/к. Именно, прн каждом значении Т' рассматриваются юу,(/',Т'), которые определяются по тому же алгоритму в каждом слое Затемнаходятсявсличины з~ (Т)= ппп з/, (Т,Т'). т<т'<2т/е Как н выше в (2,3), определим интегральную функцию распределения Фт,к(г) = Х1рт,ей) Фт, М/2) =1.
/с=1 (2.5) Величина Фг е(г ) представляет собой вероятность того, что при всех Т' > Т и при всех г < г расстояние между ВФР не превосходит е. Поскольку эта вероятность имеет тот же самый смысл, что и вероятность (2.3), то справедливо следую»псе утверждение о двойспзенности между введенггыми интегральными функциями распределения: ч /Хре»)ложсение /. 3»гаче»гия интегральных 4»у»гкг/ий распределения рядов минимальных допусгпимых объемов выборки и максимальных допустимых горизонтов прогноза пои Введенные понятия позволяют окончательно сформулировать задачу об оптимизации объема выборки для прогнозирования временного ряда на заданный горизонт г с заданной точностью Б в смысле определения (1.4.3).
Поскольку для сстационарных рядов справедлива оценка (1 4 7) 6~ < о~ +в~, то оптимальный объем для прогнозирования на горизонт г при соблгодении условия т-е-стационар»гости ВФР определим сггедугощим образом. У Определение 5. Оптимальным объемом Т, для прогнозирования временного ряда х(») на горизонт г называется такой объем выборки Т, при котором ВОР этого ряда г-»."- стог»ионарна, причем в = 2г / Т, и значение суммы»г (Т) + е (Т), где гг есть оп»носи»пель»гая выборочная с)исперси»г ВФР, минимально.
в Чтобы пронести оптимизацию обьсма выборки для заданной точности е согласно определению 5, положим сначала 7;,, =2г/с. Рассмотрим зависимость эмпирической выборочной дисперсии от объема выборки, усредненной по промежутку времени, на котором распределение горизонтного ряда т-е-стационарно, Уменыпснис огпимального объема выборки играет принциплальнук> роль при прогнозировании, поскольку, как показывают примеры параграфа 2.4, выборочная дисперсия часто ведет себя немонотопно как функция объема выборки.
Простая оценка оптимального объема дается тогда формулой 71орг = ппгх(2Г/Б', агйгп!и гг(Т)). (2.б) Рассмотрим теперь сумму выборочной дисперсии и кв~грата ожидаемого расстояния между двумя ВФР, сдвинутыми на промежуток г. Может оказаться, что максимальных значений объемов выборки, равных 2г/в, среди значений /г(», г;е) весьма ыаяо, так что соответствуюгцая вероятность г/», е(2г/е) близка к нулю, Выберем тогда некоторое значение Т <2г/в.
Для пего функционал К(Т,г;») не превосходит и с 80 соблюдении г-в-стаг»ионар»госгпгг ВФР совпадают, если аргумент одной из фу»гкггггй не»гнется параметром другой: Ч'„~(Т) = Фг е (г). я вероятностью Ч'т, (Т ), определяемой формулой (2.3), Для выборок объемов от Т +1 до 2т/с функционал нормы может быть больше с. Этим увеличением неточности в близости двух ВФР можно пренебречь, если Т есть 1-с-квантиль распределения р, я(Т), т.е. такая величина, для которой Ч'т,с(Т ) =1-а* (2.7) У Теорема 3.
Пусть ВФР /Т(х,/) т-ь-стаиионарна. Тогда функционал Р(Т,т,"г), где Т есжь 1 — ь -кеаншмль Расп~жделейия ~//т с (Т) ес горизоншного Ряда, будеши е среднем опитчатьсл от функнионала ~'(Т, т;г) на величину о(с) . Доказательство. Выберем Т <2т/с, Для ного функционал Р(Т,т;/) не превосходит и с Т ч вероятностью, определяемой распределением Ч',, (Т ), где Ч', с(Т) = Г р, с(/г) . Пусть Т есть 1-с-квантиль распределения рт .(Т), т.е. Ч', (Т ) =1-с. В качестве объема выборки Т возьмем блиягайшее сверху целое число к решеник~ относительно Т этого уравнения, Тогда математическое ожидание функционала К(Т, т;/) будет не больше, чем МР'(Т,~; )1- '= ',.(Т ) —,(11- „, (Т )/=- ~(1+ —,— = + ( ).
(2, ) 2т У2ОР~ = шах~Т, агяпнпо(Т)1, Последнее равенство в (2.3) следуст из гого, что при с-+0 Т -+2т/а. Теорема 3 доказана. А Теорема 3 позволяет предложить метод определсния оптималыюго объема выборки для минимизации ошибки прогноза (1.4,7). Идея метода опирается на нарушение теоремы Гофдинга в нестационарном случае. Именно, во многих примерах временных рядов, возникающих на практике, выборочная дисперсия как функция объема выборки ие стабилизируется с ростом последней.
При этом дисперсия выборочной дисперсии пе стремится к нуюпо лри увеличении объема выборки, Такие ряды были рассмотрены автором в 160, 63, 641. В этом случае желательно брать выборку объема, при котором выполненги два условия: выборочная дисперсия имеет локаиьпый минимум и ВФР квазистациоп арпа. Таким образом, па оенове теоремы 3 получается уточненная оценка оптимального объема выборки при сохранении требования т-а-стационарностн ВФР: где Т определяется как решение уравнения (2.7).
Описанная методика определения оптимального объема выборки является пошаговой, т,е. ее нужно проводить в каждый момент времени, поскольку плотность распределения р„е(Т) в общем случае не является стационарной. Формула (2.9) представляет матемагнчсскую модель минимизации функционала совокупной ошибки прогноза (1.5.2) посредством оптимизации объема выборки, 1г Определение 6.
Временной ряд х(Е), длл которого отпимальиый объем выборки при прогнозировании па заданный промежуток времени г, яюиетсл квазиетационарньы~ (т.е. г-в-е~национарньт) временным рядом, будем называть устойчиво прогнозируемым рядом. А Из (2,1) и (2.2) следует, что в качестве максимальной оценки минимально допустимого объема выборки ХХ(г;е) можно взять 2г/в, т,е: при желании каждый временной ряд можно считать устойчиво прогнозирусмым в смысле определения 6, Оптимизация же прогноза заключается в том, что в некоторых случаях суммарная ошибка (1.5.7) может быть меныцс для меньших допустимых объемов выборки. Поэтому желательно, чтобы именно эти оптимальные выборки представляли собой квазнстациоиариую статистику. Развиваемая далее теория может применяться к различным временным рядам, но корректно обоснованной она является именно дня устойчиво прогнозируемых рядов, поскольку при прогнозировании распределения па я|обой промежугок, как превышающий границы квазистационарносгн, так и находящийся внутри них„необходимо быть уверенным в том„что объем выборки сохраняет свойство своей оптималыюсти.