Алгоритмы прогнозирования нестационарных временных рядов (1102322), страница 14
Текст из файла (страница 14)
норму в пространстве Хч, (1.4) М" Определение 2. Расстояниел» между двух»я ВФР г и Ь называется величина ~(»»)-))»(*,я-ь(*,ьЗ= 1»м)-»(,ь))а*. (1.5) В этом определении сравниваемые ВФР могут быль построены по выборкам разных обьсмов и)или быть отнесены к различньли моментам времени. Используя (1.5), можно определить вероятность того, что две ВФР, сдвинутые одна относительно другой на т шагов, интсгралыю отличаются нс более чем на заданную величину е. Соответствующий интегральный функционал обозначим через 1'(Т,г;х,с): Г(»тих»)»2(/~(~1~ ), уу (х»)) 1(ь(~» +т)--» (*,Я» < (1.6) Далее для краткости аргумент х в функционале 1'(Т,г;х,») будем опускать, если это не будет искажать смысл утверждений, и писать К(Т,т,»). Ъ» Определение 3.
ВФР ~т (х,») временного ряда х(») буде»и называть 0-»;-стационар»»ой на вре»)»е»»ном»»рол»ежутке О, если Чг;1< т < О, Ъ'г К(Т,т,г) < е. Если неравенство (1, 7~ при данно»и Т выполнено для одного нолкретного значения т, то распределение»»азываем ограниченно т-ь-стационар»»ылс Если неравенство» "(Т,т;») ~ в при данном Т выполняется для всех г >1, то распределение будем называть просто ~;- сн»ац»»опар»»ьт. А Определение 3 в форме (1.7) с практической точки зрения представляется более полезным, чем традиционно используемое определение стационарного распределения, согласно которому случайная величина х(1) прн всех т распределена одинаково с величиной х(г+г). Дело в том, что утверждение о стациопарности распределения является априорным, На практике жс приходится иметь дело с выборочными функциями распределения, которью„даже для стационарных процессов, удовлетворяют требованию стационарности лишь приближенно, а проверка этого условия предполагает определенную функциональную принадлежность рассматриваемых распределсний.
В этом смысле определение 3 эффективно не только для стационарнь»х, ио в первую очередь для нестационарпых рядов. Бстествснио, оно вк»почаст также и стационарный случай, поскольку тогда при увеличении объема выборки распределение будет стремизъся к своему теоретическому пределу, У Теорема 1. Если временной ряд х(~) станионарный то Че >0 ЗТ >1 такое, что ВФР ~у (х, ~) живется е-стаииоиарной. Доказательство этого утверждения прямо следует из теорем ь» Гл ивен ко, Действительно, тж, р~'~ -+ р, по вероятности, где обозначено р~' » =- и, Л', то выполнено условис »Уе > 0 Ж ЗТ,: 'в*Т > 'Г, ~р~㻠— р, ~ < и! Ф, которос надо понимать в вероятностном смыслс, т.е.
вероятность того, что р,."» -+ р, с увеличением объема выборки, стремится к 1, Обозначим Т = шах1Т, ~," . Тогда »~,. ~е>0 -»Т, ~Т>Т ~р~г» р~<в»(2А») ., ~>-~рог» р ~<в/2 Рассмотрим другую выборку того же объема, порождак»щую иное выборочное распределение вероятностей, но также сходяще»жя по вероятности к тому же самому распределению рн» -+ р,. Обозначим через Т величину этой второй выборки, имеющук» смысл, аналогичный Т, и пусть Т = тпах(Т,Т) . Тогда ~у.>0 ~Т .
»~Т>Т" Ярс» р1»~<Яр(»,~+'~ ~рс«» р ~<, ь:! 1м 1» Последнее условие является дискретным аналогом критерия «1.7), Теорема 1 доказана, а, 'Ф' Следствие, Если две ВФР 1'„(х) и ~„(х) удовлетворяют критерию близости «Е7), то соответствуюи1ие интегральные ВФР Р'„(х) и Рн(х) удовлетворяю»н критерию Ктлюгорова-Снирнова с тем же значением е. Доказательство. Пусть выполнено условие (1.3).
Тогда имеем Следствие доказано, 4 Таким образом, критерий (1.7) является более сильным, т.е. трсбуст более тесной близости, чем критерий Колмогорова-Смирнова (2,5.1), поскольку из (1.7) следует (2.5.1). 3.2. Нахождение оптимального объема выборки В зтом параграфе вводится новая статистика -- горизонтиый ряд «61, 62-641, на основе которой определяется оптимальный объем выборки для прогнозирования исходного временного ряда в текущий момент времени, Основным утверждением для обоснования предлагаемой прогнозной модели нестационарных рядов является следующая У Теорема 2. Яли функциоссала (7.5) близости с)еух ВОР имеет место оценки О < 1с(Т,г,с) < ппп(2г/Т; 2). (2,1) Доказательство.
Из пестри цатсльи ости произвольной ВФР (в том числе и нсстационарпой) и ее нормированиости иа единицу в любой момент времени следует тривиальная оцеикаиеравепства треугольника, примененного к норме(1.5): ссй=1сс"»«-«с*Я~ И! И=«11 И«с =1«с ««с =« В случае, если 2г < Т, эта оценка может быть уточнена. Рассмотрим сдвиг выборки на 1 шаг по времени, т.е. рассмотрим две ВФР, построенные в окнах ЛТ(с) и ЬТ(/+1). Для них все значения х(к), на основе которых были определены соответствующие змпирическис вероятности р;, совпалн, кроме, быть может, первого в окне ЬТ(Г) и последнего в окне ЬТ(с+1). Если значения х(/-Т+1) и х(с+1) попали в разные промежутки Ь; разбиения Я1е, то изменение ВФР составит 2/Т, Если же зти значения попали в один и тот же промежуток, то ВФР не изменилась.
Аналогично, при сдвиге па г шагов возможное изменение ВФР измсняется дискретно с шагом 2/Т от нуля до 2г/Т в зависимости от количества совпадений между наборами х(с-Т+1),, х(т-Т+т) и х(/+1)... х(г+т). Функционал Г~Т, г, г) и является интегральной мерой изменения ВФР. Таким образом, в этом случае Р(Т, т, с) не превосходит 2т / Т, Теорема 2 доказана. А Неравенство (2.1) дает возможность сделать важный вывод о том, что при фиксироваипом т функционал (1.7) равномерно ограничен по ь Поэтому У е >О всегда можно подобрать такой объем выборки Т > 2г / е, что ВФР будет е -стационарной.
Таким образом, если нельзя сравнить выборочную функцию распределения со стационарным распределением, то можно добиться близости двух нестационарпых выборочных распределений, Это позволит прогнозировать временной ряд с некоторой заданной точностъю. При увеличении точности в определении е -стациоиариости, т.е. при уменьшении е, объем выборки, при которой достигается условие У(Т,тД < е, растет (для краткости аргумент х у функционала нормы опущен). В силу равномерной ограниченности для каждого момента времени Г и для каждого значения т существует такое минимальное значение й(т,т",е), что при всех Т > Ь(х,т;е) значения функционала Р(Т,т;~) не превосходят е, Подчеркнем, что пока еще нет гарантии выполнения условия Р(Т, т;г) < е длявсех т'ьт.
У Олрвдвлвиив 4. Горизоитиьии рядом для ряди х(~) при сдвиге на иромв:лсуток т называется таком объем выборки Ь(г, т; е), что при всех Т > Ь(г, т; е) выполнено условие Р(Т, т; г) < е, А Рассмотрим величину Н(т; е) = шах й1г, т; е), (2,2) Из (2,1) следует, что верхней оценкой минимально допустимого объема выборки Н(т„е) является 2т! е. Из доказательства теоремы 2 также следует, что если взять Н(т,"е) = 2т/е, то для всех Т е Н(т,е) и для всех т" < т выполняется ~"(Т,т;~) < е, т.е. такая выборка гарантированно будет т-а-стационарной, в соответствии с определением 3 в параграфе 3,1. Эта оценка для Н(т; е) может бь|ть затем уточнена путем исследования статистических свойств конкретного ряда х(~).
В частности, может оказаться, что распределение величин й(г,т;е), представляющих при заданных т н а самостоятельный временной ряд, имеет выборочное среднее по времени Е значение (ф, т;е)), значимо меньшее равномерной по с оценки (2.1), Тогда можно провести минимизацию ошибки в оценке статистических свойств исследуемого ряда в том смысле, как это было описано в параграфе 1.4. Для этой цели желательно иметь как можно более низкую оценку для Н(т; е) с тем, побы иметь больший диапазон вариации объема выборки для достижения минимума суммы выборочной дисперсии и квадрата нормы ВФР, согласно (1.4,7). Введем плотность распределения р„в(Т) значений горизонтного ряда л(г,т,"е), т,с. определим вероятность того, что расстояние между двумя ВФР, построенных по выборке объема Т в сдвинутых но времени на фиксированный промежуток т, ие превосходит к лля всех Т'~Т, Для краткости зависимость от момента времени г в аргументах 1т„„(Т) опущена Эта плотность 1и, (Т) строится по имеющимся данным к текущему моменту времени следующим образом.
Для каждого момента времени г': 1< г' < г- г, строятся ВФР но выборкам объемов Т = 1,2,.„,г', после чего для каждой из этих ВФР вычисляется функционал У(Т, г;~) . Промежуток значений [О;21, принимаемых функционалом Р(Т,г;г'), разбивается при этом на нскоторос количесгво Ф отрезков, например, равномерно, так что правый конец Ь-го отрезка есть г1 =2Ь/Ф, Ь=1,2,...,У. Номер ~тр~зка, фиксирующий заданную точность к, есть Й, =1Ьге/21. Промежуток 11;1-г1 возможных значений объемов выборок содержит г-г целочисленных точек, так что 2 плоскость 1Тх 1'~ покрыта 1х — -сетью. Отдельную ячейку сети нумеруем индексами й.