Диссертация (1151123), страница 11
Текст из файла (страница 11)
Построение модели нейронной сетивключает в себя несколько этапов: определение порядка сети (архитектура) ипараметров (веса) модели [87]. При обучении нейронной сети обычно данныев выборке разделены на обучающий набор данных и набор данных длятестирования модели. Обучающий набор данных используется для оценкипараметров моделей, при этом выбирается та модель, которая лучше всегоработает на тестовом наборе данных. Наблюдения за пределами выборки(out-of-sample) применяются для дальнейшего тестирования выбранноймодели и имитации реального прогнозирования событий [110].В задаче прогнозирования временных рядов, входы представляются ввиде скользящего окна фиксированной длины относительно наблюденийряда. Предположим, что в обучающем наборе есть n наблюдений: x1, …, xn, изадача заключается в прогнозировании на один шаг вперед.Для обучения нейронной сети с p входами, имеем n-p обучающихпримеров.
Первый обучающий набор будет состоять из x1, x2, …, xpнаблюдений в качестве входов и xр+1 в качестве целевого выходногозначения. Второй обучающий набор будет содержать x2, x3, …, xp+1наблюдений в качестве входов и xp+2 как ожидаемый результат на выходе.Последний тренировочный набор будет содержать xn-p, xn-p+1, …, xn-1наблюдений в качестве входов и xn как целевое значение. Таким образом,параметры нейронной сети могут быть определены путем минимизацииобщего размера ошибки в тренировочном процессе, например, суммыквадратов ошибок.На рис.
6 графически представлены необходимые преобразования ипредварительная подготовка данных для работы нейронных сетей в задачахпрогнозирования по алгоритму, описанному выше.62Рисунок 6 – Предварительная подготовка данных для работы с нейроннойсетьюОтдельно следует отметить, что при моделировании временных рядов,имеющих сезонность, важно разделить наблюдения на входе кратносезонному периоду. Например, для помесячных временных рядов ссезонностью, наблюдается высокая корреляция между наблюдениями с лагомв 12 месяцев. Теоретически, может быть большое число сезонных лагов,которые имеют автокорреляцию с будущими значениями.Подводя итоги можно сказать, что успешное прогнозирование сиспользованиемнейронныхсетейпрямогораспространениятребуеттщательного внимания к двум основным этапам:1.
Обучение: Разработанная модель должна предлагать адекватнуюподгонку обучающих данных. Сами данные должны содержатьзависимости, которые нейронная сеть пытается изучить, а модельнейронной сети должна быть в состоянии найти соответствующие веса,чтобы представить эти зависимости.632. Обобщение: Разработанная модель также должна хорошо работать нановых данных, это позволяет убедиться в том, что она не простозапоминает характеристики обучающих данных. В этой связи припостроенииНСчастослучаетсяпереподгонка,особеннодлянебольших наборов данных.
Отличительной особенностью нейроннойсети можно назвать способность получать обоснованный результат наосновании данных, которые раньше не встречались в процессеобучения. Архитектура нейронной сети должна быть небольшой, припостроении модели следует провести проверку и валидацию, чтобырезультаты обучения можно было применить для других случаев инаборов данных [104].В следующих параграфах исследования предлагается модификацияархитектуры нейронной сети, применимой в задачах прогнозирования, длярешения задачи количественной оценки эффекта влияния внешних событий.Однако предварительно изучается алгоритм оценивания характера влияниявнешнего события.2.3. Алгоритм оценивания влияния внешних событий иуправленческих решенийВ классических трудах описываются два вида функций при изучениивлияния внешних событий: ступенчатая и пульсирующая, см.
параграф 1.4.2.В диссертационном исследовании влияние внешнего события описываетсядвумя видами функций, которые логически продолжают исследования в этойобласти: (2.11) ступенчатая функция и (2.12) кусочно-линейная функция.Зачастую в литературе исследователями упоминается только теоретическаявозможность использования функции (2.12), однако анализ производится сприменением классической ступенчатой функции (2.11).
В диссертационномисследованииразвиваетсянепопулярнаяприкладнаямысльикиспользованию предлагается нетрадиционная модель для описания характеравлияния внешнего события – кусочно-линейная функция (2.12).64Математически эти два вида функций можно представить следующимобразом:( ){( )(2.11)(2.12){где:t0 – номер наблюдения временного ряда, соответствующий дате началевлияния внешнего события;t1 – номер наблюдения, соответствующий окончанию влияния внешнегособытия;a1, a2 и T – параметры, которые оцениваются при построении модели.При этом T – момент максимального воздействия.Предлагается следующая интерпретация параметров функции T, a1 и a2:параметр T отвечает за локальный максимум влияния события.
Значениепараметра T выбирается среди порядковых номеров наблюдений от t0 доt1.параметры a1 и a2 определяют, как быстро функция возрастает иубывает, соответственно.Описание характера влияния внешнего события. Для того чтобыописать характер влияния внешнего события используется метод auto-arima[82] и исходный временной ряд ( ). В таблице 2 представлено отображениеданных, собранных помесячно, которые подаются на вход процедуре autoarima для примера рынка подержанных автомобилей из главы 3.65Таблица 2Данные для процедуры auto-arimaКоличествоДатаперерегистраций(шт.)01.01.200713 913……01.09.200824 81701.10.200827 662……01.04.200923 99501.05.200920 516……01.08.201232 456В ходе работы процедуры, согласно формуле (2.12), подбираетсянаилучшая линейная аппроксимация влияния внешнего события, при этомвыбор осуществляется по критерию ошибки MSE (mean squared error).Перебираются все возможные значения T как момента максимальноговоздействия, и для каждого T перебором ищутся параметры a1 и a2 от 0 до 1 сшагом 0,05 [53].В приложении 1 описан код на языке R, который используется припостроении функции для случая одного внешнего события, а в приложении 2– для нескольких воздействий.
В результате выполнения программного кода(см. приложение 1) появляется новый вектор ( ) , который описываетхарактер влияния внешнего события.таблице 3.66Пример вектора ( ) представлен вТаблица 3Отображение вектора ( )ДатаЗначение переменной, описывающейвлияние внешнего события01.01.2007…01.09.200801.10.2008…01.04.200901.05.2009…01.08.20120…0,130,25…1,000,98…0,37Полученные значения затем используются для оценки влияния внешнегособытиявметоде,использующемнейронныесетинестандартнойархитектуры, предложенные в следующем параграфе.2.4. Метод и математическая модель оценки влияниявнешних событий на основе нейронных сетеймодифицированной архитектурыВ результате работы метода auto-arima был получен новый ряд ( ),который описывает характер влияния внешнего события для исходного рядаданных. Таким образом, для оценки эффекта влияния внешнего событияимеется исходный ряд данных ( ) и ряд данных влияния внешнего события( ) , оба этих вектора будут использоваться при построении моделинейронной сети.В параграфе 2.2 изучался метод построения нейронной сети для задачипрогнозирования.
По аналогии в исследовании предлагается произвестиоценку влияния внешнего события. Для этого необходимо совершитьнекоторые действия и модификации, предложенные ниже.67Специальная архитектура нейронной сети для задачи оценкивлияния внешнего события. В случае, когда необходимо оценить влияниевнешних событий, возникают проблемы при использовании наиболеераспространённых архитектур нейронных сетей. Поэтому архитектуранейронной сети модифицируется так, чтобы из неё можно было извлечьинформациюовоздействияхдляколичественнойоценкиэффектауправленческих решений или влияния внешних событий.На вход стандартной нейронной сети подаются(включая смещение как весвходных нейронов), на внутреннем слое используетсянейрон.
Предлагаются следующие изменения архитектуры нейронной сети.На вход нейронной сети дополнительно подается m нейронов, где m – числособытий, эффект которых желательно измерить. Разделяются входныепеременные и переменные, описывающие влияние внешнего события.К нейронам внутреннего слоя добавляются нейроны, которые будутназываться нейронами, отвечающими за влияние внешних событий. Обычнаянейронная сеть прямого распространения модифицируется так, чтобы можнобыло выделить вклад каждого оцениваемого события. Для этого из сетиисключаются: взаимодействиямеждувнешнимивходнымипеременнымиинейронами на внутреннем слое, отвечающими за влияния внешнихсобытий; взаимодействиямеждувнешниминезависимымипеременными,отвечающими за влияния внешних событий, и остальными нейронамина внутреннем слое.Как и у стандартной нейронной сети, для нейронов на внутреннем слоев диссертационном исследовании используется логистическая функцияактивации.
На выходном слое функция активации – линейная.В итоге получается достаточно необычная топология нейронной сети,которая представлена на рис. 7. Следует обратить внимание, чтоотсутствующие связи на рисунке – это связи, которые присутствуют в68классической нейронной сети, но исключены в предлагаемой архитектуре.При этом x1, x2, …, xn – входные переменные, I(1), I(2), …, I(m) – переменные,описывающие влияние внешнего события.Рисунок 7 – Архитектура модифицированной нейронной сетиПри построении моделей нейронной сети на каждой итерацииобнуляются связи с переменными и нейронами, отвечающими за влияниявнешних событий, и продолжается обучение.
Технически, запрещенные связи(отсутствующие на рис. 7) реализованы за счёт обнуления весов связей69между нейронами. В большинстве прикладных программных средствах пообучению НС такая возможность отсутствует. В MATLAB реализоватьподобную конфигурацию трудоёмко, но возможно. Данная модификация НСне предусмотрена в стандартных конфигурациях нейронных сетей ипредлагается впервые для решения задачи оценки влияния внешних событий.Для реализации задачи предлагается предварительно подготовить данные.Предварительная подготовка данных для работы с нейроннойсетью. Для работы с нейронной сетью исходные данные рядов ( ) и ( )необходимопредварительноподготовить.Отдельнорассматриваютсяслучаи, когда имеется только одно внешнее событие и когда таких событийнесколько.В случае оценки одного внешнего события, входы представляются ввиде скользящего окна фиксированной длины относительно наблюденийряда. Предположим, что в обучающем наборе есть n наблюдений: x1, …, xn, атакже n значений функции I, описывающей влияние внешнего события: I1,…, In.Для обучения нейронной сети с p+1 входами, имеем n-p обучающихпримеров.