Диссертация (1138079), страница 22
Текст из файла (страница 22)
Это делается для того, чтобы по возможностиснизить зависимость выходного пространства сети от её собственных начальныхзначений (эта проблема также анализировалась в разделе 3.1).Общий смысл (47) состоит в том, что на каждой итерации сеть измеряетсвою ошибку, и если ошибка уменьшилась, то принимает новые веса, впротивном случае – оставляет старые. Дополнительно к этому в (47)вмонтировано вероятностное условие, цель которого – достижение глобальногоминимума ошибки.
Мы предполагаем, что даже в том случае, если ошибка наданной итерации не уменьшилась, то искусственная нейронная сеть, тем не менее,может находиться в точке локального, но не глобального минимума ошибки.Вспомним ситуацию с ложными аттракторами сети Хакена в Главе 2: тогдаошибка сети тоже была минимальна, однако она восстанавливала ложныеизображения.
Поэтому если ошибка на текущей итерации оказалась большеошибки на предыдущей, то с некоторой вероятностью искусственная нейроннаясеть всё равно продолжит оптимизацию уже новых весов. Заметим также, что счислом итераций эта вероятность экспоненциально падает, потому что мыпредполагаем, что находимся всё ближе к глобальному минимуму ошибки (e-x –убывающая функция с областью значение [1;0]).Приведём пример с достижением глобального минимума ошибкиискусственной нейронной сетью «имитации отжига». Мы использовалидвухслойную искусственную нейронную сеть, подобную изображённой на рис.
1,с двумя нейронами во входном слое, двумя в скрытом и одним в выходном дляпрогнозирования американского фондового индекса DJIA 30. В качестве входныхзначений брались логарифмические доходности фондового индекса DJIA 30 слагом в один и два дня, а также логарифмические доходности 10-летнихказначейских облигаций США. Логика использования долгосрочных процентныхставок опирается на т.н. Fed Model [214,215], которая устанавливает зависимостьмежду коэффициентом P/E (капитализация/прибыль) для американских компанийи доходностью государственных долговых бумаг со сроком погашения 10 лет(49):137Ei1 Y10Pi(49)где Ei+1 – прибыль будущего периода, Pi – рыночная капитализация в текущемпериоде, Y10 – доходность по 10-летним казначейским облигациями США.Следует заметить, что Fed Model практически не имеет под собойфундаментальной научной базы, а основана на выводах различных эмпирическихисследований, в связи с чем периодически подвергается критике [33, 74, 192, 194].Тем не менее, ввиду популярности и частом использовании Fed Model, мысчитаем допустим проверить её предпосылки в работе с искусственныминейронными сетями.Рассмотрим динамику ошибок в такой модели.
На рис. 38 приведеназависимость суммарной квадратичной ошибки в зависимости от числа итерацийвнутри искусственной нейронной сети. Мы получили сложное многомодальноераспределение с несколькими локальными минимумами, которые продолжаютвозникать вплоть до 100 итераций. Это свидетельствует о правильностидобавления вероятностного условия поиска в (47), потому что даёт возможностьпродолжать оптимизацию даже в том случае, если ошибка перестала убывать наопределённом этапе.Рис. 37. Зависимость ошибки искусственной нейронной сети «имитацииотжига» от числа итераций внутри модели. По горизонтальной оси отложены138номера итераций (kk), по вертикальной – значение суммарной квадратичнойошибки (ReallyBest0)kk.Следует отметить, что данная ситуация с локальными минимумамипринципиально отличается от той, с которой мы столкнулись разделе 2.3.,конструируя сеть Хакена. Тогда последовательное увеличение числа итерацийвело к переучиванию сети, однако здесь оно, напротив, помогает нам прийти вглобальный минимум ошибки.
Это объясняется тем, что мы имеем дело с двумяпринципиально разными парадигмами обучения. Сеть Хакена, обучающаяся сучителем, имеет риск переучивания, особенно если предъявляемые ей данныепрошли недостаточную предварительную обработку или библиотека априорныхзнаний не обновляется регулярно. С другой стороны, увеличение числа итерацийв самообучающейся сети «имитации отжига» позволяет ей перебрать большевозможных вариантов, ведущих к оптимуму.Далее мы перейдём к описанию алгоритма обучения роевой моделиискусственных нейронных сетей. По итогам обучения на кластерах в каждойискусственной нейронной сети определяются оптимальные веса.
На основе этихвесов каждая из пяти сетей будет рассчитывать свой тестовый виртуальныйинвестиционный портфель в течение 100 торговых периодов, следующих заисходным 200-точечным скользящим массивом. Торговое правило будетаналогично (24) либо ещё одной модификации, ориентированной на то, чтоискусственные нейронные сети вновь обнаружат обращение средних по знаку нафинансовых рынках (50):r если k T mean( R) 0G k r иначеkk(50)где G – логарифмическая доходность виртуального инвестиционного портфеля(чтобы вернуться к обычным доходностям, мы применяли экспоненциальную139функцию для вычисления динамики виртуального инвестиционного портфеля), r– логарифмическая доходность финансового инструмента; ξ –прогнозноезначение модели, T – пороговое значение для прогноза, на основании которогопринималось торговое решение, mean(R) – среднее значение скользящегопятидневного вектора логарифмической доходности финансового инструмента слагом в один день, k – номер торгового периода.Особо отметим, что мы сознательно применяли одинаковые торговыеправила для всех пяти искусственных нейронных сетей, чтобы обеспечитьмаксимально честные «правила игры» и не предопределить выигрыша какой-либоиз них.
Также акцентируем внимание на том, что тестовый виртуальныйинвестиционный портфель по всем сетям определялся не единожды, но тоже былскользящим и соответствовал каждому 200-точечному исходному массиву, изкоторых вычленялись кластеры.По итогам 100-периодной тестовой торговли среди роя искусственныхнейронных сетей определялся «победитель» на основе величины виртуальногоинвестиционного портфеля.
Таким образом происходила конкуренция междусетями и определённый эволюционный отбор наиболее эффективного агента.Однако в рамках данной модели мы решили пойти несколько дальше ипередаватькачестваосуществленияэтойсети-«победителя»операцииостальнымзаключаетсявтом,сетям.что,Мотивподлянашемупредположению, в ходе обучения на кластерах сети прямого прохода, несмотря надобавление стохастического блока «имитации отжига», могли всё же найтилокальный минимум ошибки прогноза.
В этом случае повторная «прогонка» натом же массиве данных позволит прийти к глобальному минимуму. На практикеэто означает, что после ещё одной тестовой торговли «победителем» можетоказаться другая сеть.Подстройку весов остальных сетей под значения весов сети-«победителя»мы будем осуществлять с помощью добавления в модель ещё однойискусственной нейронной сети – сети Кохонена, изучавшейся в разделе 3.1.Таким образом, мы соединяем сеть прямого прохода, которая использует140традиционный механизм обучения по МНК, стохастическую сеть «имитацииотжига», роевые методы обучения, а также самоорганизующуюся сеть Кохонена.Это является примером того, как могут быть комбинированы сети, обучающиеся сучителем, и самоорганизующиеся искусственные нейронные сети.При использовании сети Кохонена в данной модели мы будем считать, чтопоиск победившего отображения (процесс конкуренции) уже выполнен.
Мыопределилиотображение-«победитель» (в нашем случаевеса отдельнойискусственной нейронной сети из роя) на основе величины тестовоговиртуального инвестиционного портфеля по итогам 100-периодной торговли.Особо подчеркнём здесь, что обычно под отображениями подразумеваются весавнутри одной сети Кохонена, однако в данном случае мы предположили, чтоконкуренция происходит между целыми, независимыми, искусственныминейронными сетями.Подстройка других сетей под веса сети-«победителя» будет осуществлятьсяпо процедуре адаптации в выражении (35), причём функция топологическойокрестности hnj будет формироваться в соответствии с величиной относительнойэнтропии Кульбака-Ляйблера из (38).После того как процесс адаптации весов других сетей из роя завершён, мывновь осуществляли тестовую торговлю на том же скользящем 100-точечномпериоде и на основе его величины определяли победившую нейронную сеть.Полученные эмпирические результаты говорят о том, что практически в 100%случаев после подстройки весов в сети Кохонена номер сети-«победителя»менялся.
Это служит убедительным доказательством того, что в ходе первойтестовой торговли мы, скорее всего, находили лишь локальный минимум ошибкипрогноза, а после адаптивной подстройки внутри самоорганизующихся картприходили в глобальный минимум.Осуществив два раунда тестовой торговли на скользящем 100-периодномпромежутке (in-the sample), мы можем перейти к формированию итоговоговиртуального инвестиционного портфеля, чья динамика будет сравниваться среальным движением финансовых рынков (out-of-sample).141Прежде чем перейти к обзору результатов работы модели еще раз краткопошагово зафиксируем наш алгоритм (рис. 39):1)Было произведено сегментирование и кластеризация исходныхэмпирических данных;2)Пять идентичных искусственных нейронных сетей независимообучились и провели первый тестовый торговый раунд на скользящем 100точечном промежутке;3)Для каждого скользящего 100-точечного промежутка была определенасеть-«победитель» по наибольшей абсолютной величине торгового портфеля (inthe-sample).4)С помощью механизма, заимствованного из сети Кохонена былаосуществлена подстройка весов остальных четырех сетей под веса сети«победителя»;5)Те же пять искусственных нейронных сетей провели еще одинтестовый торговый раунд на том же 100-точечном скользящем промежутке (inthe-sample);6)Вновь для каждого скользящего 100-точечного промежутка былаопределена сеть-«победитель» по наибольшей абсолютной величине торговогопортфеля, причем почти всегда это была другая сеть, нежели на шаге 3).
Наоснованиивыходногозначенияданнойискусственнойнейроннойсетиформировался итоговый прогноз модели на один торговый период вперёд (out-ofsample).142Рис. 38. Схема работы модели роевого обучения искусственных нейронных сетейНапомним, что мы работали со скользящими векторами, и по этой причинепрогнозное значение модели пересчитывалось для каждого торгового периода поновым данными.
Все прогнозы делались для значения доходности финансовогоинструмента на один торговый период вперёд за границей выборки обучающего«окна», т.е. представленные результаты прогнозирования финансовых рынковносят вневыборочный характер (out-of-sample).Как и в других разделах, параллельно с виртуальным инвестиционнымпортфелем, формировавшимся по прогнозам роевой модели искусственныхнейронных сетей с предварительной кластеризацией данных, мы отслеживалидинамику «пассивного» рыночного портфеля, портфеля искусственной нейроннойсетипрямогопрохода без предварительнойобработкиданных(25) иавторегрессионного портфеля (26). Мы не вводили плечо и не учитываликомиссиюфинансовыхпосредниковприформированиивиртуальныхинвестиционных портфелей.
Начальные значения всех портфелей равнялись 1.Оценка надёжности прогнозов построенных моделей проводилась с помощью143расчета доверительного интервала для математического ожидания доходностипортфеля (см. Приложение).При прогнозировании курсов валют развитых стран были полученыстабильные положительные результаты для коротких временных интервалов (15минутные логарифмические доходности).Эти данные приведены в табл.