Диссертация (1138079), страница 13
Текст из файла (страница 13)
Под аддитивным шумом мы понимаем прибавление квекторизованной(т.е.представленнойчисловымвектором)букве-образу73случайной нормально распределённой компоненты, под мультипликативным –умножение на случайную нормально распределённую компоненту.Оценка эффективности работы сети Хакена в данном случае проводилась подвум критериям – визуальному и численному сходству. Численное сходствозадавалось как значение, обратное средней норме разности распознанного сетьювектора со всем массивом предъявляемых образов (32): R VkDiffk M1(32)где R – распознанный вектор, V – исходный векторизованный образ (одна из буквлатинского алфавита), k – номер исходного векторизованного образа в общеммассиве, M – длина векторов R и V.Проиллюстрируем работу модели на конкретном примере.
На рис. 7представлены изображения буквы A: исходный, зашумлённый и распознанныйобраз (слева направо). Как видно из рис. 7, сеть не смогла устранить наложенныйшум, однако буква видна достаточно отчетливо.AKARREC ONSTРис. 7. Распознавание буквы А с помощью искусственной нейронной сетиХакена после 30 итераций (с наложением аддитивного шума). AK - исходныйобраз, AR – зашумлённый образ, RECONST – распознанный образ.Об этом же недвусмысленно говорит и численный анализ по критериюсходства (32), представленный на рис. 8. Высота столбцов на рис. 8 обратнопропорциональна средним нормам разности между распознанным образом иисходными буквами-образами, а числа на горизонтальной оси соответствуют74номерам букв алфавита, начиная с нуля (т.е. A=0, B=1, C=2,…Z=24; буква O былаисключена на начальном этапе построения модели, так как многие другие буквына неё похожи, и есть риск, что сеть начнёт сводить к ней все предъявляемыеобразы).Можно утверждать, что буква A распознана верно, потому что мыимеем дело с распределением с одной ярко выраженной модой.Рис.
8. Численное сходство образа, распознанного сетью Хакена, иисходного образа на примере буквы А после 30 итераций (с наложениемаддитивного шума).Примечание: по горизонтальной оси отложены номера букв алфавита (m),по вертикальной – значение, обратное средней норме разности междураспознанным образом и исходными буквами-образами (nrmm).Здесь, однако, мы должны сделать крайне важную ремарку. Результаты,продемонстрированные на рис. 7,8, были получены по итогам 30 итераций внутриискусственной нейронной сети Хакена. Мы обнаружили, что дальнейшееувеличение числа итераций ведёт к значительному ухудшению работы модели.Это выражается в резком росте среднеквадратичной ошибки сети, график которой(на примере буквы А) изображён на рис.
9.75Рис. 9. Рост среднеквадратичной ошибки при увеличении числа итераций вискусственной нейронной сети Хакена (пример буквы А).Примечание: по горизонтальной оси отложено число итераций (t), повертикальной – соответствующее им значение среднеквадратичной ошибки(SQERRORt).В случае большого числа итераций визуальный и численный анализ такжевынуждают признать нас работу искусственной нейронной сети Хакенанеудовлетворительной.Нарис.10представленраспознанныйобраз,соответствующий 80 итерациям внутри модели (также на примере буквы А). Вполученном изображении невозможно увидеть какую-либо явную форму буквыобраза.REC ONSTРис.
10. Распознанный образ с помощью искусственной нейронной сетиХакена после 80 итераций (пример буквы А после наложения аддитивного шума).76То же самое говорят и результаты численного анализа, представленные нарис. 11. Распределение имеет две явно выраженные моды, и это затрудняетотнесение распознанного образа к какой-либо из букв.1413.5nrmm1312.50102030mРис. 11. Численное сходство образа, распознанного сетью Хакена, иисходного образа на примере буквы А после 80 итераций (с наложениемаддитивного шума).Примечание: по горизонтальной оси отложены номера букв алфавита (m),по вертикальной – значение, обратное средней норме разности междураспознанным образом и исходными буквами-образами (nrmm).Явление, с которым мы столкнулись, называется переучиванием (overfitting,overlearning) и представляет достаточно серьёзную проблему при работе сискусственным нейронными сетями [133,143].
Дело в том, что очень частофункцияошибкисетибываетнелинейной,апараболическойилигиперболической. Это означает, что простое увеличение числа итерацийнеобязательноавтоматическиприводиткростуэффективностиработыискусственной нейронной сети. Может получиться так, что ошибка сначала будетубывать, но после прохождения некоторой точки начнёт опять возрастать, иконструктору сети необходимо корректно определить этот минимум ошибки.77Ситуация с переучиванием искусственной нейронной сети может бытьособенно опасна, когда данные делятся на обучающую (in-the-sample) и тестовуювыборки (out-of-sample). В то время как ошибка сети на обучающем массивепродолжает падать при увеличении числа итераций, ошибка на реальных данныхможет начать существенно возрастать после определённого момента.
Это сигналдля того, что обучение следует остановить (рис. 12).Рис. 12. Переучивание искусственной нейронной сети для обучающей итестовой выборки.Наиболееискусственнойпростымнейроннойметодомсетирешенияявляетсяпроблемыэкспериментальноепереучиваниянахождениекритической точки переучивания. Кроме этого, можно дополнительно ввести вмодель штрафные санкции за неправильные прогнозы, а также использоватьнесколько ансамблей нейронных сетей, каждая из которых будет работать,например, по байесовкому правилу [67].Стоит заметить, что функция ошибки искусственной нейронной сети можетбыть представлена не параболой или гиперболой, но ещё более сложнымифункциями, которые имеют по несколько локальных минимумов. В этом случаерешение проблемы переучивания сети находится в тесной взаимосвязи с поиском78глобального максимума ошибки.
Мы разберём более подробно этот вопрос вГлаве 3.Тестированиеискусственнойнейроннойсетинамультипликативнозашумлённых данных даёт ещё более интересные результаты. Прежде всего,отметим, что мультипликативный шум очень сильно искажает данные, так чтовизуально наши исходные буквы-образы становятся неотличимы друг от друга ипохожи, скорее, на белый шум (рис. 13).ARBRCRРис. 13. Мультипликативно зашумлённые буквы-образы A, B, C (слеванаправо).При мультипликативном зашумлении данных мы тоже обнаружилипроблемупереучивания.Послеопределённогоколичестваитерацийсреднеквадратичная ошибка искусственной нейронной сети Хакена начиналарезко возрастать – поэтому мы представляем отдельные результаты также после30 итераций.Крайне любопытно, что вне зависимости от того, какая буква-образпредъявлялась сети Хакена, вычисления очень часто сводились к одномурезультату, визуально похожему на букву E.
На рис. 14 приведены наиболеепоказательные примеры такой реконструкции.REC ONSTREC ONSTREC ONSTREC ONSTREC ONSTРис. 14. Образы, восстановленные с помощью сети Хакена измультипликативно зашумлённых букв C, F, I, X, V (слева направо) после 30итераций.79Таким образом, мы можем говорить о том, что, с одной стороны, сетьХакена справилась с поставленной задачей и распознала сильно зашумлённыеобразы. С другой стороны, были получены не те изображения, которыепредъявлялись изначально.
В качестве дополнительной демонстрации на рис. 15рассчитано численное сходство образа, восстановленного из зашумлённой буквыX. Представленное одномодальное распределение однозначно указывает на то,что мы получили букву E. Мода соответствует m=4, в то время как буква Xсоответствует m=22 (начало отсчета с нуля, без буквы O), т.е. наш результатзаведомо неверен.Рис. 15. Численное сходство образа, распознанного сетью Хакена, иисходного образа на примере буквы X после 30 итераций (c наложениеммультипликативного шума).Примечание: по горизонтальной оси отложены номера букв алфавита (m),по вертикальной – значение, обратное средней норме разности междураспознанным образом и исходными буквами-образами (nrmm).Явление, с которым мы столкнулись, объясняется появлением ложногоаттрактора (false attractor) – ошибочного притягивающего значения, к которомустремятся все результаты модели независимо от поданных на вход данных.По сути, ложные аттракторы также представляют собой локальныеминимумы ошибки и возникают из нескольких образов, хранящихся в памяти80нейронной сети, в результате неправильных перекрёстных ассоциаций.
В данномслучае мы также находимся в точке минимума, соответствующем 30 итерациямвнутри модели. Заметим при этом, что ложный аттрактор необязательнопредставляет собой чёткий образ из библиотеки априорных знаний: вполневозможно получить визуально бессмысленный набор точек, тем не меннеустойчиво появляющейся на выходе искусственной нейронной сети независимоот предъявляемого ей образа.Именно в этом и заключается основная опасность для конструктора сети. Вслучае распознавания образов мы всегда можем использовать визуальноеподтверждение и легко определить, что сеть восстановила ложное изображение.Однако в случае, когда такие способы валидации недоступны (например, нафинансовых рынках), исследователь, на основании минимума ошибки можетпринять ошибочное решение, что искусственная нейронная сеть достиглаоптимума.Мы считаем, что одним из путей разрешения этой проблемы может бытьболее тщательная обработка входных данных.
Здесь следует вспомнить, что ещёна самом начальном этапе работы с искусственной нейронной сетью Хакена мыне стали брать букву O для нашей библиотеки априорных знаний – вполневозможно, что она также могла бы стать притягивающим значениям, как и букваE. Конечно, мы могли бы исключить из рассмотрения и букву E, но это быозначало потерю части важной априорной информации и делало картину мира какминимум неполной. В свою очередь, это может привести к значительномуухудшению эффективности работы модели.
Поэтому более правильным мысчитаем дополнительную предварительную обработку потенциальных ложныхаттракторов по сравнению с другими элементами в библиотеке априорныхзнаний.С другой стороны, проблема появления ложных аттракторов может бытьсвязана с необходимостью периодического обновления библиотеки априорныхзнаний, добавления в неё новой информации – например, путём введенияхаотичного режима функционирования в искусственную нейронную сеть [11].81Это особенно важно для финансовых рынков, где даже самые надёжные ипроверенные данные стремительно устаревают во времени, и поэтому в ходепрогнозирования фондового и валютного рынков мы будем задавать библиотекуаприорных знаний с условием её регулярной актуализации во времени.Однако прежде чем применить искусственную нейронную сеть Хакена дляпрогнозирования финансовых рынков, нам вновь необходимо решить ключевойвопрос о том, как будет формироваться библиотека контекстной информации.