1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135), страница 38
Текст из файла (страница 38)
Интеллектуальная обработка информации ки коррелированности первого ряда и второго ряда, сдвинутого на 1.ап интервалов наблюдений. Такой подход позволяет обнаружить взаимосвязь величин, даже если моменты их изменения нс совпадают по времени, например, наблюдается некоторая задержка изменения одной величины при изменении другой.
Значения Ягепф могут изменяться от -1 до 1. Большие по модулю значения указывают на более сильную связь. Если Б1гещ1Ь равно нулю, то связь отсутствует. Если при увеличении ~уменьшении) значений первого ряда значения второго тоже возрастают (убывают), то Ятей принимает положительные значения. Если при увеличении ~уменьшении) значений первого ряда значения второго убывают (возрастают), то Б1гепдй принимает значения, меньшие нуля. Разработчики Ие1МаЕег советуют считать значимыми корреляции, для которых Ягспф1~ больше 0.2, но окончательное решение о том, как использовать результаты корреляционного анализа, принадлежит пользователю. Разберемся„как интерпретировать этот график.
Переместим указатель мыши в точку, соответствующую первому экстремуму (в данном случае минимуму) Б1гещй слева от нуля оси 1.ад. Он достигается для значения 1.ад -4,0337 (примерно -4), при этом Б~гепдй равна 0.2359. Это означаст, что при возрастании числа Вольфа (%1л1) следует ожидать уменьшения МАТ+1 через четыре года. Очевидно, что с исходным рядом МАТ подобные изменения будут происходить соответственно не через 4, а через 5 лет.
То есть через пять лет после возрастания числа Вольфа вероятно понижение среднегодовой температуры в Мюнхене. Вторая точка, на которую надо обратить внимание, — 0 по оси 1 ад. Значение Б~гепфЬ в ней тоже достаточно велико, Оно указывает на связь между несмещенными рядами %Х и МАТ+1.
Найденные связи мы будем использовать при создании базы примеров. Наша цель на данном этапе — определить входы нейронной сети, которые позволят прогнозировать МАТ. При прогнозировании нам недоступны будущие значения числа Вольфа, поэтому значения справа от нуля по оси 1 ад, которые характеризуют силу корреляции между текушими значениями МАТ и будущими %1л1, нас интересовать не будут.
Результаты корреляционного анализа показали, что мы можем использовать %1л1 для прогнозирования МАТ. Несмешенный столбец чисел Вольфа уже есть в нашем распоряжении. Осталось добавить к исходным данным колонку, которая будет представлять значения %Х четырехлетней давности. Исходные данные расположены в хронологическом порядке, поэтому все, что надо сделать, — это сдвинуть колонку ЪЛЧ на четыре ячейки вниз. В меню "Со1шпп" ~операции со столбцами) выполните команду "БЫЙ Со1шпп 0оип"' (сдвинуть столбец вниз). Выберите мышью колонку ЮХ и введите "4" в ответ на вопрос о количестве ячеек, на которое сдвигается столбец. Определите название преобразовашюго столбца, например, "ЪУЯ-4". гО1 Гиава 7.
Нейросетевые системы Теперь проверим связь приведенной среднегодовой температуры поверхностного слоя атмосферы Земли (столбец КААТ) и температуры в Мюнхене. В меню "Орега1е" выполните команду "Ра1а СоггеЫог". Выберите сначала столбец ДААТ, а затем столбец МАТ+1. Нажмите кнопки "Согге1а1е" и "Сгеа1е Р1ог" в появляющихся диалоговых окнах.
График„нарисованный системой, представлен на рис. 7,4.7. Рис. 7.4.7. График с результащал|и корреляиионного анализа столбцов ДААТ и МАТ+1. Выясним значение Еая для доминирующего пика в левой части графика. 1.ае для этой точки равен -7.0682 (примерно -7), соответствующее ему значение ЯгепрЬ вЂ” 0.19! 9. То есть вероятна связь между прогнозируемым значением среднегодовой температуры в Мюнхене (МАТ+1) и значением приведенной среднегодовой температуры поверхностного слоя атмосферы Земли (ДААТ) семилетней давности.
Используем это при составлении базы примеров. В меню "Со!япп" (операции со столбцами) выполните команду "Ян1й Со1пшп Родоп" (сдвинуть столбец вниз). Выберите мышью колонку %1Ч и задайте, что сдвиг производится на 8 ячеек. Введите имя нового столбца, например, "ДААТ-7". Важно отметить, что Ие~МаЕег позволяет выявлять лишь линейные зависимости между временными рядами, то есть зависимости вида у, =ах,. +К где х, — 1-й уровень первого ряда (факторный признак), у, — 1-й уровень второго ряда (результативный признак), 1111, л), и — число уровней исходных ря- гоз Базы данных. Интеллектуальная ооработка информации дов.
Метод корреляционного анализа, используемый в 1Ме1Ма1ег, дает корректные результаты при соблюдении следующих условий; 1) однородность исходных данных; 2) независимость отдельных значений параметра друг от друга; 3) нормальность распределения изучаемых признаков. В реальных задачах выполнить эти условия практически невозможно, поэтому к получаемым результатам корреляционного анализа следует относиться с некоторой осторожностью.
Например, если на графике, получаемом при выполнении пункта меню "Орега~е~0аа Соггс1а1ог...", нет ярко выраженных экстремумов, то это не означает, что связь между рядами отсутствует. Зависимость между ними может быть нелинейной. Выявить и интерпретировать такую зависимость традиционными статистическими методами, например, методами нелинейной регрессии, довольно трудно. К счастью, нейросеть способна самостоятельно найти сложные связи в данных и использовать их для пропюзирования. Если существует зависимость между значениями входов и выходов сети, заданных в примерах для обучения, сеть аппроксимирует ес комбинацией нелинейных фуня~ий активации своих нейронов. Чем сильнее отдельный вход будет влиять на выходы нейросети, тем больший вес будет ему присвоен.
В ситуации, когда заранес не известно, какие исходные данные в большсй степени воздействуют на прогноз, пробуют подавать на входы нейронной сети все доступные параметры. Сеть сама выберет наиболее информативные из них и будет использовать их значения для прогнозирования. При большом числе параметров подобный подход нужно использовать осмотрительно — нельзя забывать, что при увеличении числа входов нейросети, как правило, увеличивается время ес обучения. Наша задача на следующем этапе — определение набора величин, которые должны будут подаваться на вход нейросети, чтобы ее выход предсказывал МАТ+1. Одной из таких величин должно быть сглажешюе значение МАТ (столбец Ма~ гц), оно характеризует тренд — тенденцию изменения МАТ.
Требуется включить во входной вектор историю последних изменений среднегодовой температуры Мюнхена (столбцы МАТ и МАТ-1). Необходимо также исполыювать величины, связанные с искомым прогнозным значением: числа Вольфа (столбец %Х), числа Вольфа четырехлстней давности (столбец %Х-4) и приведенную среднегодовую температуру поверхностного слоя атмосферы Земли семилетней давности 1КААТ-7), Позднее нам предстоит проверить, достаточно ли этих данных для прогнозирования, то есть окажется ли нейросеть способной предсказывать будущее значение на основе этих шести величин.
Заранее оценить это довольно сложно. Сформируем базу примеров — множество пар вида: ((Мачту., МАТ., МАТ-1,, %М, %1К-4, ДААТ-7,), МАТ+1 ), где (Маътд,, МАТ,, МАТ-1,, %Х,, %М-4,, КААТ-7.) — входной вектор нейросети; МАТ+1. — эталонный результат; 1 — обозначение одного из годов, для кото- Г~ава 7. Нейросетевые системы 203 рого есть исходные данные; Ма~ту., МАТ „МАТ-1,„%Н,, %1Ч-4, и КААТ-7,— значения величин Мачга, МАТ, МАТ-1, %И, М-4 и КААТ-7 в 1 году, В соответствии с таким выбором элементов входного вектора, чтобы определить значение МАТ за 1973 год, нейросеть будет использовать значения Маггу, МАТ и %М за этот жс год, значение МАТ за 1972 год, значение %Ж за 1969 год и значенис КААТ за 1966 год.
Обратите внимание, что все требуемые значения находятся на одной строке. Это получилось пе случайно. Как уже отмечалось, Хе1Ма1.ег требует, чтобы данные для каждого примера были расположены на одной строке, поэтому мы сдвигали значения столбцов МАТ, %Н и КААТ так, чтобы напротив каждого значения МАТ+1 находились: значение МАТ, смещенное на год назад (МАТ-! ), %)Ч, сдвинутое на 4 года (%Ъ-4), и КААТ, смещенное на 7 лет назад (КААТ-7).