Диссертация (1137223), страница 20
Текст из файла (страница 20)
Приведенные в таблице 4.2 результаты позволяютзаключить, что модель 4 показывает лучшее соответствие данным для прогнозированияурожайности овощей и картофеля, чем для пшеницы. Это может быть следствием того, чтозначение урожайности для пшеницы за все года включает урожайности как яровой, так иозимой пшеницы, причем сбор урожая яровой и озимой пшеницы проводится в разное время.Рассчитанные значения F -критерия для всех трех культур превышают табличноезначение на заданном уровне значимости α 0.05 , что подтверждает значимость построенноймодели (отвергает выдвинутую гипотезу о ее незначимости).В первой серии экспериментов лучшая из представленных моделей позволяетосуществлять прогнозирование урожайности с 10-ти процентной погрешностью, что меньшестандартного отклонения показателя урожайности зерновых 17 %.4.4 Оценка применимости модели посредством процедуры кроссвалидацииОбобщающая способность моделей оценивается с помощью метода кросс-валидации(контроль по блокам) [101].
Весь набор входных данных несколько раз разбивается на дваподмножества: обучающая и тестовая выборки. Каждый раз берется новая тестовая выборка. Вобщей сложности проводится N (по общему числу лет) различных проверок. Разбиенияформируются таким образом, чтобы данные по каждому году по меньшей мере один разсоставляли тестовую выборку целиком. Общая схема процедуры кросс-валидации представленана рисунке 4.8.120Все данныеТестОбучение...ОбучениеОбучениеОбучениеТест...ОбучениеОбучениеОбуче Обученниеие...ОбучениеТестМодельпрогнозированияМодельпрогнозированияМодельпрогнозированияОценкаточностиОценкаточностиОценкаточностиУсреднение точности по всемразбиениямРисунок 4.8 – Процедура кросс-валидацииРезультаты кросс-валидации оказываются чрезвычайно полезными, поскольку с ихпомощью можно провести выбор продолжительности сезонных наблюдений и моментапрогнозирования для каждой культуры, которым соответствует наилучшая точность.4.5 Зависимость точности прогноза от момента прогнозирования итипа с/х культурыМожно предположить, что чем раньше осуществляется прогноз, тем менее точным оноказывается.
С другой стороны, близость момента прогнозирования к моменту сбора урожаяопределяет его надежность. Поэтому необходимо исследовать зависимость надежности(точности) прогноза от момента прогнозирования для конкретной модели и используемыхданных.Описанная в предыдущем разделе процедура кросс-валидации также используется приисследовании зависимости точности прогноза от момента прогнозирования, чтобы исключитьвлияния конкретного года. В каждом случае предполагается, что данные дистанционногозондирования доступны вплоть до момента прогнозирования.
Например, если предсказание121осуществляется 13 августа, то доступными для анализа считаются все данные дистанционногозондирования (в этом году) до этой даты. Кросс-валидация используется для оценкиэффективности модели прогнозирования способом, аналогичным тому, который обычноприменяется для классификаторов. Оценки точности прогноза для одного года нельзя считатьстатистически значимыми, поэтому во время проверки допускается возможность нарушенияхронологического порядка данных на обучение и тестовых данных. Такая перестановка вданных не ставит под угрозу процедуру валидации по следующим причинам:1.сценарий прогнозирования для каждого года основан на обработке данных текущегогода и не зависит от данных других лет (в том числе предыдущих);2.алгоритм прогнозирования использует только данные внутри периода вегетации длятекущего года, которые строго предшествуют моменту прогнозирования.
Другими словами,модель получает на вход только наблюдения до момента прогнозирования, и не предполагаетсякаких-либо будущих данных в пределах рассматриваемого года.При имитации изменения даты прогнозирования выбор снимков, используемых вмодели, производится методом «скользящего окна». При этом количество снимков,определяющеепериоднаблюдениязапроцессомвегетации,остаетсяодинаковым.Неизменность периода сезонных наблюдений требуется для того, чтобы избежать переобучениямодели и сохранить отношение количества данных для обучения с числом коэффициентовмодели.Результаты прогнозирования урожайности для двух культур приведены в таблице 4.2.Погрешность прогнозирования оценивается как стандартное отклонение прогнозируемыхзначений урожайности от данных официальной статистики.Как видно из таблицы 4.3 самый низкий уровень точности соответствует моментупрогноза, приходящемуся на конец весны/ начало лета.
Это связано с тем, что данные осостоянии растительности на ранних стадиях вегетации являются менее информативными, чемв стадии созревания. На рисунке 4.8 представлен график изменения уровня ошибкипрогнозирования при увеличении даты прогноза.Стоит отметить, что предложенная модель не требует дополнительной информации отерритории, занятой растительностью и, в частности, посевами с/х культур, которые обычноиспользуютсяваналогичныхисследованиях[146].Разработанныйметодизвлекаетнеобходимую информацию из данных об общем состояния растительности в данной области, ане - конкретной культуры. Отсутствие масок посевов может привести к снижению точностипрогнозов.
Тем не менее, сравнение наших результатов с результатами других исследований[146] показывает, что наша модель продемонстрировать конкурентные точность даже без маски122культур или другой информации о посевных площадях, таких как типы почвы и погодныеусловия.Таблица 4.3 – Стандартное отклонение прогнозов урожайности для различных культур сиспользованием кросс-валидации для трендовой модели с мультипликативной поправкой дляобластей за период 2000-2009. Лучшие результаты по точности выделены жирным курсивом.Момент прогнозирования5 апреляЗерноКартофель16,219,621 апреля16,120,67 мая15,718,323 мая8 июня24 июняПогрешность, %15,216,317,017,618,017,410 июля26 июля11 августа16,219,811,416,510,916,9Зависимость ошибок прогнозирования от момента прогноза показана на рисунке 4.9 дляурожаев зерновых (см.
Рис. 4.9 (а)) и картофеля (см. Рис. 4.9 (б)).(а)(б)Рисунок 4.9 – Зависимость погрешности прогнозирования с использованием Модели4 (стандартное отклонение прогнозов урожайности от реальных данных) взависимости от даты совершения прогноза: (а) для зерновых; (б) для картофеля123Проанализировав полученные графики, можно сделать несколько важных выводов. Вопервых, выбор продолжительности сезонных наблюдений при прогнозировании урожайностидля различных с/х культур должен быть согласован с моментом сбора урожая и предшествоватьему, поскольку после сбора урожая следует говорить только об оценке урожайности. Вовторых, используемый в первой серии экспериментов вектор состояния растительностиявляется недостаточно информативным для прогнозирования урожайности различных с/хкультур, о чем свидетельствует локальные понижения точности для дат близких к моментусбора урожая.Вторая серия экспериментов проводилась с учётом недостатков, выявленных в первойсерии экспериментов.4.6 Уточнение параметров прогностической модели послерасширения обучающих данныхПервая серия экспериментов показала работоспособность модели, но анализ результатовпрогнозирования, оценки точности и применимости моделей прогнозирования выявилнеобходимость дополнительных исследований по улучшению качества работы представленныхмоделей.
Для этих целей произведены расширение периода наблюдений и увеличениеколичества областей интереса, вектор состояния растительности дополнен новыми признаками.Вторая серия экспериментов проводилась на расширенном периоде наблюдений иувеличенном количестве областей интереса, что позволило увеличить общее число элементовобучающей выборки. Вторая серия экспериментов проводилась для следующих наборовисходных данных:1. Nˆ 2000,...,2013 лет – период наблюдений;2. 29 региональных образований РФ;3. 16-дневные композиты NDVI и 8-дневные композиты LST используются длянахождения вектора состояния области;4. четыре вида с/х культур (яровая пшеница, озимая пшеница, овощи, картофель).ОбучающаявыборкабыласоставленаиззначенийурожайностидляNˆ о 2000, 2001, 2002, 2005, 2006, 2007, 2008, 2009, 2011, 2012.
Тестовая выборкавключает данные для одного года Nˆ t 2013. Сезонные наблюдения охватывают период в 23 месяца, начиная с марта.1244.6.1Уточнение оптимального момента прогнозирования и состава векторасостояния растительности для расширенного вектора признаков.В результате первой серии экспериментов обнаружены не только направления поулучшению предложенных моделей, но и получена процедура оценки точности по методукросс-валидации, которая позволяет определять оптимальную дату прогнозирования дляразличных сельскохозяйственных культур.
Воспользуемся этой процедурой для определенияпродолжительности сезонных наблюдений во второй серии экспериментов.Прежде чем тестировать модели на расширенных наборах входных данных второй серииэкспериментов, необходимо определить конкретный вид предикативного вектора, который даётлучшую точность на входных данных первой серии экспериментов. Как показано в пункте3.1.1, для увеличения корреляции предикативного вектора моделей прогнозированияурожайности и состояния растительности следует использовать комплексный индекс вегетации,описанный в пункте 3.3.5. Общий вид комплексного индекса состояния растительностиприведён в формуле (3.23).
Сравнивания графики изменения точности прогнозирования взависимости от даты прогноза для различных вариантов комплексного индекса отдельно покаждой культуре (см. Рис.4.10-4.11):« NDVI » (см. Рис. 4.10-4.12 (а));« NDVI LST » (см. Рис. 4.10-4.12 (б));« NDVI LST » (см. Рис. 4.10-4.12 (в)),2можно сказать, что наилучшую заблаговременность прогноза на заданном уровне точностипоказывает индекс, в состав которого входят индекс NDVI и квадрат температурного индексаLST . Данные индекса LST содержат информацию о температуре земной поверхности в ночное идневное время суток. Поскольку индекс NDVI отражает состояние растительности в дневноевремя суток, когда регистрируется отраженный солнечный свет, то использование ночныхданных индекса LST позволяет учитывать влияние на состояние растительности колебанийтемпературы в ночное время суток.
Тогда формула (3.23) принимает видvmr NDVI m r * LSTmr2.(4.8)125Зависимость точности прогноза от даты прогнозирования для картофеля21Трендовая модель с мультипликативной поправкой для областейПогрешность в %(стандартное отклонение)20.52019.51918.51817.51716.5Апр., 5Апр., 21Май, 7Май, 23Июн., 8Июн., 24Июл., 10Июл., 26Авг., 11(а)Зависимость точности прогноза от даты прогнозирования для картофеляПогрешность в %(стандартное отклонение)21Трендовая модель с мультипликативной поправкой для областей201918171615Апр., 5Апр., 21Май, 7Май, 23Июн., 8Июн., 24Июл., 10Июл., 26Авг., 11(б)Зависимость точности прогноза от даты прогнозирования для картофеля21Трендовая модель с мультипликативной поправкой для областейПогрешность в %(стандартное отклонение)20191817161514Апр., 5Апр., 21Май, 7Май, 23Июн., 8Июн., 24Июл., 10Июл., 26Авг., 11(в)Рисунок 4.10 – Зависимость погрешности прогнозирования в зависимости от датысовершения прогноза для картофеля с использованием Модели 4 на основекомплексного индекса: (а) « NDVI »; (б) « NDVI LST »; (в) « NDVI LST »2126Зависимость точности прогноза от даты прогнозирования для овощей12.6Трендовая модель с мультипликативной поправкой для областейПогрешность в %(стандартное отклонение)12.412.21211.811.611.411.21110.8Апр., 5Апр., 21Май, 7Май, 23Июн., 8Июн., 24Июл., 10Июл., 26Авг., 11(а)Зависимость точности прогноза от даты прогнозирования для овощей12.4Трендовая модель с мультипликативной поправкой для областейПогрешность в %(стандартное отклонение)12.21211.811.611.411.21110.810.610.4Апр., 5Апр., 21Май, 7Май, 23Июн., 8Июн., 24Июл., 10Июл., 26Авг., 11(б)Зависимость точности прогноза от даты прогнозирования для овощей12Трендовая модель с мультипликативной поправкой для областейПогрешность в %(стандартное отклонение)11.811.611.411.21110.810.610.4Апр., 5Апр., 21Май, 7Май, 23Июн., 8Июн., 24Июл., 10Июл., 26Авг., 11(в)Рисунок 4.11 – Зависимость погрешности прогнозирования в зависимости от датысовершения прогноза для овощей с использованием Модели 4 на основекомплексного индекса: (а) « NDVI »; (б) « NDVI LST »; (в) « NDVI LST »2127Зависимость точности прогноза от даты прогнозирования для яровой пшеницы24Трендовая модель с мультипликативной поправкой для областейПогрешность в %(стандартное отклонение)232221201918171615Апр., 5Апр., 21Май, 7Май, 23Июн., 8Июн., 24Июл., 10Июл., 26Авг., 11(а)Зависимость точности прогноза от даты прогнозирования для яровой пшеницы23Трендовая модель с мультипликативной поправкой для областейПогрешность в %(стандартное отклонение)2221201918171615Апр., 5Апр., 21Май, 7Май, 23Июн., 8Июн., 24Июл., 10Июл., 26Авг., 11(б)Зависимость точности прогноза от даты прогнозирования для яровой пшеницы23Трендовая модель с мультипликативной поправкой для областейПогрешность в %(стандартное отклонение)2221201918171615Апр., 5Апр., 21Май, 7Май, 23Июн., 8Июн., 24Июл., 10Июл., 26Авг., 11(в)Рисунок 4.12 – Зависимость погрешности прогнозирования в зависимости от датысовершения прогноза для яровой пшеницы с использованием Модели 4 на основекомплексного индекса: (а) « NDVI »; (б) « NDVI LST »; (в) « NDVI LST »2128Полученные результаты показывают, что использование комплексного индекса« NDVI LST » позволяет помимо улучшения точности прогнозирования, значительно2увеличить заблаговременность осуществляемого прогноза по всем культурам.Проанализировав графики, представленные на рисунках 4.10-4.12 (в), можно сказать, чтоожидаемый характер зависимости (чем ближе к моменту сбора урожая, тем точнее прогноз)наблюдается только для картофеля (см.