Диссертация (1137223), страница 19
Текст из файла (страница 19)
тестовыеданныедляпроверкиточностиполученныхпрогнозныхзначенийхарактеристик областей интереса;2. данные для обучения, используемые при настройке параметров моделей.3. По данным ДЗЗ вычисленные на этапе 2 векторы состояния области и матрицы«объекты-признаки» также разделяются на два множества:4. сезонные наблюдения в течение тестовых лет – векторы состояния области для тестовыхлет, используемые для получения прогнозов;5. долгосрочные наблюдения за состоянием областей интереса по ДДЗ – матрицы«объекты-признаки», составленные по данным для лет на обучение.3-ий этап завершается формирование данных на обучение и тестовых данных из матриц«объекты-признаки», описывающие состояние областей интереса по ДДЗ, и векторовурожайности, составленных из данных официальной статистики.4-ый этап начинается с выбора модели плодородия, которая применяется дляпрогнозирования ожидаемого значения урожайности. Модель плодородия определяется видомпрогностической функции, которая связывает изменение состояния растительности в течениесезонных наблюденийс ожидаемым значениемурожайностидлясоответствующегокалендарного года.
Предикативный вектор, компоненты которого входят в запись выражениядля прогностической функции, характеризует состояние растительности для области интереса вцелом.Процессобучениямоделиплодородиясостоитвотысканиипараметровпрогностической функции, наилучшим образом приближающих её значения на множестве летвыбранных для обучения. Для поиска параметров прогностической функции используетсямногомерная оптимизация на данных матрицы «объекты-признаки», которая составлена извекторов состояния области интереса (предикативный вектор) путём их объединения по всемгодам на обучение и всем областям интереса (см. п. 2.4.2, формула (2.31)), и статистическихданных по урожайности для выбранной с/х культуры за все года на обучение и для всехобластей интереса.
Данные на обучение, полученные на выходе второго этапа, загружаются вблок-3 (см. Рис. 4.2) выбора модели прогнозирования. Выбранная модель прогнозированияурожайности вместе с обучающими данными поступает на вход блока-4 (см. Рис. 4.2) поискапараметров прогностической функции. В результате многопараметрической оптимизациинаходятся оптимальные значения параметров модели прогнозирования урожайности. Подробнопроцесс обучения описан в пункте 2.4.2.
Далее следует процесс прогнозирования урожайности,подробно описанный в пункте 2.4.3. При прогнозировании урожайности используются только111данных дистанционного зондирования, полученных на протяжении сезонных наблюдений засостоянием растительности для тестовых лет. В качестве предикативного вектора используетсявектор состояния области интереса для тестовых лет, которые составляются в матрицу«объекты-признаки» (см. п. 2.4.3) образом аналогичным, описанному в процедуре обучения. Впрогностическуюфункциюмоделиплодородияподставляютсязначенияпараметров,полученные в результате оптимизации, и значения вектора состояния области для тестовых лет.Вычисленное таким образом значение прогностической функции на тестовых данных являетсяоценкой ожидаемого значения урожайности для областей интереса на множестве тестовых лет(блок-5, рис.
4.2). Для оценки точности получаемых прогнозов используются тестовые данные,сформированные на 3-ем этапе. Спрогнозированные значения урожайности используются дляоценки точности и значимости прогнозов (блок-6, рис. 4.2). Процедура оценки точностипрогноза рассматривается в пункте 4.1.3, а процедура оценки статистической значимостиполученных прогнозов в параграфе 4.3.В конце 4-го этапа получаются ожидаемые значения урожайности выбранной с/хкультуры для набора тестовых лет и всех областей интереса, оценки точности осуществлённыхпрогнозов, делается вывод о значимости прогнозов.4.1.3Оценка точности прогнозаОценка точности получаемых прогнозов значения урожайности проводятся длятестового набора лет отдельно по каждой сельскохозяйственной культуре и по каждой моделиплодородия.
Пусть заданы период наблюдений N , количество областей интереса R {rp }Pp 1 ,типы сельскохозяйственных культур C {cd }d 1 . Рассмотрим случай, когда тестовая выборкаDвключает данные об урожайности только за один год nt . Обозначим элемент тестовой выборкиry npt .Пусть в результате прогнозирования для культурыcdс использованием одной измоделей, описанных в главе 3, получены ожидаемые значения урожайностипогрешность прогноза для каждой областиrp рассчитывается по формулеynpt f ntprrf ntprf ntp .
Тогдаrrynpt,(4.2)112где y nrp – значение урожайности для областиtrp в год nt ;rf ntp – предсказанные моделью значения урожайности для области rp в год nt .Если говорить о точности модели при прогнозировании урожайности культуры cd для года ntна всем наборе областей интереса R , то используется следующая формулаEnctd 1r f ntpP rp R2,(4.3)где P – количество областей интереса.В случае, когда необходимо оценить изменение точности прогнозирования урожайностикультуры cd для конкретной областиErcpdrp на наборе тестовых лет N t , используется формула1r f ntpN t nt Nt2.(4.4)4.2 Сопоставление результатов прогнозирования урожайности сиспользованием разработанных моделейПервая серия экспериментов, результаты которых позволили сказать, что предлагаемыйподход работает, проводилась для следующих наборов исходных данных:1.
Nˆ 2000,...,2009 лет – период наблюдений;2. 14 региональных образований РФ;3. 16-дневные композиты NDVI используются для нахождения вектора состоянияобласти;4. Индекс NDVI удобен с практической точки зрения еще и тем, что он свободнодоступен в форме безоблачных композитов за продолжительное время [211].5. три вида с/х культур (пшеница, овощи, картофель).ОбучающаявыборкабыласоставленаиззначенийурожайностидляNˆ о 2000, 2001, 2002, 2005, 2006, 2007, 2008. Тестовая выборка включает данные дляодного года Nˆ t 2009 . Сезонные наблюдения охватывают период в 4-5 месяцев, начиная смарта.
Статистическая информация об урожайности за весь период наблюдений N поотдельным культурам официально предоставляется службой государственной статистикиРоссийской Федерации и находится в открытом доступе [46].1134.2.1РезультатыПрогнозы с использованием модели 1.прогнозированияурожайностизерновых,овощейикартофелясиспользованием модели 1 представлены на рисунках 4.3 (а)-(в).(а)(б)(в)Рисунок 4.3 – Первая серия экспериментов.
Сравнение результатов прогнозированияв 2009 году с использованием модели 1: (а) зерно, (б) овощи, (в) картофель4.2.2РезультатыПрогнозы с использованием модели 2.прогнозированияурожайностизерновых,использованием модели 2 представлены на рисунках 4.4 (а)-(в).овощейикартофеляс114(а)(б)(в)Рисунок 4.4 – Первая серия экспериментов. Сравнение результатов прогнозированияв 2009 году с использованием модели 2: (а) зерно, (б) овощи, (в) картофель4.2.3РезультатыПрогнозы с использованием модели 3.прогнозированияурожайностизерновых,использованием модели 3 представлены на рисунках 4.5 (а)-(в).овощейикартофеляс115(б)(а)(в)Рисунок 4.5 – Первая серия экспериментов.
Сравнение результатов прогнозированияв 2009 году с использованием модели 3: (а) зерно, (б) овощи, (в) картофель4.2.4РезультатыПрогнозы с использованием модели 4.прогнозированияурожайностизерновых,использованием модели 4 представлены на рисунках 4.6 (а)-(в).овощейикартофеляс116(а)(б)(в)Рисунок 4.6 – Первая серия экспериментов. Сравнение результатов прогнозированияв 2009 году с использованием модели 4: (а) зерно, (б) овощи, (в) картофель4.2.5Сравнение моделей.Численные результаты прогнозирования урожайности на 2013 год сведены в таблицу 4.1.Данные таблицы показывают, как изменяется погрешность прогноза в зависимости отиспользуемой модели по каждой культуре в отдельности.Таблица 4.1 – Сравнение точности прогнозирования для различных моделей и с/х культур порезультатам для 2009 года.Модель 1 Модель 2 Модель 3 Модель 4Погрешность, %.Зерно23.7030.1021.409.50117Модель 1 Модель 2 Модель 3 Модель 4Овощи20.1015.1013.208.60Картофель12.3014.3013.2011.60Визуальное сравнение качества работы моделей можно проводить с использованиемдиаграммы на основе табличных данных, представленной на рисунке 4.7.
В результате анализаможно сказать, что «Трендовая модель с мультипликативной поправкой для областей» показалалучшие значения точности на данных первой серии экспериментов.Ошибка в %(стандартное отклонение)Ошибки прогнозов для разных культур и моделейдля 2009 года50ПшеницаОвощиКартофель403020100Модель 1Модель 2Модель 3Модель 4Рисунок 4.7 – Сравнение точности прогнозирования урожайности различных с/хкультур по всем моделям для 2009 года4.3 Оценка статистической значимости полученных прогнозовПомимо оценок (4.3), (4.4) важным критерием применимости моделей прогнозированияявляется проверка статистической значимости полученных прогнозов. Для этих целейиспользуется критерий Фишера [120].
В качестве статистической функции выбраны два видакоэффициентов детерминации: нескорректированный и скорректированный (истинный) [120].Вычисление нескорректированного коэффициента детерминацииR2осуществляется поформуле:R2 1 rr ynpt f ntprp Rrp Rгде ynrp , f nrp определены в формуле (4.2);ttrynpty22,(4.5)118y – усредненное значение урожайности по данным для всех областей за тестовый год nt .Всвоюочередьскорректированный(истинный)коэффициентдетерминациивычисляется с использованием следующей формулы2Radj 1 1 R 2 гдеs s 1,s q(4.6)– количество наблюдений, участвовавших в обучении модели;q – количество степеней свободы модели (количество независимых параметров).Для проверки статистической значимости модели используется критерий Фишера.2Выдвигается гипотеза о равенстве Radjнулю, то есть модель не объясняет данные.
Статистика,связанная с коэффициентом детерминации, вычисляется по формуле:F(q 1,s q 1 ) гдеs s q 1 ,1 Radj2 q 12Radj(4.7)– количество наблюдений, участвовавших в обучении модели;q – количество степеней свободы модели (коэффициент количество независимых параметров);2– скорректированный (истинный) детерминации.RadjПолученное значение функции статики сравнивается с табличным значением, котороеявляется максимальным значением критерия под влиянием случайных факторов при текущихстепенях свободы и уровне значимости для распределения Фишера.В таблице приведены рассчитанные значения коэффициентов детерминации, которыехарактеризуют соответствие модели реальным данным для результатов на 2009 год для каждойиз рассматриваемых культур.
Количество независимых наблюдений, учувствовавших вобучении, во всех случаях равно произведению количества областей (14) на количество лет (9),взятых для исследования, и составляет 126.Таблица 4.2 – Сравнение статистической значимости модели 4 для различных культур длярезультатов на 2009 годПшеница Овощи Картофель2Нескорректированный коэффициент детерминации RКоличество наблюдений sКоличество свободных параметров qСкорректированный (истинный) коэффициент детерминации0.650.880.85126126211262Radj0.580.850.817.330.323.1Значение статистики F119Табличное значение F -критерия на уровне значимостиα 0.051.67Вычисление коэффициента детерминации проводилось с учетом числа зависимыхпеременных приведенной модели. Приближение коэффициента детерминации к 1 говорит олучшем соответствии модели данным.