Диссертация (1137226), страница 15
Текст из файла (страница 15)
На рис. 3.2 схематически изображено положение одной и той жеточки в соответствующих позициях различных каналов MODIS с разрешением1000, 500, 250метров.Получившееся22-мерное пространство признаков имеет, с одной стороны,достаточно небольшую размерность для успешной задачи класификации, однако, учитывая большие объёмы информации (типичное изображение MODISсодержит более106пикселей), стоит максимально сократить задачу. Кроме того, некоторые спектральные каналы изображения имеют пересекающиеся диапазоны длин волн (например, каналы1и13,каналы4и12),а следовательно,данные, содержащиеся в них, могут быть сильно коррелированы. Численныеэксперименты с анализом главных компонент подтверждают это предположение (см.
ниже).Многие работы применяют для снижения размерности задачи переход кодному из тематических индексов, подходящих к исследуемой задаче. В даннойработе было принято решение снижать размерность методом главных компо91Рисунок 3.2 – Схема соответствия пикселей каналов MODIS различного пространственногоразрешения. По вертикали расположение вдоль линии полёта КА, по горизонтали — вдольлинии сканирования [126].92нент, чтобы таким образом, не опираясь на эмпирические соображения, выделить наиболее информативные признаки анализом данных.Отношение собственных чисел1 / >> 1 показывает, что различные компоненты признакового пространства сильно коррелированы.
Это может бытьсвязано с тем, что среди множества каналов мультиспектрального изображенияесть пересекающиеся по длине волны, дающие близкие друг к другу характеристики для одних и тех же пикселей. Таким образом, размерность пространства признаков может быть уменьшена отбрасыванием последних координат впространстве главных компонент. Границу значимости для компонент задаетсоотношение∑︁=1где2> 0, 999∑︁2 ,(3.30)=1— размерность исходного пространства,— размерность пространстваглавных компонент.
Такое правило позволяет явно задавать объясненную дисперсию на уровне99, 9%, что заведомо достаточно для задачи разделения классов, при этом размерность пространства главных компонент, в зависимости отвыборки, составляет от7до10,то есть размерность задачи понижается в 2-3раза.Стоит учитывать, что метод главных компонент требует выборку исходных данных.
В случайной или упорядоченной выборке данных, то есть точекизображения, преобладают точки, не относящихся к выгоревшей территории,так как последние составляют в среднем по России не более0, 6%,по даннымза 2010 год, в который было отмечено рекордная площадь пожаров [12]. Притаком соотношении классов в выборке, метод главных компонент анализируетпрактически исключительно точки, принадлежащие к невыгоревшей территории, и пространство главных компонент организовано таким образом, чтобыэффективнее разделять подклассы невыгоревшей территории, а не отделятьих от выгоревшей. Поэтому для наполнения выборки, используемой для анализа главных компонент, выбирались точки как соответствующие выгоревшей93территории, так и невыгоревшей, по аналогии с построением обучающей выборки, о которой см.
следующий п. 3.2.6. Следует отметить, что в этом случаедля анализа главных компонент, так же как и для обучения классификатора,необходимо иметь обучающую выборку, для которой известны классы точек, иполученные параметры метода главных компонент должны быть сохранены ив дальнейшем, при классификации, должно проводиться преобразование данных в то же самое пространство главных компонент, которое было построено сучётом обучающей выборки.3.2.6. Построение обучающей выборкиДля получения обучающей выборки достаточного размера необходимо предварительно выделить зоны, достоверно соответствующие выгоревшей и невыгоревшей территории.
В некоторых работах для этой цели использовалась ручная(экспертная) разметка изображения для получения обучающей выборки. Такойподход обладает достаточно высокой точностью, однако требует больших трудозатрат для составления обучающей выборки достаточно большого размера.Поэтому в данной работе был был разработан алгоритм, автоматически определяющий, к какому классу отнести ту или иную точку, с использованием картыдетектированных активных пожаров за предстоящий период и маски облачности для исследуемого изображения.
На рис. 3.3 изображен участок космического изображения, содержащий активный пожар, участки выгоревшей территории, и наложенный на него полигон из используемых векторных данных.Сначала производится индексация полигонов, представляющих векторныеданные о детектированных активных пожарах согласно методу, описанному вп.2.4, что позволяет значительно сократить время создания обучающей выборки. Затем для каждой точки изображения определяется степень её облачногопокрытия.Данные, предоставляемые MODIS Cloud Mask, позволяют не только определить, закрыт ли данный пиксель облаками, но и узнать дополнительные пара94Рисунок 3.3 – Участок космического изображения MODIS, видны более тёмные выгоревшиетерритории и шлейф дыма от активного пожара, и наложенный на него полигон.Рисунок 3.4 – Слева — маска облачности, справа — исходное изображение MODIS в искусственных цветах.
Помимо облаков, маска облачности определяет водоёмы, которые в исследуемой задаче также отбрасываются.95метры. Было сделано предположение, что слабая, полупрозрачная облачностьможет ухудшать точность распознавания, поэтому было создано два варианта алгоритма использования маски облачности. В любом случае, точки, отмеченные как «облачность» с высокой степенью уверенности, отбрасываются ине входят ни в обучающую выборку, ни в тестовую, откуда они исключаются на основании предварительного вычисления маски облачности для каждогоизображения; точки, отмеченные, как «отсутствие облаков» также одинаковообрабатываются.
Различным способом происходит обработка точек, попавшихв зону, где маска облачности отмечена как дымка, туман, аэрозоль. В первомслучае все такие точки обрабатываются как безоблачные. Во втором случаетакие точки образуют отдельный класс "слабая облачность и таким образом вклассификацию добавляется третий класс. Полностью отбрасывать все точки,имеющие хоть какую-то степень облачности, нецелесообразно, так как в такомслучае была бы обработана только незначительная часть данных, а большаячасть отбракована.На следующем этапе определяется, лежит ли точка и её соседи по 4-связности в каком-либо из полигонов.
Если все 5 точек лежат в одном из полигонов,то точка добавляется к обучающей выборке как класс «выгоревшая территория». Если ни одна из пяти точек не лежит в полигонах, точка добавляется квыборке как класс «невыгоревшая территория», с учетом вероятностного разреживания, так как количество точек, не лежащих в полигонах на несколькопорядков больше. Если же часть точек лежит в каких-либо полигонах, а частьне входит в них, такая точка не добавляется в обучающую выборку, как лежащая на границе полигона. Граничные точки не входят в обучающую выборку,так как для них велика вероятность ошибки из-за неточности геолокации, интегрирования значений отражающей способности в пиксель. В то же время,точки, лежащие во внутренней части полигона, представляющего выгоревшуютерриторию, считаются достоверно выгоревшими, а лежащие в удалении от полигонов - достоверно не пострадавшими от пожара (см.
рис. 3.5).96Рисунок 3.5 – Пример фрагмента пиксельной сетки и полигона прошедшего активного пожара. Пиксели, отмеченные светло-серым, лежат в полигоне, отмеченные тёмно-серым — входятв обучающую выборку для выгоревшей территории, отмеченные точкой входят в выборкудля невыгоревшей территории.Вероятностное разреживаниеприменяется для увеличения в выборкедоли класса, который на изображении встречается реже — выгоревшей территории. Теория интеллектуального анализа данных требует, чтобы размер обучающей выборки для различных классов был близок, иначе возможны значительные ошибки в классификации.
Таким образом, часть точек, принадлежащихклассу невыгоревшей территории, необходимо отбросить. Чтобы при этом получить представительную выборку класса, включающую в себя точки из различных частей изображения, выполняются следующие операции. До начала сканирования изображения производится оценка соотношения величин выборки дляразных классов. Для двух классов назовём это отношениегде = 1 /2 , ≫ 1,1 , 2 — оценка количества элементов выборки большего и меньшего классасоответственно.Затем, при заполнении обучающей выборки, элементы меньшего классапопадают туда все без разреживания.
Для большего класса при первой встречеэлемента выбирается случайная величинаматическим ожиданием.,имеющая распределение с матеПри реализации в виде компьютерной программы97выбирается псевдослучайное число, распределённое на отрезке[0; 2].При добавлении элемента большего класса в обучающую выборку получается такоепсевдослучайное число1 , и затем следующие 1ся из обучающей выборки,псевдослучайное числоэлементов класса исключают1 + 1-й включается в выборку, и генерируется новое2 . Таким образом, математическое ожидание размероввыборки для двух классов получается одинаковым.Блок-схема двух вариантов алгоритма обучения представлена на рис. 3.6,3.7.3.2.7. Классификация точекПорядок действий при классификации точек изображения, составляющеготестовую выборку, приведен на рис.