Диссертация (1137226), страница 12
Текст из файла (страница 12)
Так, при оценке последствий природных пожаров применяют индекс нормализованной доли сгоранияпроизводный от него разностный индекс , ии другие аналогичные индексы, основанные на том, что уголь имеет максимум отражающей способности вкоротковолновом инфракрасном диапазоне (1,4-3 мкм):73 = − + = до − после(3.11)(3.12)Как и в случае с вегетационными индексами, данные характеристики позволяют не только отличить сгоревшую территорию от не сгоревшей, но и количественно оценить характеристику — в данном случае, степень поврежденияприродного сообщества пожаром [89].3.1.4.
Методы распознавания образовРаспознавание образов — отнесение исходных данных к какому-либо классу, основываясь на признаках, содержащихся в этих данных. Методы распознавания образов занимают важное место в тематической обработке данных дистанционного зондирования, позволяя в автоматическом режиме дешифроватьизображения, выделяя на них интересующие области и объекты. Методы распознавания образов на графических изображениях включают в себя управляемуюи неуправляемую классификацию, искусственные нейронные сети, выделениеграниц.Важным этапом распознавания образов на изображении является введениепонятия объекта, подлежащего классификации, и построение пространства признаков, определяющих объект. Объектом может являться пиксель изображения,в таком случае говорят о попиксельной классификации, а признаками объектаявляется вектор яркостных характеристик данного пикселя, а также, возможно, его окружения.
Также в качестве объекта могут быть выбраны некоторыеобласти на изображении, в таком случае к яркостным признакам могут быть добавлены текстурные, геометрически и топологические, выражающие свойствавсей области. В таком случае классификация называется площадно-ориентированной [84] или объектно-ориентированной [158].74Яркостные признаки для области могут состоять из векторов яркости всехеё пикселей, или же средним значением вектора.
Текстурные признаки выражают динамику перехода яркостей внутри области, и представлены многими характеристиками [101]. Геометрические признаки характеризуют размеры и форму области или объекта. Принятие к рассмотрению топологических признаковотличает объектно-ориентированную классификацию от площадно-ориентированной. Эти признаки характеризую взаимное расположение объектов, ставякласс объекта в зависимость от характеристик соседствующих с ним объектов[144].3.1.5.
Снижение размерности пространства признаковПри большом количестве признаков, характеризующих объект, задача классификации усложняется, требуемая обучающая выборка для достижения статистически достоверного обучения растет квадратично от размерности пространства признаков [105]. При этом некоторые из выбранных признаков могут плохо разделять классы, или же являются линейно зависимыми, или сильно коррелированными, и таким образом, большая размерность пространства не дает большой информативности. Однако, отбрасывая признаки, можно потерятьважную информацию, имеющую значение для разделения классов.
Поэтому существуют различные методы, позволяющие эффективно уменьшать пространство признаков, минимизируя потерю информации при этом. Количественнойвеличиной, характеризующей потери информации при снижении размерности,является коэффициент детерминации (объяснённая дисперсия)2 ,выражающийся по формуле2 = 1 −где— выборочная дисперсия после снижения размерности,(3.13)— в исходномпространстве признаков.Метод главных компонентсостоит в нахождении подпространств ис75ходного пространства признаков, в проекции на которые разброс данных, тоесть среднеквадратичное отклонение от среднего значения, максимален.
Дляэтого по имеющейся центрированной выборке объектов = (x1 −, ..., xm −)строится выборочная ковариационная матрица = [ ], =1 .−1(3.14)Ортонормированный набор собственных векторов ковариационной матрицыний- набор1 , ... ,расположенный в порядке убывания собственных значе1 ≥ 2 ≥ ... ≥ .Собственные векторыным компонентам1 , ...составляют матрицу преобразования к глав = 1 , ... = Λ,причем матрица(3.15)является ортогональной, то есть = ,а матрицаΛ — диагональной, на диагонали расположены собственные числа, соответствующие собственным векторамВычисление матрицы,[127].то есть спектрального разложения ковариационной матрицы, сводится к сингулярному разложению матрицы центрованныхданных,и возможно без вычисления ковариационной матрицы [115].После преобразования, учитывая упорядочивание собственных векторовпо убыванию, первые компоненты содержат основную часть информации выборки. Соответственно, некоторое количество компонент с конца могут бытьотброшены с минимальными потерями информации.
Количество главных компонент , то размерность пространства после преобразования, может быть определено по величине объяснённой дисперсии:∑︁=12>∑︁=12 ,(3.16)76где ∈ (0; 1)— доля объяснённой дисперсии, необходимая для исследуемойзадачи. При неизвестном заранее соотношении сигнал-шум, но при наличиитакого разделения, может быть использован метод «сломанной палки»:+1> ,< +1где =1(3.17)∑︀1= , в отдельных случаях используются и другие ограничения[108].Метод независимых компонентсоздан на основе метода главных компонент, но вместо условия некоррелированности базисных векторов после преобразования установлено более сильное условие их статистической независимости.Задача анализа независимых компонент состоит в поиске матрицытакой, чтоx = e,где(3.18) — -мерный случайный вектор, — -мерный случайный вектор, > ,причем известна конечная выборка случайного вектора.[22, 107].3.1.6.
Неконтролируемая классификация (кластеризация)Группа методов кластеризации, называемых также классификацией безобучения, неуправляемой (неконтролируемой) классификацией, основана на следующей постановке задачи сегментации. Существует набор объектов1... ,характеризуемых вектором признаков()()()( ) = 1 , 2 , ... () , =В случае сегментации космических изображений, объектами являются пиксели изображения, а признаками — яркости в различных спектральных диапазонах, а такжепространственное расположение — координаты пикселя на изображении илигеографические координаты соответствующей точки на поверхности Земли.Задача кластеризации состоит в отнесении каждого объекта к одному из >= 2кластеров () , = 1...
-групп объектов, причем объекты внутри77одного кластера должны быть сходны между собой по определенной, основанной на векторе признаков метрике, а объекты разных кластеров — существеннодруг от друга отличаться. Строгая математическая формулировка зависит отконкретного метода, и не может быть описана в общем случае.Алгоритмы кластеризации можно разделить на две большие группы —иерархические и неиерархические.
Иерархические алгоритмы строят системуиерархии — дерево кластеров, либо диаграмму достижимости, и итоговое разбиение на кластеры осуществляется разрезом дерева на определенном уровне[109]. Неиерархические методы оптимизируют заранее заданный критерий качества разбиения, без учета иерархии групп, их можно подразделить на методыразбиений, плотностные методы и сеточные методы. Также к неиерархическимметодам кластеризации относятся нейронные сети при обучении без учителя,которые описаны в соответствующем разделе.При иерархической кластеризации возможно либо последовательно разделение кластеров на все более мелкие (разделительные методы), либо наоборот — объединение кластеров начиная от единичных объектов до требуемогоуровня (агломеративные методы).
В любом случае, эти алгоритмы просты вреализации и результат работы не зависит от порядка ввода данных, однаковычислительная сложность порядка( 3 )достаточно велика, и невозможноодновременное выделение кластеров различной структуры. К иерархическималгоритмам относятся алгоритмы CURE [98], BIRCH [165].Методы разбиений основаны на поиске разбиения исходного множества,минимизирующего некую целевую функцию. Для поиска оптимального разбиения производится последовательное изменение некого начального разбиения.К недостаткам данного класса методов относится сильная зависимость формыкластеров от выбора целевой функции, а также нахождение не глобального, алокального минимума целевой функции, так как поиск глобального слишкомвычислительно затратен.
Тем не менее, эти алгоритмы получили значительнораспространение, в частности метод К-средних (k-means). В этом методе тре78буется задать число кластеров заранее, затем случайно или детерминировановыбираются начальные центры каждого кластера.В дальнейшем в цикле на каждом шаге сначала все объекты относятся кодному из кластеров, расстояние до центра которого минимально:|| − || = =1... || − ||− > ∈ Затем вычисляются новые центроиды (центры масс) кластеровкласса(3.19)() для каждого () :()1 ∑︁.=||||()(3.20)∈Таким образом итеративно решается задача минимизации внутриклассовых расстояний:∑︁∑︁||() − () ||2 − > ,(3.21)=1 () ∈ ()где|||| и цикл повторяется до сходимости алгоритма, то есть пока на очередномшаге кластеры не меняются.
В статье [82] показано, что данный алгоритм всегдасходится.Этот алгоритм наследует все недостатки такого вида: ищется локальныйоптимум, а значит, результат зависит от начального выбора центроидов; кроме того, требуется заранее знать количество классов. При этом метод имеетневысокую вычислительную сложность и всегда сходится, поэтому он широкораспространен, и подвергается различным модификациям для устранения присущих ему недостатков.Метод ISODATA [80] является модификацией метода К-средних, описывающий подбор количества классов в зависимости от настраиваемых параметров, на каждом шаге количество кластеров может меняться. Кроме того, в данной модификации слишком большие кластеры разбиваются на несколько, чтоустраняет выбросы в данных, от которых страдает k-means.