rpd000003197 (1012246), страница 35
Текст из файла (страница 35)
i1,i2= arg min{ rij }.
i,j=1,..,k; ij
Следующий шаг предполагает определение кластера K2={K1,i3} путем присоединения (объединения) кластера K1 c объектом i3.
Также, как и при определении межгрупповых расстояний rij, существует несколько различных методов объединения кластеров на основе расчета межкластерных расстояний.
1. Оценка межкластерных расстояний по ближайшей границе. В этом случае расстояние между двумя кластерами определяется как расстояние между двумя ближайшими объектами в различных кластерах. Обозначим через R1- расстояние между объектом i, i i1,i2 и кластером K1. Тогда:
где - расстояние между объектами i1, i;
- расстояние между группами объектами i2, i.
2. Оценка межкластерных расстояний по самой удаленной границе:
3. Оценка межкластерных расстояний методом среднего:
4. Оценка межкластерных расстояний методом взвешенного среднего. Этот метод аналогичен рассмотренному выше, но отличается тем, что размер исследуемого кластера (то есть число объектов, его образующих) используется в качестве весового коэффициента.
Таким образом, рассчитав k-2 значения межкластерных расстояний R1 между кластером К1 и объектами i =1,..,k; i i1,i2, не вошедшими в кластер К1, определим кластер К2 путем присоединения к кластеру К1 объекта i3, такого, для которого:
i3 = arg min R1,
то есть объекта, ближайшего к кластеру К1.
Момент окончания процесса кластеризации может либо задаваться пользователем (путем указания требуемого числа кластеров или максимального расстояния, при котором допускается объединение), либо до полного исчерпания списка исследуемых групп.
Графически результат кластеризации представляется в виде графической зависимости, называемой дендрограммой и имеющей следующую структуру
Замечания:
1) Результаты кластеризации в существенной степени зависят от выбранного метода, поэтому их следует рассматривать в большей степени как форму наглядной интерпретации результатов многомерного анализа, как предварительный этап для последующего содержательного анализа;
2) методы кластеризации не дают какого-либо способа проверки статистических гипотез об адекватности полученных классификаций.
Методы классификации многомерных экспериментальных данных.
Математическая постановка задачи классификации опирается на априорные данные, включающие набор эталонных объектов, объединенных в классы Yk, k=1,…,m. Каждый из эталонных объектов характеризуется значениями совокупности признаков xj ,j=1,…n. Предполагается, что эта совокупность признаков одна и та же для объектов всех эталонных классов. Совокупность значений xj ,j=1,…n образует вектор признаков X и определяет свойства эталонных объектов.
Целью классификации является обоснованное отнесение исследуемого объекта, свойства которого характеризуются вектором признаков X*, сформированным по результатам текущих наблюдений, к одному из эталонных классов Yk .Иными словами, речь идет о том, чтобы подтвердить у объекта экспериментального исследования наличия некоторых заданных свойств, присущих эталонным классам.
В формализованном виде сформулированная цель может быть представлена следующим образом:
(X*) Yk ,
где (X) – решающее правило (алгоритм), отображающее текущую реализацию вектора признаков распознаваемого объекта в решение относительно его принадлежности к одному из эталонных классов.
Перечислим традиционные подходы, которые используются для решения задач классификации. Их иерархическая структура, учитывающая уровень априорной информированности о свойствах эталонных классов, приведена на следующем рис. 8.2.
Метод статистической классификации. Реализация метода статистической классификации [11] опирается на предположение о том, что для каждого из эталонных классов Yk, k=1,…,m известны многомерные функции P(X/Yk) условной плотности вероятности вектора признаков X=(x1,…,xn)T, характеризующие частоту, с которой встречается любая комбинация значений признаков для каждого эталонного класса, и априорные вероятности P(Yk) характеризующие частоту, с которой встречается каждый из эталонных классов.
Доказано [11], что минимизация вероятности ошибочной классификации достигается при использовании байесовского решающего правила, в соответствии с которым оптимальным решением i для наблюдаемого вектора признаков X*, является такое, для которого неравенство:
P(Yi)P(X*/Yi) P(Yj)P(X*/Yj), выполняется при любом j i.
Таким образом, в реализации метода байесовской классификации можно выделить два этапа:
-
на первом этапе, используя так называемую «обучающую» выборку, по известным значениям признаков распознавания для эталонных классов получают оценку условных плотностей вероятности P(X/Yk) и априорные оценки вероятностей P(Yk).;
-
на втором этапе, считая известными вероятности P(X/Yi) и P(Yi), наблюдаемый вектор X* относят к некоторому классу i, используя приведенное выше байесовское решающее правило.
Методы классификации, основанные на известном классе решающих функций.
Подобные методы не предполагают априорное знание многомерных функций условной плотности Р(Х/Yk), но опираются на знание структуры решающего правила (Х). Статистика наблюдений в этом случае используется для оценок параметров критерия принятия решения (функции (Х)).
К числу подобных методов, наиболее широко используемых в практических приложениях, можно отнести следующие:
-
методы многомерной линейной классификации [1];
-
метод потенциальных функций [1];
-
методы классификации на основе нейронных сетей [6].
Методы классификации на основе нейронных сетей в меньшей степени, чем статистические методы ориентированы на использование статистических закономерностей связи признаков и исследуемых классов. Для их реализации достаточно наличия обучающей выборки данных.
К недостатку такого метода можно отнести то, что обучение нейронной сети происходит на конечном наборе реализаций вектора признаков для каждого из эталонных классов, поэтому если в текущем сеансе регистрируется вектор признаков, не присутствовавший в обучающей выборке, это может приводить к недостоверным выводам.
Основная идея лежащая в основе нейронных сетей - это последовательное преобразование сигнала, параллельно работающими элементарными функциональными элементами. Основой любой нейронной сети является нейрон. Нейрон состоит из 3 логических блоков: входы, функция преобразования, выход (рис. 3.4). На каждый вариант входа (вектор) функция преобразования нейрона вырабатывает определённый сигнал (выход) (обычно скаляр), и передает его на входы другим нейронам сети. Подавая на входы некоторым нейронам сигналы извне, и отметив выходы части нейронов, как выходы сети в целом, мы получим систему осуществляющею отображение Rn Rm, где n - размерность входа (совокупность признаков, характеризующих исследуемый объект), а m - размерность выхода (в нашем случае число эталонных классов, к которым должен быть отнесен объект).
Известные нейронные сети различаются функцией преобразования в нейронах, внутренней архитектурой связей между нейронами и методами настройки (обучения). Для того, чтобы нейронная сеть выполняла желаемое отображение, требуется особым образом настроить функции преобразования нейронов и внутреннюю архитектуру связей. Чаще всего архитектура связей выбирается заранее из известных моделей и остаётся неизменной во время работы и настройки сети; настраиваемой же является функция преобразование. Зачастую применяется следующий подход построения функции преобразования: все элементы вектора входа суммируются с некоторыми весами (синаптические веса), а далее сумма преобразуется нелинейной функцией (самый простой случай - порог) и результат работы данной функции и есть выход нейрона. В процессе настройки сети (обучения) уточняются только синаптические веса у нейронов. Для каждой нейросетевой архитектуры существуют различные методы обучения.
Формальный нейрон (рис. 3.4 ) состоит из 3 логических блоков: входы, функция преобразования, выход. Рассмотрим подробнее блок функции преобразования. Алгоритм работы блока функции преобразования состоит в следующем:
-
входные сигналы умножаются на коэффициенты (синаптические веса или просто веса). Для каждого входа - свой коэффициент;
-
умноженные на веса входы суммируются;
-
результат суммирования подаётся на вход функции нелинейного преобразования (обычно f(X) 1);
-
результат нелинейного преобразования подаётся на выход.
В качестве функции нелинейного преобразование обычно используются следующие:
1) простой порог: f(X)=1, X ; f(X)=0, X ;