Лекция 11 (1185276), страница 2
Текст из файла (страница 2)
Оператор C называется решающимправилом, еслиC(|| b ji ||mk ) || sji ||mk , где1 при b ji b jt , t 1, , k 0 в противномслучаеsjij 1,,mРешение задачи кластерногоанализа коллективами алгоритмовОпределение 3. Комитетным синтезом информационной матрицы|| ˆ ji ||mk по множеству исходных кластеризаций,задаваемых набором инфориационными матриц I {I1,называется последовательное применение кI, Ir} ,сумматораΒ и решающего правила C .Для оценивания коллективного решения вводится понятиеконтрастных матриц оценок, соответствующих случаям, когда всеисходные решения задач классификации оказалисьодинаковымиРешение задачи кластерного анализаколлективами алгоритмовc||bji ||mkОчевидно, что для произвольной контрастной матрицыbcji {0, r} . ПустьBc {|| bcji ||mk }- множествовсевозможных контрастных матриц .
Качеством произвольнойматрицы B || b ji ||mk , вычисленной сумматором, определяетсякак минимальное расстояние до матриц из множества B c :mkc( B) min|bji b ji |cc B Bj 1 i 1.Решение задачи кластерногоанализа коллективами алгоритмовНабор информационных матриц {I1, , I r} назовёмэквивалентным {I1, , I r } , если I1 K ( I1 ), , I r K ( I r )Задача оптимального коллективного синтеза сводится поискуэквивалентного {I1,, I r } набора {I1m ,, I rm}, для которого врезультате применения сумматора получается матрицаBm сминимальным значением среди всевозможных матриц ,вычисляемых сумматором по наборам, эквивалентным{I1,, Ir }.Визуализация многомерныхданныхПри решении задач распознавания, классификации и анализаданных важное значение имеет наличие средств визуализациимногомерных данных, позволяющих наглядно получатьпредставление о конфигурации классов, кластеров ирасположении отдельных объектов.Пусть в n - мерном евклидовом пространстве задан набор из mэлементовxi R n , i 1,,m .Визуализация многомерныхданных2Требуется найти отображение этого набора точек на плоскость Rтак, чтобы метрические соотношения между образами точек наплоскости максимально соответствовали бы метрическимсоотношениям между ними в исходном n -мерномпризнаковом пространстве: «близкие» («далекие») n - мерныеточки, остались бы «близкими» («далекими») на плоскости.Пустьy i - отображение xi на R 2 .
ij– расстояние междуэлементами x i и x j в R n , d ij – расстояние между элементамиyi и2yj в RВизуализация многомерныхданныхИщется такое отображение, для которого сумма различийрасстояний между точками будет минимальнаmmJ( y) (dij ij ) 2 min, гдеj 1 i 1y (y1,, ym )Минимизация функционала J( y ) проводится с помощьюстандартной процедуры градиентного спускаВизуализация многомерныхданныхyl 1 yl grad[J( yl )], гдеl- номер итерации, y l -конфигурация на плоскости, полученная на l -ой итерации,grad[ J( yl )] - градиент в “точке” y l , - шаг градиентногоспуска.В качестве начальной конфигурации может использоватьсяпроекция точек xi R n , i 1,, m на некоторую плоскость,соответствующую паре признаков.Визуализация многомерныхданныхПримерпроекциинаплоскость из пространстваразмерности26,полученнойописаннымметодом.
Точкам зелёного исинего цвета соответствуютописаниядвухизображений.типовМетоды преобразованияпризнакового пространстваОписанный метод многомерной визуализации фактическиявляется методом нелинейного преобразования исходногопризнакового пространства. Вместе с тем существуетэффективный метод линейной трансформации признаковогопространства, позволяющий получить существеннуюинформацию о существующих тенденциях. Данный методназывается Методом главных компонент (Principal componentanalysis) , а также преобразованием Карунена-Лоэв(Karhunen–Loeve transform)Метод главных компонентМетод главных компонент основан на переходе от исходногомножества вообще говоря коррелированных переменныхX1,Y1,,Yn, Xnк новому набору переменныхтаких, чтоcov(Yi ,Yj ) 0 при i j, i, j 1,Переход к некоррелированным переменным может бытьосуществлён с помощью линейного преобразованияn,Y j wij X ij 1,nМетод главных компонентзадаваемого матрицей вещественных коэффициентовW || wij ||nn .
Из симметричности ковариационной матрицы|| cov( X i , X j ) ||nn следует, чтостроки матрицы Wна самом деле могут являютсясобственными векторами|| cov( X i , X j ) ||n‘nПри этом строки матрицы W , соответствующие различнымсобственным значениям, всегда ортогональны друг другу, тоnестьw wj 1ijji 0 при i i, i, i 1,,nМетод главных компонентНетрудно показать также, что собственное значения матрицы|| cov( X i , X j ) ||nn, соответствующее строке( w1 j ,, wnj )nявляется дисперсией новой переменной Y j wij X ij 1Полученные в результате преобразования W переменныеназывают главными компонентами.
Главные компонентыранжируются в зависимости от величин соответствующихсобственных значений.Метод главных компонентПеременная, соответствующая максимальному собственномузначению 1и задаваемая соответствующим собственномувектором w1 называется первой главной компонентой.
Онаобладает максимальной дисперсией, равной 1 . Следуетотметить, что для гиперплоскости P1 , задаваемойнаправлением w1 и проходящей через геометрический центрS достигает своегоминимума сумма квадратов расстоянийточек S в пространстве исходных переменных отгиперплоскости P1 .Метод главных компонентВычтем из векторов - описаний объектовS соответствующиезначения первой компоненты. Для второй по величинесобственного значения ( дисперсии )компоненте, 2 главнойдостигает минимума квадрат расстояния отизменённых векторов S до гиперплоскости, задаваемойсоответствующим 2собственным вектором w 2ипроходящей через геометрический центр S .Аналогичные свойства справедливы также и до последующихглавных компонент.Метод главных компонентИнтересно, что сумма квадратов отклонений для некоторойгиперплоскости пропорциональна величине соответствующегоданной гиперплоскости собственного значения.Метод главных компонент имеет широкий спектр применений,включая формирование нового признакового пространства,снижение размерности, визуализацию, анализ тенденцийсуществующих в данных и др..