Том 2 (1109662), страница 26
Текст из файла (страница 26)
Вместо образцов волос могут быть археологические объекты, образцы материалов, органические соединения и т.д. Будем обобщенно называть их просто объектами. Количественные характеристики объектов, служащие основанием дляклассификации, называются признаками. В нашем случае признаки — это содержания определенных элементов. В других случаяхпризнаками могут служить разнообразные физические параметрыили численные характеристики (дескрипторы) химической структуры. Спектральные или хроматографические данные также могутслужить источником признаков.Расположим все данные в виде матрицы X, в которой каждаяиз п строк соответствует определенному объекту, а каждый из рстолбцов — определенному признаку:I X11X =\X12... х1рX21X22...х2рхХп2...ХПрп1\42^^)Предварительная подготовка данныхВ первую очередь необходимо проверить данные на полноту.
Всели позиции в матрице X заполнены? Если какие-то позиции пусты, их можно заполнить средними значениями по соответствующему столбцу или случайными величинами в пределах диапазонаизменения соответствующего признака.Признаки, имеющие постоянное значение (не изменяющиеся илипрактически не изменяющиеся при переходе от образца к образцу)или сильно коррелирующие с другими признаками, не представляютинтереса для классификации и должны быть исключены из рассмотрения.Как видно из табл. 6.9, отдельные признаки могут сильно различаться по своей величине.
Поэтому значения признаков необходимо масштабировать. Один из наиболее распространенных способовмасштабирования — автомасштабирование. Для значений признаков, содержащихся в k-м столбце, автомасштабирование выполняется какIxik =xik~~ Xk,„s.ЛоЛ(6.43)kЗдесь Xk — среднее значение признака к k-м столбце, a Sk — стан-6.3. Многомерные методы: обработка массивов данных 141дартное отклонение:пSki=l\п-1После автомасштабирования каждый признак будет иметь среднее значение равное нулю, и стандартное отклонение равное единице.Методы неконтролируемого обученияМетоды неконтролируемого обучения предназначены для группировки наборов признаков, характеризующих объекты, в определенные классы. Для группировки используют проекционные методы иметоды кластерного анализа.Проекционные методыОсновным проекционным методом является анализ главных компонент.
Для этого исходную матрицу признаков преобразуют так,чтобы по возможности сократить размерность пространства, охватывающего векторы признаков. Векторы, характеризующие направления осей координат в новом пространстве (уменьшенной размерности), называются главными компонентами. Если для описаниямассива признаков достаточно всего двух или трех главных компонент, данные можно представить графически и сгруппировать вклассы визуально.Вернемся к нашим данным криминалистического анализа. Координата вектора г'-го объекта по первой (а также любой другой) осиглавных компонент РСЦ является некоторой линейной комбинациейвсех исходных значений признаков объекта:PCiJ = onXji + Ui2Xj2 + ...
+ aipXip.(6.44)Коэффициенты а^- можно рассчитать методами линейной алгебры путем анализа собственных (или сингулярных) значений исходной матрицы. Число главных компонент обычно выбирают так, чтобы размерность полученного пространства позволяла описать заранее обусловленную, достаточно большую, долю дисперсии исходныхданных. В нашем примере двух главных компонент достаточно длятого, чтобы описать 92, 9% дисперсии. Таким образом, весь массив исходных данных можно с хорошим приближением представитькак множество точек, расположенных в одной плоскости.
Взаимное расположение точек, характеризующих составы образцов волос,Глава 6. Хемометрика-''H. !кШ<1'5 Л>.П.'.жМв плоскости первых двух главных компонент показано на рис. 6.9.Как видно из рисунка, в этой плоскости четко различаются три отдельные области. Можно заключить, что образцы, расположенные впределах каждой области, принадлежат одному и тому же человеку.Таким образом, данные содержания указанных элементов позволяют однозначно отнести образец волос определенному человеку.1,0PC20,5C*2j6~TZ>0,0-0,5""ТТ^Л-1,0-1,5--2,0 " I-2,64V-1,69-—-""^-0,6VI0,4II1,42,4PC,Рис. 6.9.
Представление массива данных из табл. 6.9 при помощи первыхдвух главных компонент. Числа при точках соответствуют номерам образцов.Кластерный анализДругой метод группировки данных называется кластерным анализом. В этом методе производят последовательную, шаг за шагом,группировку объектов на основании максимальной близости значений их признаков. В результате образуются группы объектов (кластеры), имеющие иерархическую структуру (рис.
6.10).Для оценки степени близости объектов друг другу используютту или иную меру расстояния между ними. Чем меньше расстояниемежду объектами, тем они более похожи. Чаще всего применяют величину евклидова расстояния. Евклидовым расстоянием dij междуобъектами г и j называется величинаdij — \2—/ ^Xikx ki'-(6.45)Если представить каждый объект в виде точки в р-мерном пространстве, координаты которой равны значениям соответствующихпризнаков, то евклидово расстояние есть длина отрезка, соединяю-6.3.
Многомерные методы: обработка массивов данных 143щего две такие точки. Рис. 6.11 иллюстрирует понятие евклидоварасстояния для случая, когда каждый объект характеризуется всегодвумя признаками.0,51,0H-iII&L376номер объектаР и с . в.10. Результат кластерного анализа данных табл.
6.9, представленныйв виде дендрограммы. По оси ординат отложены значения мерысходства между объектами — величин Sij, рассчитываемых изнормированных евклидовых расстояний (уравнение (6.46)).Чем больше евклидово расстояние, тем больше различие между объектами. Вместо меры различия в кластерном анализе часто используют мерусходства между объектами. Мера сходства междуг-м и J-M объектами определяется какпризнак 1Р и с . 6.11. Евклидово расстояние между г-ми j - м объектами, описываемыми при помощидвух признаков.dij ( m a x ), (6.46)где djj(max) есть максим а л ь н о е с р е д и всех з н а ч е н и й dij. Д л я п а р ы п о л н о стью тождественных объ-Глава 6.
Хемометрика 1ч-;ц ')*,(*?";», аа«»*''»,о:?р«й Zsектов Sij = 0. Для объектов, максимально различающихсясобой, Sij = I.Для проведения иерархической кластеризации объектовет в первую очередь рассчитать все евклидовы расстоянияпарами объектов. В табл. 6.10 эти расстояния представленыматрицы расстояний.междуследумеждув видеТаблица 6.10. Матрица расстояний для объектов из табл. 6.9.2№1341022,405032,2503,392041,3212,5703,017052,7131,6133,3912,799063,0624,2321,7243,7664,62373,3784,6111,6663,7934,6551,337082,5620,6663,5312,8211,1894,5284,860091,6673,6032,9911,5113,987ЗД163,3063,9105678900Ввиду того, что матрица расстояний симметрична, приведенатолько ее нижняя часть.
Наименьшее евклидово расстояние, равное 0,666, наблюдается между объектами 2 и 8. Эти два объектаобъединим в один кластер и рассчитаем расстояния всех остальныхобъектов до центра тяжести этого кластера. Такой расчет прощевсего выполнить путем усреднения расстояний до объектов, образующих кластер. Например, расстояние от объекта 1 до кластера,образованного объектами 2 и 8, равноd(HOBoe) =d2l + d81=2,405 + 2,562= 2,484.В результате получим новую матрицу расстояний, уже меньшегоразмера. Затем вновь найдем два объекта (или кластера), наиболееблизкие между собой, и повторим описанную процедуру. Иерархическую структуру формируемых при этом кластеров можно представить в виде дендрограммы (рис. 6.10).На сколько же кластеров следует в итоге разделить исходныеданные? Число кластеров зависит от характера решаемой задачи.В нашем случае заранее известно, что образцы волос принадлежаттрем различным людям.
Поэтому на дендрограмме следует провести горизонтальное сечение так, чтобы оно пересекало три вертикальных отрезка. В этом случае данные разделятся на три кластера. Такое сечение можно провести, например, при S = O, 75. К трем6.3. Многомерныеметоды:обработкамассивовданных145полученным кластерам относятся образцы 2,8,5; 1,9,4 и 3,7,6, соответственно (табл.
6.11). Состав полученных кластеров идентичентому, который был ранее установлен посредством анализа главныхкомпонент (рис. 6.9).Т а б л и ц а 6.11. Результаты группировки образцов волос, составы которыхприведены в табл. 6.9, методом кластерного анализа.•»': •'•'•••^•"[*?-:л:Номер образцаПринадлежность1В2А3С4В5А6С789сАВЕсли число кластеров заранее неизвестно, то его можно выбрать,пользуясь непосредственно величинам расстояний между различными объектами.Контролируемое обучениеКонтролируемым обучением называется собственно процесс классификации, т.е.
отнесения неизвестного объекта к тому или иномуклассу на основании значений его признаков. Классы могут быть известны заранее или установлены при помощи методов неконтролируемого обучения. Для осуществления классификации каждый классобычно предварительно описывают некоторой математической моделью.В нашем случае задача классификации состоит в том, чтобыотнести образец волос, найденных на месте преступления, одномуиз людей — А, В или С — на основании результатов его элементногоанализа (табл. 6.12).Т а б л и ц а 6.12. Элементный состав образца волос (частей на миллион), подлежащего классификации.CuMnClBrI9,20,2722009,84,7Наиболее распространенным методом классификации являетсялинейный дискриминантный анализ (ЛДА).