Том 2 (1109662), страница 26

Файл №1109662 Том 2 (М. Отто - Современные методы аналитической химии) 26 страницаТом 2 (1109662) страница 262019-04-30СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 26)

Вместо образцов волос могут быть ар­хеологические объекты, образцы материалов, органические соеди­нения и т.д. Будем обобщенно называть их просто объектами. Ко­личественные характеристики объектов, служащие основанием дляклассификации, называются признаками. В нашем случае призна­ки — это содержания определенных элементов. В других случаяхпризнаками могут служить разнообразные физические параметрыили численные характеристики (дескрипторы) химической струк­туры. Спектральные или хроматографические данные также могутслужить источником признаков.Расположим все данные в виде матрицы X, в которой каждаяиз п строк соответствует определенному объекту, а каждый из рстолбцов — определенному признаку:I X11X =\X12... х1рX21X22...х2рхХп2...ХПрп1\42^^)Предварительная подготовка данныхВ первую очередь необходимо проверить данные на полноту.

Всели позиции в матрице X заполнены? Если какие-то позиции пу­сты, их можно заполнить средними значениями по соответствую­щему столбцу или случайными величинами в пределах диапазонаизменения соответствующего признака.Признаки, имеющие постоянное значение (не изменяющиеся илипрактически не изменяющиеся при переходе от образца к образцу)или сильно коррелирующие с другими признаками, не представляютинтереса для классификации и должны быть исключены из рассмо­трения.Как видно из табл. 6.9, отдельные признаки могут сильно разли­чаться по своей величине.

Поэтому значения признаков необходи­мо масштабировать. Один из наиболее распространенных способовмасштабирования — автомасштабирование. Для значений призна­ков, содержащихся в k-м столбце, автомасштабирование выполня­ется какIxik =xik~~ Xk,„s.ЛоЛ(6.43)kЗдесь Xk — среднее значение признака к k-м столбце, a Sk — стан-6.3. Многомерные методы: обработка массивов данных 141дартное отклонение:пSki=l\п-1После автомасштабирования каждый признак будет иметь сред­нее значение равное нулю, и стандартное отклонение равное единице.Методы неконтролируемого обученияМетоды неконтролируемого обучения предназначены для группи­ровки наборов признаков, характеризующих объекты, в определен­ные классы. Для группировки используют проекционные методы иметоды кластерного анализа.Проекционные методыОсновным проекционным методом является анализ главных компо­нент.

Для этого исходную матрицу признаков преобразуют так,чтобы по возможности сократить размерность пространства, охва­тывающего векторы признаков. Векторы, характеризующие напра­вления осей координат в новом пространстве (уменьшенной размер­ности), называются главными компонентами. Если для описаниямассива признаков достаточно всего двух или трех главных ком­понент, данные можно представить графически и сгруппировать вклассы визуально.Вернемся к нашим данным криминалистического анализа. Коор­дината вектора г'-го объекта по первой (а также любой другой) осиглавных компонент РСЦ является некоторой линейной комбинациейвсех исходных значений признаков объекта:PCiJ = onXji + Ui2Xj2 + ...

+ aipXip.(6.44)Коэффициенты а^- можно рассчитать методами линейной алгеб­ры путем анализа собственных (или сингулярных) значений исход­ной матрицы. Число главных компонент обычно выбирают так, что­бы размерность полученного пространства позволяла описать зара­нее обусловленную, достаточно большую, долю дисперсии исходныхданных. В нашем примере двух главных компонент достаточно длятого, чтобы описать 92, 9% дисперсии. Таким образом, весь мас­сив исходных данных можно с хорошим приближением представитькак множество точек, расположенных в одной плоскости.

Взаим­ное расположение точек, характеризующих составы образцов волос,Глава 6. Хемометрика-''H. !кШ<1'5 Л>.П.'.жМв плоскости первых двух главных компонент показано на рис. 6.9.Как видно из рисунка, в этой плоскости четко различаются три от­дельные области. Можно заключить, что образцы, расположенные впределах каждой области, принадлежат одному и тому же человеку.Таким образом, данные содержания указанных элементов позволя­ют однозначно отнести образец волос определенному человеку.1,0PC20,5C*2j6~TZ>0,0-0,5""ТТ^Л-1,0-1,5--2,0 " I-2,64V-1,69-—-""^-0,6VI0,4II1,42,4PC,Рис. 6.9.

Представление массива данных из табл. 6.9 при помощи первыхдвух главных компонент. Числа при точках соответствуют номе­рам образцов.Кластерный анализДругой метод группировки данных называется кластерным анали­зом. В этом методе производят последовательную, шаг за шагом,группировку объектов на основании максимальной близости значе­ний их признаков. В результате образуются группы объектов (кла­стеры), имеющие иерархическую структуру (рис.

6.10).Для оценки степени близости объектов друг другу используютту или иную меру расстояния между ними. Чем меньше расстояниемежду объектами, тем они более похожи. Чаще всего применяют ве­личину евклидова расстояния. Евклидовым расстоянием dij междуобъектами г и j называется величинаdij — \2—/ ^Xikx ki'-(6.45)Если представить каждый объект в виде точки в р-мерном про­странстве, координаты которой равны значениям соответствующихпризнаков, то евклидово расстояние есть длина отрезка, соединяю-6.3.

Многомерные методы: обработка массивов данных 143щего две такие точки. Рис. 6.11 иллюстрирует понятие евклидоварасстояния для случая, когда каждый объект характеризуется всегодвумя признаками.0,51,0H-iII&L376номер объектаР и с . в.10. Результат кластерного анализа данных табл.

6.9, представленныйв виде дендрограммы. По оси ординат отложены значения мерысходства между объектами — величин Sij, рассчитываемых изнормированных евклидовых расстояний (уравнение (6.46)).Чем больше евклидо­во расстояние, тем боль­ше различие между объек­тами. Вместо меры разли­чия в кластерном анали­зе часто используют мерусходства между объекта­ми. Мера сходства междуг-м и J-M объектами опре­деляется какпризнак 1Р и с . 6.11. Евклидово расстояние между г-ми j - м объектами, описываемыми при помощидвух признаков.dij ( m a x ), (6.46)где djj(max) есть максим а л ь н о е с р е д и всех з н а ч е ­н и й dij. Д л я п а р ы п о л н о ­стью тождественных объ-Глава 6.

Хемометрика 1ч-;ц ')*,(*?";», аа«»*''»,о:?р«й Zsектов Sij = 0. Для объектов, максимально различающихсясобой, Sij = I.Для проведения иерархической кластеризации объектовет в первую очередь рассчитать все евклидовы расстоянияпарами объектов. В табл. 6.10 эти расстояния представленыматрицы расстояний.междуследу­междув видеТаблица 6.10. Матрица расстояний для объектов из табл. 6.9.2№1341022,405032,2503,392041,3212,5703,017052,7131,6133,3912,799063,0624,2321,7243,7664,62373,3784,6111,6663,7934,6551,337082,5620,6663,5312,8211,1894,5284,860091,6673,6032,9911,5113,987ЗД163,3063,9105678900Ввиду того, что матрица расстояний симметрична, приведенатолько ее нижняя часть.

Наименьшее евклидово расстояние, рав­ное 0,666, наблюдается между объектами 2 и 8. Эти два объектаобъединим в один кластер и рассчитаем расстояния всех остальныхобъектов до центра тяжести этого кластера. Такой расчет прощевсего выполнить путем усреднения расстояний до объектов, обра­зующих кластер. Например, расстояние от объекта 1 до кластера,образованного объектами 2 и 8, равноd(HOBoe) =d2l + d81=2,405 + 2,562= 2,484.В результате получим новую матрицу расстояний, уже меньшегоразмера. Затем вновь найдем два объекта (или кластера), наиболееблизкие между собой, и повторим описанную процедуру. Иерархи­ческую структуру формируемых при этом кластеров можно пред­ставить в виде дендрограммы (рис. 6.10).На сколько же кластеров следует в итоге разделить исходныеданные? Число кластеров зависит от характера решаемой задачи.В нашем случае заранее известно, что образцы волос принадлежаттрем различным людям.

Поэтому на дендрограмме следует прове­сти горизонтальное сечение так, чтобы оно пересекало три верти­кальных отрезка. В этом случае данные разделятся на три класте­ра. Такое сечение можно провести, например, при S = O, 75. К трем6.3. Многомерныеметоды:обработкамассивовданных145полученным кластерам относятся образцы 2,8,5; 1,9,4 и 3,7,6, со­ответственно (табл.

6.11). Состав полученных кластеров идентичентому, который был ранее установлен посредством анализа главныхкомпонент (рис. 6.9).Т а б л и ц а 6.11. Результаты группировки образцов волос, составы которыхприведены в табл. 6.9, методом кластерного анализа.•»': •'•'•••^•"[*?-:л:Номер образцаПринадлежность1В2А3С4В5А6С789сАВЕсли число кластеров заранее неизвестно, то его можно выбрать,пользуясь непосредственно величинам расстояний между различны­ми объектами.Контролируемое обучениеКонтролируемым обучением называется собственно процесс клас­сификации, т.е.

отнесения неизвестного объекта к тому или иномуклассу на основании значений его признаков. Классы могут быть из­вестны заранее или установлены при помощи методов неконтроли­руемого обучения. Для осуществления классификации каждый классобычно предварительно описывают некоторой математической мо­делью.В нашем случае задача классификации состоит в том, чтобыотнести образец волос, найденных на месте преступления, одномуиз людей — А, В или С — на основании результатов его элементногоанализа (табл. 6.12).Т а б л и ц а 6.12. Элементный состав образца волос (частей на миллион), под­лежащего классификации.CuMnClBrI9,20,2722009,84,7Наиболее распространенным методом классификации являетсялинейный дискриминантный анализ (ЛДА).

Характеристики

Тип файла
PDF-файл
Размер
13,94 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
304
Средний доход
с одного платного файла
Обучение Подробнее