Ю.А. Золотов - Методы химического анализа (Основы аналитической химии, том 2) (1110130), страница 90
Текст из файла (страница 90)
о о условлен- В связи с этим возникает важная — отнюдь не то применения МНК вЂ” задача в — отнюдь не только в контексте — задача выделения среди переменных действительно значимых, отбрасывания лишних (производных от основных либо вообще связанных с «шумом») переменных.
Для этого служат так называемые методы снижения размерности (»Бзпепа!опа)11у ге»)псцоп), или н к рования (имеется в в ое г и оп), или нроектив виду проектирование из пространства большей в пространство меньшей размерности). Наиболее распространен анализ главных компонентов (Рппс(ра! Сошропепг Апа1увуя, РСА). Идея метода — в переходе от исходных факторов (переменных) к их линейным комбинациям, становящимся новыми координатными осями. Вся процедура проводится так, чтобы изменчивость, «дисперсия» данных в новых координатах была не меньше или почти не меньше, чем в исходных.
При этом добиваются минимальной коррелированности новых координат (их ортогонализуют): все повторяющиеся, <ггавтологическне» исходные факторы «впитываются» той или иной новой координатной осью. Рассмотрим основы анализа главных компонентов (ГК). Имеется матрица Х(лхт), т столбцов которой отвечают переменным, а н строк — точкам данных. Требуется преобразовать переменные к сокращенному набору независимых г переменных, г с т.
Заметим, что независимость можно определить по-разному. Существует три основных варианта, и все они используются в методе ГК. Первый вариант — независимость в смысле линейной алгебры: векторы- столбцы Ь и) матрицы Х (переменные) ть тз считаются независимыми, если выполняется условие ортогональности: т»~т» = О. Второй и третий варианты используют статистические определения. Можно, в частности, считать переменные независимыми, если ковариация соответствующих век»оров равна нулю, соз(ть «1) = О; или если равна нулю их корреляция по Пирсону, г(ть В) = О.
По определению ковариации и коррешшни второй и третий подходы эквивалентны первому, примененному к преобразованной матрице данных. Нулевая ковариация эквивалентна ортогональности центрированных столбцов данных (для каждого вычтено среднее). Нулевая корреляция эквивалентна ортогональности столбцов, подвергнутых автомасштабнрованию (вычтено ареднее и данные нормированы на дисперсию). Матрицу данных Х преобразуют к ортогональному базису посредсшом известного в линейной алгебре сингулярного разложения (з)пйп!ах та1це десошроз1- йоп, БХВ).
Математически преобразование записывается так: Х = 1)ЛХт где 1)~1) =Х~Хт!„(Щнхт),Х(тхт)) ортогональные вещественные матрицы, а Л = »)!ац(Ло Л», ..., Л ) — диагональная матрица сингулярных чисел. Беэ потери общности можно считать, что сингулярные числа отсортироваиы по убыванию (а столбцы Х, Ю соответствуюп»нм образом переупорядочены). Столбпы матрицы Х вЂ” правые сингулярные векгора т» — образуют искомый ортогональный бюис главных камнонетиов. Каждый Вй столбец матрицы Х называют вектором нагрузок (1оай)пб); его элементы — коэффициенты линейного разложения Ь-го нового базисного вектора по т старым переменным. Саму матрицу Х называют митричей нагрузок.
Квадрат каждого Вго сингулярного числа Л» численно равен » т вкладу Иго главного компонента в» = т, т, в общую дисперсию исходных двинь»х 443 (г' =Х'Х). Иными словами, г =,',Гь, = Д,г, =,х.т, т, =Ч Ч. Замепли, что математически сингулярное разложение матрицы Х эквивалентно спектральному разложению (разложению по собственным векторам) матричного квадрата Х'Х. Собственные вектора Х'Х эквивалентны правым сингулярным векторам Х, а собственяые числа Х'Х вЂ” квадратам сингулярных чисел Х. Исторически метод ГК формулировался лрн помощи спектрального разложения, так что соответствующие термины цо-прежнему в ходу.
Технически, однако, сингулярное разложение используют чаще. В соответствии с тремя упомянутыми критериями независимости переменных, возникает трн варианта метода ГК. Первый сводится к сингулярному разло:кенню ненреобрвзованной матрицы исходных данных Х (т. е.
к днагоналнзацнн ХХ ). Второй вариант — диагонализация коварнацнонной матрицы (т. е. к сингулярному разложению Х после предварительного преобразования центрирования столбцов). Третий — нулевая диагонализацня корреляционной матрицы, нлн сингулярное разложение Х после предварительного преобразования автомасштабирования столбцов. Каким же образом описанные преобразования приводят к сокращению размерности? Дело в том, что в новом базисном наборе некоторые векторы (переменные) могут оказаться незначимыми, т.
е. отвечающими нулевым собственным числам. Действительно, нулевое собственное число означает нулевой вклад переменной в общую изменчивость данных, а такие переменные можно отбросить. Разумеется, на практике вместо «нулевой» следует говорить «практически нулевой» н использовать тот илн иной эвристический критерий отбрасывания вехторов, соответствующих наименьшим собственным числам.
Распространенный вариант, например — сохранять только те компоненты, которые в сумме объясняют 95% (нли 90%, илн 99%) изменчивости исходных данных. После того, как анализ главных компонентов выполнен, можно рассчитать значения новых факторов-переменных для каждой точки данных (гсогег). В соответствующей матрице ланных Т(яхг) уже меньше столбцов, чем в исходной, н эти столбцы взаимно независимы.
В заключение отметим, что с анализом главных компонентов тесно связан е5аююорямй анализ. Его цель — тапке в выделении сокращенного набора признаков, линейно связанного с исходным. Иногда термины вообще не различают. Имеется, однако, некоторая разница в постановке задачи н технике расчетов. В частности, факторный анализ как метод менее строг, чем анализ главных компонентов.
Так, в нем сокращенный набор признаков может не быль ортогональным: считают, что более важно выявить скрытые, «латентные» переменные. не обязательно полностью независимые. Вернемся к задаче наименьших квадратов. После применения анализа главных компонентов нетрудно применить стандартный аппарат МНК. Такой подход составляет суть так называемых регрессии яа главньи хомяонентак (РСК, рппс)ра! сотропепг гейгезз1ол) и блочного метода наименьших квадратов (Р).8, рапга!!еал( зццщез).
В первом случае походная система переписывается с новыми переменными: Ч=ТВ+е, шеиие которои В = (Т'Т ')Т'Ъ уже ие предсгавля й, поскольку столбцы матрицы Т ортогоиальим. Очень популярный метод Р1.8 отличаетс р гр я от е ессии иа главных компонентах тем, что преобразование координат производят ие только Х, ио и откликов 1; причем два процесса производят к таким пе меиемеш ь В результате осуществляется переход к таким ре е собой, ио и максимальным, которые ие только иекоррелироваиы между ио коррелированы с откликами. Метод РСК вЂ” математически более сгро гий, чем Р1.3 (последний вообще итм, а не как математическая схема).
В хемометрике, однако, возник как алгоритм, а не как м РЫ сейчас применяют чаще. Заметим, чго предложен меной сии (сопгцюоцз герезз1оп), частнымн случаями которого яви примыкает хорошо известная в лаются н РСР и Р1З. К этой же группе методов пр з оп . Все эти методы отличаются от статистике гребнев«я регрессия (пдяе гебгеаз1оп). эти обычного МИК бштьшен у —. йК бшть " у —.Йчивосзъю, но прн этом, в отличие от него, не гарантируют аиатис»шчески несмещенную оценку параметров.
й ва иаит — использование так иазываеЕше один распросграиеииыи вариан НК , это ва иаит нелинейного М с мых нейронных сетей. По существу, это р и, Б- ми специального вида, сигмоидными, об ными. Ряд специалистов считает, что нейронные сети льш Раз ой ф мы. В этой области своя, ходят длл аппроксимации кривых сложной форм . ф очень своеобразная терминология — «иейро, ер — иы» «передаточные уикм ас еиием ошибки» и т.п. Однако ции», «обучение с обратным распростраие внимательный взгляд иа математи ф р у ческие фо мулы и алгоритмы покажет, йиом МНК. что в большинстве случ е р аев ечь идет о привычном нелинейном традиции избеовочиых графиков аналитики по тр Нелинейных грцдуиро вызывают проблем. Чшце гяют, ио при ис пользовании компьютера оии ие вызывают вп ксимацию полииомом невысокои степени; ; с вывсего примеилкгт вппроксим г МНК, решаемая быстро чисдительиои точки числитель " точки зрения это задача линейного ов такие градуировочные характеристики и надежно.
Из различных методов такие относительно олее ра б спростраиены в атомио-абсорбциоииой спектрометрии. жция с моделями анализа, связывающими каСове шеиио иная ситуация Р о вещества с хар актерисгиками сигнала (проблема относительно проста лишь для неорганического еского анализа).
Как правило, состав и осипе вещества очень сложны м образом связаны с его иифракрасныстр , магнитно-резонансными или масс-спектРами; ми, ультрафиолетовыми, маги непроста зта связь часто и в хроматографии. А именно зги методы наиболее широко применяют для идентификации органических, в том числе природных, соединений. Соответствующие модели делятся на два классамиЂ детерминистские и эмпирические. Основу детерминистских моделей составляет физическое описание процессов, лежащих в основе метода анализа.
Обычно такие теоретические разделы хорошо развиты (хотя по традиции их не относят к аналитической химии) и позволяют расчетным путем решать так называемую прямую задачу — предсказывать вид аналитического сигнала для вещества заданного состава и строения. Таковы нормально-координатный анализ, позволяющий рассчитывать инфракрасные спектры; квантово-химические расчеты с учетом конфигурационного взаимодействия для расчета электронных спектров поглощения; вычисления, основанные на интегрировании систем дифференциальных уравнений для предсказания профилей элюирования в различных видах хроматографии. К сожалению, даже на мощных ЭВМ для таких расчетов нередко требуется длительное (до нескольких часов) время.
Самое же важное— для интерпретации аналитических данных требуется решать обратные задачи, т. е. по спектру или хроматограмме судить о составе и строении вещества. Эти задачи гораздо сложнее прямых, почти всегда относятся к классу некорректных (т. е. не имеющих устойчивого однозначного решения) и часто сводятся к опробованию большого числа вариантов, каждый из которых, в свою очередь, требует решения прямой задачи. Эмпирические модели базируются на установленных опытным путем связях между природой вещества и идентифицирующими его признаками. Связи могут быть сформулированы однозначно или с некоторой мерой неопределенности.
В качестве примера приведем спектроструктурные корреляции «функциональная группа — полоса в спектре», известные в ИК-спектроскопии; аналогичные по сути связи между типами атомов и их химическим окружением, с одной стороны, и химическим сдвигом и мультиплетностью сигнала в спектре ЯМР— с другой; правила фрагментации различных структурных единиц в масс-спектроскопии. Простейшим примером служит набор однозначно установленных соответствий «вещество — спектр», являющийся основой компьютерных информационно-поисковых систем.
При такой модели задача идентификашш индивидуального соединения сводится к просмотру, точнее, к поиску спектра в банке; последний обычно содержится во внешней памяти ЭВМ на магнитных дисках. Такие банки емкостью в десятки и сотни тысяч веществ хорошо известны в ИК- и масс-спектроскопии. Еще двадцать лет назад мощная информационно-поисковая система для ИК спектроскопии и масс-спектроскопии была разработана в Сибирском отделении Академии наук, г. Новосибирск; специалистам по масс-спектромегрии на база данных Национального института стандартов хорошо известна аза дзи нфо мацни в базах данных г<1БТ.
Заметим, что алгоритмы поиска информации США ам компьютерной науки и довольно ют самостоятельный раздел ком ПС состзлля рошо развиты, а довольно мощные И е сты; однако сегодня они хорошо асти в программное обеспечение совре- входят в качестве составной части в прогр менных аналитическихприборов. , о ако, ограничи- П именение инфор ф рмационно-поисковых систем, однако, ограни р .