Ю.А. Золотов - Методы химического анализа (Основы аналитической химии, том 2) (1110130), страница 91
Текст из файла (страница 91)
В -, о имеет смысл лишь по отношени нию лается р я ядом факторов. Во-первых, оно ствам а и то не всем. Во-вторых, создание и по- к уже навеем ~шжтваью, д не ~~~. ение банка данных — нелегкое дело, ос ложняюшееся о полнение а к а ых словий аналитического измерения. стью использования стандартных усло ся олго, и это тем Наконец, в льшом бо банке поиск может продолжаться долго, и более вероятно, чем мощнее банк.
очень часто прибегают к соотношениям «элемент структуры— Поэтому очень часто при к спектроструктурных корре- зналнтические признаки» типа уже упомянутых ". Так называемые компьютерные сианем искусе ы твенного июнеллеюиа т фо мальной логики ИПГ< особиы, исполиуя математическии аппарат фор е стических признаков (б левой алгебры), по присутствию в спектре характери уле в моле вещества соответствуюших ~~лепечете о, т. е. идентифицировать ве шесгво.
Пер- выми системами такого рода были система ДЕНДР ориентира скнй итет), и отечественная нного интеллекта РАСТР предназначенная для нденти не об действий специалиста-химика. Опр д . О е еле- граммы, ~~панирую~~ рзз деист нне строения вещества включает, , как минимум, три этапа: оле ных вой анализ, т.е.
логич к ческая процедура поиска молекуляр х спектров с экспериментальными. предсказанных спектро е уюте термином экснертные сис- В последнее время все чаще уюте е пользуются СИИ, бладающие расширенной базои зна- темы, име иду р я в в взвитые, о л ф ализованными соотношениями акие базы включают наряду с формааизова ний. Такие азы згмент — признак многочисленные эмп .„ ."-.„ические правила, касающие- ся и, б е химической теории (представления о ва- ся и спе скопин, и воо щ ости, авнло Эльтекова— а — Эрленмейера и т.
п.). Предполагается, мы„оснащенные обшехимическими в еменем экспертные снеге что со врем сс ения, принятыми в конкретных методах знаниями и правилами рассуждения, пр анализа, суще огненно потеснят химика-аналитика, 447 Задачей идентификации является также отнесение вещества к тому или иному классу. Под классом можно понимать совокупность соединений, имеющих некоторую функциональную группу, или определенное сочетание фрагментов структуры и т. д. Эта, по существу приблизительная, грубая, идентификация не столь проста в случае анализа сложных органических соединений при помощи таких информативных методов, как, например, обычная или пиролнтическая масс-спехтроскопия.
Для решения этой задачи применяют группу методов распознавания образов. В кластерном анализе набор веществ, представленный точками в многомерном пространстве аналитических признаков (признаком может быль, например, поглощение при определенной длине волны или ионный ток при некотором отношении т/2), разбивают путем специального итерационного процесса иа кластеры. Имеется в виду, что кластер объединяет вещества, сходные по аналитическим проявлениям, т.
е. принадлежащие с высокой вероятностью к некоторому общему структурному классу. Существуют две разновидности кластерного анализа — иерархический и неиерархический. В случае неиерархического анализа число кластеров известно (например, из химических соображений или по поста- новые задачи), так что требуется лишь оптимальным образом «разбросать» точки между кластерами. В более практически важном случае число кластеров заранее неизвестно, так что применяют иерархическую схему: точки либо последовательно объединяют во все возрастающие в размере кластеры (агломеративный анализ), либо, начав с одного кластера, поглощающего все точки, последовательно дробят его иа меньшие. Первый подход более распространен.
Итерационный (иерархический) процесс можно остановить в любой момент, пользуясь тем или иным критерием. Заметим, что существует множество версий кластерного анализа, отличающихся способом определения расстояния между точками (метрикой) и способом выбора кластеров — кандидатов на слияние на очередном шаге процедуры (правил слияния). Выбор метрики определения рассгояния означает задание способа определения схожести объектов (веществ); выбор способа слияния отражает наши представления о разнице между кластерами, Ясно, что в общем смысле желательно, чтобы все объекты внугри каждого кластера были максимально сходны, а все кластеры — максимально непохожи друг на друга.
Наиболее распространенными метриками являются обычная Евклидова (Фв — искомое Расстолние междУ точками 2' и/; хи /г = 1, ..., 2«'— переменные-признаки): итаки так называемая Манхетгенская, «сйу ЫосЬ> метрика: 424 = Яхл' — х,'( (метафора связана с прямоугольной формой кварталов Нью-Иорка, в котором для пешехода расстояние между двумя точками оказывается выраженным как раз данной метрикой). Имеется также обобщенная метрика Минковского: 41« =(",> (х -х42)') (ц = 2 соответствует Евклидовой, а д = 1 — Манхеттенской метрике) и некоторые другие. Правил слияния (йп)сабе пйез) также много, укажем только на попуный метод Варда, в котором для объединения кластеры выбирают так, чтобы после слияния дисперсия расстояний между точками кластера возрастала как можно меньше (т.
е. чтобы объекты внутри возросшего в размере кластера оставались как можно более похожими друг на друга). При идентификации (классификации) широко используют уже упоминавшиеся выше анализ ллавных компонентов и факторный анализ Действительно, один и тот же структурный фрагмент часто проявляется в алитическом сигнале (спектре) несколько раз, скажем, при разных длинах волн.
Переход от исходных факторов к их линеиным комбинация, ие коррелированным между собой, облегчает выделение в сложном сигвсегда, дополнительно облегчает избавление от шумов, «остающихся» в отбро езначимых компонентах сигнала, и облегчает последующий оторошенных, незначимых обычно применяют к сжатому — например, посредством преобразования переменных методом главных компонент — пространству признаков. о математическом моделировании аналитического Наконец, говоря о а процесса, следует упомя упомянуть и о методах„не предназначенных для интерпретации данных.
. Р2щ приемов используется с целью оптимизации анализа, т. е. для поиска условий, условий, обеспечивающих максимальный аналитическии сигнал, " сигнал, минимальное мешающее влияние, наилучшее разрешение хроматографических пиков и т.п. Конечно, чаще всего оптимальные условия определяют, исходя из ф - ских закономерностей того или иного метода анализа и физико-химических возможного состава объекта анализа. Однако существует и щб4гой путь, основанный на представлении (моделировании) аналитическою процесса в виде кибернетического «черного вцика», о способе функционированиа которого ниче н от го ничего не известно. Известны лишь его входные параметры— условия проведения анализа (в хроматографии это могут быть, например, скорость потока, рН и концентрация элюента), изменение которых влияет на выходной сигнал.
Под последним понимают произвольно сконструированную функцию «качествагч критерий оптимальности, который пытаются максимизировать. Задаче поиска экстремума вычисляемой функции посвящен целый раздел прикладной математики. В аналитической же химии пока распространены лишь два основных подхода. Первый из ннх составляют методы типа «крутого восхождения» по Боксу — Уилсону, тесно связанные со статистическим планированием эксперимента. В сущности, этот подход сводится к последовательному движению в сторону максимума по поверхности отклика (критерия), которую для простоты аппроксимируют полиномом второго порядка.
Статистический план эксперимента служит дла выбора такого варианта движения по точкам (отображающим различные наборы значений факторов- условий), чтобы при минимальных затратах труда качество аппроксимации было высоким. Второй подход — зто симплекс-оптимизация. В ее рамках поиск оптимума сводится к математической процедуре движения некоторого деформируемого многогранника по поверхности отклика. Наиболее распространена симплекс-оптимизация в хроматографии, «Симплекс» — «простейший», геометрическая фигура, содержащая К+1 вершки, «погруженная» в у-маркое пространство, где Аà — число переменных. Наглядный пример дает случай двух переменных; здесь симплекс — треугольник Для оптимизация сначала выбирают три начальных точки, для которых измеряют отклик. Далее треугольяик, построенный иа этих точках, отражают относительно одной из сторон, чтобы «уйти» от вершины с наименьшим зиачением отклика.
В точке с новыми коордняатамн снова измеряется отклик, и процесс повторяется. Таким образом треугольник движется до достижеяяя сходнмости — она иаступает, когда очередное движение ие дает значимого улучшения отклика. Реальный алгор.*пм несколько сложнее, например в ходе оптимизации фигура может растягиваться или сжиматься. На рис. 16.27 показано движение симплекса, отражающее ход оптимизации состава карбоиатио-щелочного злюеата для яонохроматографического разделения хлорнда и сульфата в присугствии аммонря.
ы точки зрения пользователя оба подхода сходны: компьютер (точнее, соответствующая программа) периодически предлагает провести анализ в тех или иных условиях и ввести получающееся значение критерия, после чего сообщает условия следующего эксперимента и т.д., вплоть до достижения оптимума. Нетрудно видеть, что на долю человека при этом остаются чисто механические операции типа приготовления растворов и установления рН. Очевидная перспектива заключается в автоматизации таких действий. Действительно, в 1985 — 1986 гг. появились ° и н«ои «и яь»со« Рис. 16.27. Движение симплекса при оптимизации состава злюента для иоиохроматического разделеиия хлорида и сульфата в присутствии аммония (М.1..
Ва!- сош, р. 818ол. Ала!. СЬпп. Ас1а, 1986, 191, 299) первые сообщения об использовании лабораторного робота, соединенного с микроЭВМ, для полностью автоматической оптимизации аналитических методик. Математические модели объектов анализа. В результате анализа можно найти содержание в объекте некоторых компонентов.
Бывает так, что при этом интерес представляют другие компоненты, концентрации которых зависят от концентраций определяемых, а непосредственное определение целевых компонентов почему-либо затруднительно. Простой пример: с помощью атомно-абсорбционной спектромегрии и ионоселективного электрода устанавливают содержание в объекте иона меди и хлорид-иона; потребителю же аналитической информации требуются данные о концентрации хлоридных комплексов меди. Такая задача в практике анализа очень распространена, особенно в медицинских прнложениах.