Автореферат (1150359), страница 4
Текст из файла (страница 4)
ГК – главная компонента16На графике наблюдается четкое разделение точек, соответствующихобразцам, на три кластера. Самая многочисленная группа, выделенная синимцветом, состоит из образцов, для которых инфузории показали очень низкуюстепень токсичности (0 – 0,2), либо показали, что образец нетоксичен. Два«красных» небольших кластера соответствуют образцам, для которыхстепень токсичности, как было установлено экспериментально, равнаединице. Разделение этих двух кластеров обуславливается различием всоставах образцов, группа, для которой наблюдается большее изменение попервой главной компоненте, соответствует растворам модельныхтоксикантов (0,1 мг/л Cu(II)). Изначально эта информация была неизвестна,образцы выдавались как сточные воды, реальный состав был предоставленорганизацией, отвечающей за проведение биотестирования, уже послепроведения эксперимента и обработки полученных данных.Представленный график позволяет сделать вывод, что мультисенсорнаясистема может быть использована как для выявления токсичных образцов инетоксичных, так и для выделения различных типов загрязнения.Кроме того, оценивалась возможность применения мультисенсорнойсистемы для классификации водных образцов, отобранных в различныхрегионах Испании.
В качестве референтных данных в этом случаеиспользовали данные, полученные с помощью люминесцентных бактерийVibrio fischeri. Для этого применялись алгоритм случайных лесов и методслучайного выбора k-ближайших соседей. Была поставлена задача отнесениялюбого проанализированного с помощью мультисенсорной системы образцак одному из двух классов: с ЭК50 ≤ 100 – токсичные образцы и ЭК50> 100 –нетоксичные образцы.В методе случайных лесов строилось 100 деревьев, для формированиякаждого дерева использовались n=N-1 тестовых образцов, для созданиякорневого узла случайным образом выбиралась одна переменная m –значение ЭК50. В методе случайного выбора k-ближайших соседей k=1.Выбор параметров для метода случайных лесов и метода случайного выбораk-ближайших соседей производился методом перебора.Как показала оценка, первый метод лучше подходит для решенияданной задачи, в качестве критерия эффективности в этом случаеиспользовался процент верно классифицированных образцов.
В случаеметода случайного выбора k-ближайших соседей процент верноклассифицированных образцов не превышал 80%.Для метода случайных лесов в таблице 3 представлена матрица ошибок(отмечена серым цветом), вычисленная в процессе полной перекрестнойпроверки и использующаяся для оценки точности классификации водныхобразцов индивидуальных токсикантов по их токсичности. Для методов сослучайным выбором параметров (таких как метод случайных лесов) принятопроводить многократную проверку результатов с последующимусреднением, поэтому было построено 1000 матриц ошибок с разнымислучайно выбранными тестовыми образцами, которые в последующем былиусреднены.17Таблица 3.
Усредненная матрица ошибок для метода случайных лесов дляреальных водных образцовРеальные значения“≤ 100”Реальные значения“> 100”Усредненное числопопаданий в классПрогнозируемыезначения “≤ 100”Прогнозируемыезначения “> 100”Общеечислообразцов14,50,5151,49,61115,910,126Главная диагональ матрицы (14,5 и 9,6) показывает усредненное числослучаев, когда реальные и прогнозируемые классы совпадают.
Усредненныйпроцент верно классифицированных образцов, т.е. отношение суммыэлементов главной диагонали матрицы ошибок к общему числу образцов,составил 92,6%. Эта же величина для метода случайных лесов для класса “≤100” – 91,2%, для класса “> 100” – 95%.3. Численная оценка токсичности водных образцов3.1. Численная оценка токсичностиводных растворовиндивидуальных токсикантовСледующим этапом работы стало изучение возможности оценкитоксичности водных растворов индивидуальных токсикантов с помощьюмультисенсорной системы в шкалах метода биотестирования, основанного нареакции морских бактерий Vibrio fischeri, а именно на сниженииинтенсивности их люменесценции.
Исследованные образцы представлялисобой ряд водных растворов индивидуальных токсикантов, приготовленныхв Центре Исследований и Инноваций в Токсикологии ТехническогоУниверситета Каталонии (Террасса, Испания). Для этих растворов диапазонзначений эффективной концентрации (ЭК50), при которой происходитснижение люминесценции бактерий Vibrio fischeri на 50% за 15 минут,составлял 0,87 – 5870 мг/л. Для группы модельных образцов эффективнаяконцентрация – это концентрация токсиканта, которая вызывает 50 %снижение интенсивности люминесценции бактерий.
В качестве токсикантовиспользовался широкий круг органических (фенолы – фенол, хлорфенол;кислоты – лимонная и уксусная кислоты; алкалоиды - кофеин и др.) инеорганических (соли тяжелых металлов) веществ, общим числом 24.Для нахождения корреляции между данными мультисенсорнойсистемы и методом биотестирования в случае модельных образцовприменялся метод проекции на латентные структуры (ПЛС). Этот методоснован на представлении отклика массива сенсоров в виде матрицы, в этомслучае кроме данных, полученных с помощью мультисенсорной системы,используются данные других методов анализа, с которыми планируетсяобнаружить корреляцию, например, данные методик биотестирования.18Результатом обработки являются регрессионные модели, которыеобычно представляются в виде прямых в координатах «введено-найдено».Существует несколько основных параметров градуировочной модели,которые позволяют оценить её надежность: наклон, офсет, квадраткоэффициента корреляции R2 и среднеквадратичное отклонение градуировкии прогнозирования (СКОП).
Наклон и квадрат коэффициента корреляцииописывают, насколько хорошо точки в градуировке и проверке ложатся напрямую. Чем ближе эти величины к единице, тем лучше модель описываетданные. Оффсет описывает смещение прямой относительно началакоординат, его значение должно быть максимально близко к нулю.Среднеквадратичное отклонение характеризует прогнозирующую силумодели. Качество каждой из разработанных моделей проверялось двумяспособами: полной перекрестной проверкой и проверкой, использующей kкратное случайное разбиение образцов на тестовый и градуировочный набор.При k-кратном случайном разбиении случайным образом извлекалась 1/3образцов, которые использовались в качестве тестового набора, а оставшиеся2/3 образцов использовались для построения калибровочной модели.Процедура разбиения проводилась 30 раз, столько же раз рассчитывалисьпараметры регрессионных моделей.В таблице 4 представлены параметры регрессионной модели,построенной на основе данных, полученных при анализе водных растворовиндивидуальных токсикантов как органических, например, мочевина идихлоранилин, так и неорганических, таких как дихромат калия и борнаякислота и др.Таблица 4.
Параметры регрессионной модели для группы модельныхобразцов.Вариант проверкиПолная перекрёстная проверка(24 образца)наклон0,62оффсет10,3СКОП, мг/л19,1R20,6430-кратное случайное разбиение(10 образцов)--20,6-Установлено,чтомультисенсорнаясистемапозволяетсосреднеквадратичным отклонением прогнозирования не более 21 мг/лопределять токсичность водных растворов индивидуальных токсикантов.Токсичность образцов и СКОП в этом случае рассчитывались относительноотклика люминесцентных бактерий, т.е. снижения интенсивностилюминесценции бактерий в исследуемом образце.Полученная регрессионная модель такжеиспользовалась дляпрогнозирования значений эффективной концентрации двух образцов,токсичность которых была неизвестна, однако, была предоставленаинформация об их происхождении.
В таблице 5 представлены значенияэффективной концентрации, спрогнозированные с помощью регрессионной19модели, и референтные данные, полученные исходя из оценки морскихбактерий. Из таблицы можно сделать вывод, о том, что спрогнозироватьзначение эффективной концентрации для водных образцов индивидуальныхтоксикантов, исходя из данных мультисенсорной системы, можно сотносительной погрешностью, не превышающей 23%.Таблица 5.
Прогнозируемые с помощью мультисенсорной системы иреферентные значения токсичности водных образцов индивидуальныхтоксикантовТоксикантРеферентныезначения ЭК50, мг/лИмидаклопридХлорацетамид10019,5Прогнозируемыезначения ЭК50,мг/л9815Относительнаяпогрешностьопределения, %223Для численной оценки токсичности водных образцов, относящихся кклассу ЭК50≤100, также использовались алгоритм случайных лесов и методслучайного выбора k-ближайших соседей.В связи с ассиметричным распределением данных, а именно,недостатком образцов с высокими значениями эффективной концентрации,было решено провести логарифмическое преобразование (log2) данных итолько потом использовать данные для прогнозирования значенияэффективной концентрации. Таким образом, все ошибки прогнозированиядалее также даны в логарифмической форме.
Так как наборы данныхобразцов были относительно небольшими, то эффективность выбранныхалгоритмов оценивалась с использованием полной перекрестной проверки.При построении регрессионных моделей для водных растворовиндивидуальных токсикантов более эффективным из двух использовавшихсяметодов оказался метод случайных лесов. В качестве критерияэффективности рассматривали значение среднего абсолютного отклонения,т.е. арифметическое среднее отклонений всех значений от среднего,вычисленное при проведении полной перекрестной проверки 1000 раз.Значение среднего абсолютного отклонения в этом случае составило 2 3,1 ≈ 8,6мг/л.3.2. Численная оценка токсичности реальных водных образцовНа этом этапе проводилось исследование возможности оценкитоксичности реальных образцов, полученных при заборе проб из различныхводоёмов, в шкалах нескольких различных методов биотестирования.Вкачествереферентныхметодовприменялисьметодыбиотестирования на основе реакций мелких рачков Daphnia magna, зеленыхводорослей Chlorella vulgaris, инфузорий Paramecium caudatum и морскихбактерий Vibrio fischeri.
В качестве реакций живых тест-объектов наокружающую их среду использовались: смертность особей Daphnia magna втечение 96 часов, замедление роста водоросли Chlorella vulgaris,20перемещение Paramecium caudatum в пространстве раствора и снижениелюменесценции морских бактерий Vibrio fischeri.Исследованные образцы представляли собой поверхностные воды, атакже сточные воды промышленных предприятий города Санкт-Петербургаи различных регионов Испании. В таблице 6 представлены результатыизмерений токсичности для водных образцов, отобранных в СанктПетербурге (Daphnia magna, Chlorella vulgaris, Paramecium caudatum) и натерритории Испании (Vibrio fischeri).Таблица 6.