Диссертация (1150360), страница 13
Текст из файла (страница 13)
В качествереферентных данных в этом случае использовали данные, полученные с помощьюлюминесцентных бактерий Vibrio fischeri.Для этого применялись алгоритм случайных лесов и метод случайноговыбора k-ближайших соседей. Была поставлена задача отнесения любогопроанализированного с помощью мультисенсорной системы образца к одному издвух классов: с ЭК50 ≤ 100 – токсичные образцы и ЭК50 > 100 – нетоксичныеобразцы.В методе случайных лесов строилось 100 деревьев, для формированиякаждого дерева использовались n=N-1 тестовых образцов, для создания корневогоузла случайным образом выбиралась одна переменная m – значение ЭК50. Вметоде случайного выбора k-ближайших соседей k=1.
Выбор параметров дляметодовслучайныхлесовислучайноговыбораk-ближайшихсоседейпроизводился методом перебора.Как показала оценка, первый метод, т.е. алгоритм случайных лесов, лучшеподходит для решения данной задачи, в качестве критерия эффективности в этомслучае использовался процент верно классифицированных образцов. В случаеметодаслучайноговыбораk-ближайшихсоседейпроцентверноклассифицированных образцов не превышал 80%.Для метода случайных лесов была построена матрица ошибок (отмеченасерым цветом), вычисленная в процессе полной перекрестной проверки ииспользующаяся для оценки точности классификации водных образцов,отобранных на территории Испании, по их токсичности.
Для методов сослучайным выбором параметров (таких как метод случайных лесов) принятопроводить многократную проверку результатов с последующим усреднением,88поэтому было построено 1000 матриц ошибок с разными случайно выбраннымитестовыми образцами, которые в последующем были усреднены. Полученнаяматрица представлена в таблице 7.Таблица 7. Усредненная матрица ошибок для метода случайных лесов дляреальных водных образцовОбщееПрогнозируемыеПрогнозируемыезначения “≤ 100”значения “> 100”14,50,5151,49,61115,910,126Реальныезначения “≤ 100”Реальныезначения “> 100”числообразцовУсредненноечисло попаданий вклассГлавная диагональ матрицы (14,5 и 9,6) показывает усредненное числослучаев, когда реальные и прогнозируемые классы совпадают. Усредненныйпроцент верно классифицированных образцов, т.е. отношение суммы элементовглавной диагонали матрицы ошибок к общему числу образцов, составил 92,6%.Эта же величина для метода случайных лесов для класса “≤ 100” – 91,2%, длякласса “> 100” – 95%.Результаты, представленные выше, позволяют сделать вывод, что данныеполученныеспомощьюмультисенсорнойсистемы,всовокупностисматематическими алгоритмами могут быть использованы как для классификациипо токсичности водных образцов индивидуальных токсикантов, так и дляклассификации реальных водных образцов, отобранных в Санкт-Петербурге иразличных регионах Испании.89Кроме того, на примере образцов, интегральная токсичность которых былаопределена с помощью Paramecium caudatum, было показано, что используяпоказания мультисенсорной системы и последующей обработки данных спомощью метода главных компонент, можно не только разделить загрязненные ичистые образцы, но также выделить различные типы загрязнения.90ГЛАВА 5.
ЧИСЛЕННАЯ ОЦЕНКА ТОКСИЧНОСТИ ВОДНЫХ ОБРАЗЦОВС ПОМОЩЬЮ ПОТЕНЦИОМЕТРИЧЕСКОЙ МУЛЬТИСЕНСОРНОЙСИСТЕМЫ5.1. Численная оценка токсичности водных растворов индивидуальныхтоксикантов с помощью потенциометрической мультисенсорной системыСистема, состоящая из 21 потенциометрического сенсора, использоваласьдля анализа 24 водных растворов индивидуальных токсикантов, изготовленных влаборатории Центра исследований и инноваций в токсикологии ТехническогоУниверситета Каталонии (Террасса, Испания).
Все измерения проводились пометодике, описанной в 2.6., каждый образец исследовался, по крайней мере, трираза в случайном порядке.Все данные, полученные в процессе измерений, использовались длясоздания регрессионной модели для модельных растворов индивидуальныхтоксикантов. При создании регрессионной модели использовалось пять главныхкомпонент, которыми суммарно объясняется 85% и 97% дисперсии в данных X иY соответственно. Результаты построения градуировочной модели в виде прямыхдля градуировки и проверки в координатах значений токсичности, полученных спомощью люминесцентных бактерий и мультисенсорной системы, представленыв приложении 1. Следует сказать, что образцы, для которых люминесцентныебактерии показали низкую токсичность, прогнозируются хуже, что, возможно,связано с небольшим количеством таких образцов.Так как количество образцов было ограничено, то для проверки моделейиспользовалось два разных подхода: полная перекрёстная проверка моделей, атакже проверка, использующая k-кратное случайное разбиение образцов натестовый и градуировочный набор.
При k-кратном случайном разбиениирандомным образом извлекалась 1/3 образцов, которые использовались в качестветестового набора, а оставшиеся 2/3 образцов использовались для построениякалибровочной модели. Процедура разбиения проводилась 30 раз, столько же раз91рассчитывалась среднеквадратичное отклонение прогнозирования, кроме тоговычислялись наклон, оффсет и квадрат коэффициента корреляции (таблица 8).Таблица 8. Параметры регрессионных моделейВарианты проверкиСКОП,НаклонОффсет0,6210,319,10,64--20,6-полная перекрёстнаяпроверка (24 образца)30-кратное случайноеразбиение (10 образцов)мг/лR2Данные из таблицы позволяют предполагать, что мультисенсорнуюпотенциометрическую систему можно использовать для оценки токсичностиобразцов.Установлено,чтомультисенсорнаясистемапозволяетсосреднеквадратичным отклонением прогнозирования не более 21 мг/л определятьтоксичность водных растворов индивидуальных токсикантов.
Токсичностьобразцов, а также значение СКОП в этом случае рассчитывались относительноотклика люминесцентных бактерий, т.е. снижения интенсивности люминесценциибактерий в исследуемом образце. Приведенные результаты позволяют сделатьвывод об интегральной токсичности водных растворов индивидуальныхтоксикантов в терминах живых биообъектов, и не относятся к чувствительностимассива сенсоров к концентрации отдельных веществ.Крометого,полученнаярегрессионнаямодельиспользоваласьдляпрогнозирования значений эффективной концентрации двух образцов, значениятоксичности которых были неизвестны до окончания проведения эксперимента иобработки полученных данных, однако, была предоставлена информация об ихпроисхождении. В таблице 9 представлены значения эффективной концентрации,спрогнозированные с помощью регрессионной модели, и исходя из оценкиморских бактерий.92Таблица 9. Прогнозируемые с помощью мультисенсорной системы иреферентные значения токсичности водных образцов индивидуальныхтоксикантовРеферентныеПрогнозируемыеОтносительнаязначения ЭК50,значения ЭК50,погрешностьмг/лмг/лопределения, %Имидаклоприд100982Хлорацетамид19,51523ТоксикантИзтаблицыможносделатьвывод,чтоспрогнозироватьзначениеэффективной концентрации для водных растворов индивидуальных токсикантов,исходяизданныхмультисенсорнойсистемы,можносотносительнойпогрешностью, не превышающей 23%.Для численной оценки токсичности водных растворов индивидуальныхтоксикантов, также использовались метод случайных лесов (количество тестовыхобразцов n=N-1, для построения узлов деревьев использовалась одна переменнаяm - значение ЭК50) и метод случайного выбора k-ближайших соседей (k=1).Выбор параметров для методов случайных лесов и случайного выбора kближайших соседей производился методом перебора.
Метод случайных лесов иметод случайного выбора k-ближайших соседей использовали для образцов,относящихся к классу ЭК50≤100.В связи с ассиметричным распределением данных, а именно недостаткомобразцов с высокими значениями эффективной концентрации, было решенопровести логарифмическое преобразование (log2) данных и только потомиспользовать данные для прогнозирования значения эффективной концентрации.Такимобразом,всеошибкипрогнозированиядалеетакжеданывлогарифмической форме. Так как наборы данных образцов были относительнонебольшими,тоэффективностьвыбранныхиспользованием полной перекрестной проверки.алгоритмовоцениваласьс93Припостроениирегрессионныхмоделейдляводныхобразцовиндивидуальных токсикантов более эффективным из двух использовавшихсяметодов оказался метод случайных лесов.
В качестве критерия эффективностирассматривали значение среднего абсолютного отклонения, т.е. арифметическоесреднее отклонение всех значений от среднего, вычисленное при проведенииполной перекрестной проверки 1000 раз. Значение среднего абсолютногоотклонения составило 23,1 ≈ 8,57 мг/л.Величина ошибки прогнозирования ЭК50 для модельных образцовиндивидуальных токсикантов может быть связана с тем фактом, что размеробучающего набора, т.е. количество градуировочных образцов, был относительнонебольшим.5.2.
Численная оценка токсичности реальных водных образцов с помощьюпотенциометрической мультисенсорной системы5.2.1. Образцы, отобранные на территории Санкт-ПетербургаСистема, состоящая из 21 сенсора, использовалась для анализа 66 образцов,отобранных на территории города Санкт-Петербурга. Все измерения проводилисьпо методике, описанной в 2.6., каждый образец исследовался, по крайней мере,три раза в случайном порядке.После окончания измерения изучалась связь между данными о токсичностиобразцов, полученными в результате проведения биотестирования, а такжеинформацией,предоставленноймультисенсорнойпотенциометрическойсистемой.
Исследование взаимосвязей осуществлялось с помощью методовобработки многомерных данных: метода проекций на латентные структуры.Для всех 66 образцов было создано четыре регрессионных модели: по одноймодели для каждой из методик биотестирования, использовавшихся дляопределения токсичности, а также одна модель для 50-кратно разбавленныхобразцов,исследованныхспомощьюChlorellavulgaris.Присоздании94регрессионных моделей использовалось 4, 7, 4 и 6 главных компонент для D.Magna, C.