Диссертация (Автоматизированная бактериоскопическая диагностика туберкулеза), страница 12
Описание файла
Файл "Диссертация" внутри архива находится в папке "Автоматизированная бактериоскопическая диагностика туберкулеза". PDF-файл из архива "Автоматизированная бактериоскопическая диагностика туберкулеза", который расположен в категории "". Всё это находится в предмете "медицина" из Аспирантура и докторантура, которые можно найти в файловом архиве РНИМУ им. Пирогова. Не смотря на прямую связь этого архива с РНИМУ им. Пирогова, его также можно найти и в других разделах. , а ещё этот архив представляет собой докторскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени доктора медицинских наук.
Просмотр PDF-файла онлайн
Текст 12 страницы из PDF
Впредставленном на рисунке 1 блоке «Открытое изображение» отмечено двекислотоустойчивые микобактерии, координаты которых приведены в блоке«Список отмеченных объектов». Для более качественной визуальной оценкивыделяемыхобъектовпредусмотреноувеличениевыбранногофрагментаизображения с различной кратностью (от двукратного до шестикратногоувеличения). После разметки всех изображений предусматривается сохранениеинформации о всех выделенных объектах в единую базу данных.58Рисунок 1 – Окно программы «Разметка цифровых микроскопических изображений мокроты»592.2.2. Этап 2Навторомэтапеисследованияосуществлялсяанализпараметровкислотоустойчивых микобактерий, совершалась оценка информативности данныхпризнаков, а также производилась разработка метода «пересечений» для отборапризнаков для моделей классификации.Проверка на нормальность распределения всех параметров осуществлялась сиспользованием критерия Шапиро-Уилка.
Все количественные признаки объектовимели распределение, отличающееся от нормального распределения признаков.Описаниеобъектовпроизводилосьповсем240цветовымиморфометрическим признакам. К цветовым признакам относились составляющиеR, G, B, H, S, V цветовых схем RGB и HSV, а также значения коэффициента яркости(Y) пикселей объектов, что связано с довольно частым использованием для анализацифровых изображений их представления в оттенках серого, а не в цветном виде.Для описания цветовых характеристик объектов рассчитывались: среднееарифметическое (M), среднеквадратическое отклонение (σ), коэффициентвариации (V), максимальное (Max) и минимальное (Min) значения, размахвариации (R), коэффициент осцилляции (VR), медиана (Me), первый (Q1) и третий(Q3) квартили, межквартильный размах (RQ) и коэффициент относительнойквартильной вариации (VQ).Для морфометрических характеристик объектов рассчитывались: среднееарифметическое, среднеквадратическое отклонение и максимальное значениеразмера по всем объектам.Далее производилась оценка информативности признаков объектов с цельюих дальнейшего отбора для классификации объектов [116].
Задачу отборапризнаков можно сформулировать следующим образом. Пусть задана выборка A,характеризующая некоторый класс объектов через множество признаков X = {х1,х2, …, хn}. Для всякого объекта a A известно его признаковое описание {х1(a),х2(a), ..., хn(a)} – n-мерный вектор, i-я координата которого равна значению i-го60признака. Совокупность признаковых описаний всех объектов из A представленоматрицей размера |A| n, где |A| число объектов, включенных в класс A. ПустьI(Z) некоторая мера информативности подмножества признаков Z X,определенная относительно A. Требуется среди всех 2n различных подмножествмножества X выбрать подмножествоZ* X с максимальной меройинформативности.Оценка информативности признаков изучаемых объектов осуществлялась спомощью методов накопленных частот, Шеннона, Кульбака, Фишера и ранговыйметод [14, 41, 50, 64, 75, 104, 128].Информативность по методу накопленных частот определялась с помощьюследующей формулы:( ) = max {|1, − 2, |} ,=0,…(12)где M1,j – накопленная частота для j-того интервала в классе кислотоустойчивыхмикобактерий, M2,j – накопленная частота для j-того интервала в классе иныхобъектов, n – число интервалов.Информативность по методу Шеннона определялась с помощью следующейформулы: ( ) = 1 + ∑=1( ∑=1 , ∗ , ),(13)где I(xi) – информативность признака xi, n – количество интервалов признака, Pi –вероятность i интервала признака, K – количество классов признака (равно 2 –класс кислотоустойчивых микобактерий и класс иных объектов), Pi,k – вероятностьпоявления i интервала признака в k классе.Вероятность i интервала признака (Pi), рассчитывалась по формуле: =∑=1 ,,(14)где mi,k – частота появления i интервала в k классе, K – количество классовпризнака, N – общее число объектов.Вероятность появления i интервала признака в k классе (Pi,k) рассчитываласьпо формуле:61,, = ∑=1 ,,(15)где mi,k – частота появления i интервала в k классе, K – количество классовпризнака.Информативность по методу Кульбака определялась с помощью следующейформулы: ( ) = ∑=1[1 − 2 ] ∗ 212,(16)где I(xi) – информативность признака xi, n – количество интервалов признака, Pi1 –вероятность появления i интервала признака в первом классе (в классе объектовкислотоустойчивых микобактерий), Pi2 – вероятность появления i интервалапризнака во втором классе (классе иных объектов).Вероятность появления i интервала признака в первом классе (Pi1)рассчитывалась по формуле:11 = ∑=1 1,(17)где mi1 – частота появления i интервала в первом классе (классе объектовкислотоустойчивых микобактерий).Вероятность появления i интервала признака во втором классе (Pi2)рассчитывалась по формуле:22 = ∑=1 2,(18)где mi2 – частота появления i интервала во втором классе (классе иных объектов).Количество интервалов признаков рассчитывалось с использованиемформулы Стерджеса [335]: = 1 + ⌊2 ⌋,(19)где n – количество интервалов признака, N – общее число объектов.Информативность по методу Фишера по аналогии с классическим критериемСтьюдента определялась с помощью следующей формулы: ( ) =(,1 −,2 )22 + 2,1,2,(20)62где m1,i – среднее арифметическое i-того признака у объектов классакислотоустойчивых микобактерий, m2,i – среднее арифметическое i-того признакау объектов класса иных объектов, σ1,i – стандартное отклонение i-того признака уобъектов класса кислотоустойчивых микобактерий, σ2,i – стандартное отклонениеi-того признака у объектов класса иных объектов.Информативность по методу рангов по аналогии с критерием Манна-Уитниопределялась с помощью следующей формулы:( ) = ,1 ∗ ,2 +, ∗(, +1)2− , ,(21)где Ti,x – наибольшая сумма рангов i-того признака из суммы рангов данногопризнака в классе кислотоустойчивых микобактерий и классе иных объектов, ni,x –число объектов в классе с наибольшей суммой рангов, ni,1 – число объектов в классекислотоустойчивых микобактерий, ni,2 – число объектов в классе иных объектов.После определения информативности всех признаков формировалсяупорядоченный список, в котором на первом месте находился признак снаибольшей информативностью, а на последнем месте – признак с наименьшейинформативностью.Сравнение результатов отбора признаков с использованием методов оценкиинформативности осуществлялось следующим образом.
На первом шагеиспользовалсяодинпараметробъектов,которыйимелмаксимальнуюинформативность по каждому из приведенных выше методов. С использованиемданного параметра осуществлялось построение различных классификационныхмоделей для идентификации объектов, по результатам которой оцениваласьточность классификации (%). Точность классификации определялась как доляистинно положительных и истинно отрицательных результатов классификациисреди всех результатов. На следующем шаге использовались два параметра,которые имели наибольшую информативность по каждому из методов оценкиинформативностиклассификационныхспоследующиммоделей.Такимповторениемобразом,процедурынапостроениязавершающемэтапеиспользовались 15 параметров объектов, которые по результатам применения63каждого из методов оценки информативности имели большую ценность дляидентификации объектов.Вкачествеклассификационныхмоделейиспользовалисьметоды:логистической регрессии, дерева классификации и дискриминантный анализ.Построение данных моделей осуществлялось в аналитической системе RapidMinerStudio v.8.2.Наилучшим методом отбора признаков для идентификации объектовсчитался метод, с использованием которого было получено максимальное значениеточности классификации при минимальном числе параметров, входящих вклассификационные модели.2.2.3.
Этап 3На третьем этапе исследования осуществлялась разработка математическихмоделей классификации выделенных на предыдущих этапах объектов на 2 класса:класс кислотоустойчивых микобактерий и класс иных объектов.В качестве моделей классификации были рассмотрены логистическиерегрессионные уравнения, деревья классификации, трехслойная и четырехслойнаянейронные сети прямого распространения. Данные модели позволяют определятьпо набору входных характеристик объекта принадлежность к определенномуклассу [44, 289] и могут быть реализованы в диагностических компьютерныхсистемах[85,99].Построениеуказанныхмоделейосуществлялосьвстатистической системе IBM SPSS Statistics v.19.Уравнение логистической регрессии представляет собой уравнение,показывающеезависимостьпрогнозируемогопараметраотмножествапредикторов: = 1 ∗ 1 + 2 ∗ 2 + ⋯ + ∗ + ,(22)64где y – зависимая переменная в логистическом регрессионном уравнении, xn –значение параметра объекта n, an – коэффициент параметра объекта n, n – числопараметров объектов, b – константа логистического регрессионного уравнения.Все количественные параметры объектов были представлены в видеотдельного предиктора уравнения.Результатом решения уравнения является значение y, при использованиикоторого и решения уравнения (23) вычисляется вероятность того, что объектотносится к классу кислотоустойчивых микобактерий:( ) =11+ −,(23)где () – вероятность того, что объект относится к классу кислотоустойчивыхмикобактерий, – число Эйлера (e ≈ 2,71828…), – значение, полученное порезультатам расчета уравнения логистической регрессии (22).Таким образом, полученное уравнение логистической регрессии позволяетрассчитывать значение (y), которое в свою очередь необходимо использовать длярасчета вероятности отнесения объекта к классу кислотоустойчивых микобактерийс помощью формулы (23).
Для удобства восприятия и интерпретации, приувеличении в 100 раз вероятность можно представить в процентах.Отбор признаков для включения в уравнение логистической регрессииосуществлялся с помощью следующих 7 методов:1.«Enter» – в уравнение включаются все имеющиеся признаки.2.«Включение (условное)» – шаговый метод отбора переменных, вкотором на каждом шаге в уравнение добавляется признак с наибольшейстатистической значимостью различий между классами, а проверка на исключениеосуществляется на основе оценок условного отношения правдоподобия.3.«Включение (Вальда)» – шаговый метод отбора переменных, в которомна каждом шаге в уравнение добавляется признак с наибольшей статистическойзначимостью различий между классами, а проверка на исключение осуществляетсяна основе статистики Вальда.654.«Включение (отношение правдоподобия)» – шаговый метод отборапеременных, в котором на каждом шаге в уравнение добавляется признак снаибольшей статистической значимостью различий между классами, а проверка наисключение осуществляется на основе оценок отношения правдоподобия.5.«Исключение (условное)» – шаговое исключение признаков изуравнения на основе условного отношения правдоподобия.6.«Исключение (Вальда)» – шаговое исключение признаков из уравненияна основе статистики Вальда.7.«Исключение (отношение правдоподобия)» – шаговое исключениепризнаков из уравнения на основе отношения правдоподобия.В качестве порога включения признака в уравнение логистической регрессиииспользовалось значение уровня значимости признака менее 0,05, а в качествепорога исключения – более 0,1.Дерево классификации представляет собой набор логических правил,используя и двигаясь по которым можно классифицировать объекты на класскислотоустойчивыхмикобактерийиклассиныхобъектов.Результатомиспользования дерева классификации является класс, имеющий два значения:кислотоустойчивая микобактерия или иной объект с указанием вероятности этихсостояний.Полученные деревья классификации представляют собой алгоритм, которыйможет быть представлен в виде блок-схемы, и при использовании, которого путемдвижения от верхних узлов к нижним, можно определить вероятность отнесенияобъекта к одному из используемых классов.Формирование деревьев классификации осуществлялось с применением 4методов построения: CHAID, Исчерпывающий CHAID, CRT и QUEST.