Диссертация (1174210), страница 22
Текст из файла (страница 22)
Так при включении влогистическое регрессионное уравнение только одного параметра, имеющегомаксимальную информативность по данному методу, точность классификациисоставила 50,5%, а при включении 15 признаков – 81,3%.Значительно отличающееся на первом этапе классификации качествопозволило получить включение в уравнение логистической регрессии признаков,имеющих наибольшую информативность, определенную с применением методаКульбака. Так, при включении в логистическое регрессионное уравнение толькоодного параметра, имеющего максимальную информативность по данному методу,точность классификации составила 74,2%, что существенно превышало качествоклассификациисиспользованием одногопараметраобъекта,имеющегонаибольшую информативность по ранговому методу.
Но при включении всех 15признаков, отобранных методом Кульбака, качество классификации оказалосьхуже (79,8%), чем с применением рангового метода.Использование метода накопленных частот с целью отбора признаков дляпостроения логистической регрессии, как и метода Фишера, также не позволилополучитьмаксимальновозможныйрезультатклассификации.Результатыклассификации, полученные с использованием данных методов получитьпрактически идентичные результаты классификации с помощью логистическогорегрессионного уравнения. На начальном этапе при применении обоих методовбыла получена точность классификации – 85,8%, при включении в уравнение 15признаков, отобранных с помощью метода накопленных часто – 86,0%, а методаФишера – 86,1%.Наилучшиепоказателиточностиклассификациисиспользованиемлогистического регрессионного уравнения были получены при отборе признаковметодами «пересечений» и Шеннона. Так, с использованием метода Шеннона на 3шаге была получена точность 86,8%, что превышало точность при примененииметода «пересечений» (86,1%).
Однако, на 9 шаге с использованием метода149«пересечений» была получена точность равная 87,6%, а на 15 шаге – 87,9%.Максимальная точность, полученная с использованием метода Шеннона, на всех15 шагах построения логистического регрессионного уравнения составила 87,5%.Таким образом, лучшим методом отбора признаков для построения логистическогорегрессионного уравнения в нашем исследовании является метод «пересечений»,позволяющий при включении минимального числа параметров объектов получитьмаксимальный результат классификации.Практически такие же результаты были получены и при использованиидерева классификации для классификации объектов (рисунок 53).9085Точность, %8075706560555045123456789 10 11 12 13 14Шаг - число параметров в классификационной моделеМетод пересеченийМетод накопленных частотМетод КульбакаМетод ШеннонаМетод ФишераМетод рангов15Рисунок 53 – Результаты классификации с использованием дерева классификацииМаксимальная точность при отборе признаков по методу Кульбака былаполучена на 15 шаге и составила 80,7%, что было больше, чем при применении150рангового метода (78,5%), а при использовании метода накопленных частот иметода Фишера точность практически не менялась и составила от соответственно85,9% до 87,0% и 85,9% до 86,7%.
Максимальная точность (88,2%) прииспользовании метода «пересечений» была получена на 11 шаге, то есть привключении 11 параметров объектов, имеющих наибольшую информативность прииспользовании данного метода отбора признаков. Аналогичная точность прииспользовании метода Шеннона получена только на 15 шаге.При использовании дискриминантного уравнения для классификацииобъектов (рисунок 54) максимальная точность также была получена при отборепараметров методом «пересечений» (87,4%). Данная точность была получена ужена 9 шаге.
При этом точность классификации с использованием других методовотбора признаков на протяжении всех 15 шагов была меньше 87,4%.9085Точность, %80757065605550123456789 10 11 12 13Шаг - число входных параметров в моделиМетод пересеченийМетод накопленных частотМетод КульбакаМетод ШеннонаМетод ФишераМетод рангов1415Рисунок 54 – Результаты классификации с использованием дискриминантногоанализа151В ходе реализации данного этапа исследования была разработана программадля ЭВМ (рисунок 55) «Компьютерная система для определения характеристикобъектов в больших объемах данных» (свидетельство о регистрации программ дляЭВМ в Федеральной службе по интеллектуальной собственности №2017663554 от07.12.2017 года). Данная программа для ЭВМ позволяет в базах данных,содержащих информацию об объектах, и имеющих существенный размеропределять по каждому признаку объектов информативность с применениемметодов «пересечений», накопленных частот, Шеннона, Кульбака, Фишера ирангового метода.Таким образом, результаты сравнения качества классификации объектов сиспользованием параметров, отобранных с использованием различных методов,наилучшим методом отбора признаков для распознавания объектов на цифровыхизображениях микроскопических препаратов мокроты, окрашенной по методуЦиля-Нильсена, является метод «пересечений».
Данный метод позволяетосуществлять отбор признаков из всего признакового пространства так, чтоклассификационные модели дают максимальную точность классификации принаименьшем числе входных параметров.Необходимо отметить, что применение метода «пересечений» для отборапризнаков, включаемых в классификационные модели обоснованно при решенииоперативныхзадач,требующихминимальноговременидляпостроенияклассификационных моделей. В решении задачи классификации объектов нацифровых микроскопических изображениях мокроты, окрашенной по методуЦиля-Нильсена, рассмотренной в следующей главе, данный метод отборапризнаковнеприменялсяввидуотсутствиявременныхограниченийииспользования для отбора признаков встроенных в классификационные алгоритмыметодов.152Рисунок 55 – Окно «Компьютерной системы для определения характеристик объектов в больших объемах данных»153ГЛАВА 5 РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МОДЕЛЕЙРАСПОЗНАВАНИЯ ОБЪЕКТОВ НА ЦИФРОВЫХМИКРОСКОПИЧЕСКИХ ИЗОБРАЖЕНИЯХ МОКРОТЫ, ОКРАШЕННОЙПО МЕТОДУ ЦИЛЯ-НИЛЬСЕНАВ данной главе будут рассмотрены результаты разработки математическихмоделей классификации объектов на цифровых микроскопических изображенияхмокроты, окрашенной по методу Циля-Нильсена [2].Необходимо отметить, что исключение части объектов на цифровомизображении после его сегментации не требует применения каких-либо моделейклассификации.
Это связано с тем, что часть объектов, относящихся к классу иныхобъектов, имеет один или несколько цветовых и/или морфометрическихпараметров, свидетельствующих о явной принадлежности данных объектов кклассу иных объектов, а не к классу кислотоустойчивых микобактерий. В связи сэтим дальнейшее построение классификационных моделей осуществлялось наоснове данных об объектах кислотоустойчивых микобактериях и иных объектах,параметры которых входили в диапазон значений у объектов кислотоустойчивыхмикобактерий.5.1.
Использование логистической регрессии для классификации объектов нацифровых изображениях микроскопических препаратов мокроты,окрашенной по методу Циля-НильсенаРезультатыпостроенияуравненийлогистическойиспользованием различных методов отбора признаковрегрессиисс определеннымипоказателями чувствительности, специфичности и точности классификациипредставлены в таблице 14.154Таблица 14 – Результаты построения уравнений логистической регрессииМетод отбора признаковEnterВключение (условное)Включение (Вальда)Включение (отношениеправдоподобия)Исключение (условное)Исключение (Вальда)Исключение (отношениеправдоподобия)Числошагов19158Число входящихв уравнениеSe, % Sp, % Acc,%параметров23588,7 88,488,69188,9 88,288,65888,9 88,288,6343488,988,288,6605817517788,988,988,288,288,688,68515088,988,288,6Использование построенного уравнения логистической регрессии по методу«Enter», когда в уравнение принудительно включены все 235 изучаемых параметра,позволилополучитьследующиерезультатыклассификацииобъектовкислотоустойчивых микобактерий и иных объектов: чувствительность – 88,7%,специфичность – 88,4%, точность – 88,6%, доля ложноположительных результатов– 11,6% и доля ложноотрицательных результатов – 11,3%.Точность полученного уравнения логистической регрессии, а также другиепоказатели, характеризующие диагностическую ценность с использованиемметода «Enter», свидетельствуют о возможности использования данного уравнениядля классификации объектов на цифровых изображениях микроскопическихпрепаратов мокроты пациентов, окрашенной по методу Циля-Нильсена.
Однако,включение в уравнение всех 235 признаков существенно затрудняет егопрактическое применение в связи с тем, что их определение у каждогоанализируемогообъектатребуетвременныхзатрат,которыестановятсязначительным ограничением при наличии на изображении большого числаобъектов.Построение уравнения методом «Включение (условное)» производилосьпутем 156 шагов. На заключительном шаге было получено уравнение свключенными 156 параметрами из 235. Были получены следующие результаты155классификации объектов: чувствительность – 88,9%, специфичность – 88,2%,точность – 88,6%, доля ложноположительных результатов – 11,8% и доляложноотрицательных результатов – 11,1%. Те же самые результаты классификациибыли получены на 91 шаге, что свидетельствует о возможности использованиярегрессионного уравнения не только с включенными 156 признаками, но и овозможности уменьшения количества используемых признаков до 91 безухудшения качества классификации объектов на цифровых изображенияхмокроты, окрашенной по методу Циля-Нильсена.Для построения логистического регрессионного уравнения с применениемметода «Включение (Вальда)» произведено 170 шагов, то есть в уравнениевключено 170 параметров.
Диагностическая ценность полученного уравнения неотличалась от уравнения, построенного методом «Включение (условное)».Результаты классификации, полученные при включении 170 параметров, былидостигнуты уже на 58 шаге построения уравнения логистической регрессии.Построение логистического регрессионного уравнения с применениемметода «Включение (отношение правдоподобия)» произведено за 34 шага, то естьв уравнение включено 34 параметра. Диагностическая ценность полученногоуравнения не отличалась от уравнений, построенных методами «Включение(условное)» и «Включение (Вальда)».С применением методов построения уравнений логистической регрессии,которые основаны на включении всех признаков с последующим их пошаговымисключением на основе различных статистик, получены уравнения, включающиезначительно большее число признаков. Так, с применением метода «Исключение(условное)» путем осуществления 60 шагов было получено уравнение,включающее 175 признаков.
Использование метода «Исключение (Вальда)»позволило снизить число входящих в уравнение признаков с 235 до 177 после 58шагов удаления признаков из уравнения, а применение метода «Исключение(отношение правдоподобия)» – до 150 признаков после 85 шагов.Необходимо отметить, что результаты классификации объектов на цифровыхмикроскопических изображениях мокроты, окрашенной по методу Циля-Нильсена,156по показателям чувствительности, специфичности, точности, а также долямложноположительныхиложноотрицательныхрезультатов,ууравнений,полученных с применением методов с исключением признаков полностьюсовпадали с результатами, полученными с применением методов шаговоговключения признаков. Однако, как показывают результаты, число признаков,которые включены в уравнения логистической регрессии существенно меньше приприменении методов пошагового включения.Также стоит отметить, что во всех полученных уравнениях, с применениемразличных методов включения признаков, включены признаки, входящие во всетри группы параметров.