Спиридонов И.Н., Самородов А.В. - Методы и алгоритмы вычислительной диагностики (1035409), страница 6
Текст из файла (страница 6)
е. из Фи ), получают количество ИБ, в которых проверялся признак Х, (т, с. Ж, ' ). Затем находят количество ИБ с 2)о в которых встречается симптом 5(Хз) (т. е. Ф ' ), н получают значсние параметра а;. Вычитая найденнос число а, из числа ИБ, в которых проверялся признак Х, находят значение сь Разделив а; на количество ИБ, в которых проверялся признак Х, получают Р(К,.!.0,), т. е. 30 Проделывая аналогичную процедуру с ИБ с заболеванием Вз, опрсделяктт значения Ьь 4, Р(Я, Юз ): Рассмотрим расчет информативности симптомов. Из теории вероятности и информации известно, что симптом 5, считается информативным, если его условная вероятность при заболевании й, не равна априорной вероятности данного симптома, т.
е. если для любого 1 справедливо условие Очевидно, что чем более информативен симптом, тем сильнее различаются сго условная и априорная вероятности. Таким образом, информативность симптома может характеризоваться количеством информации по Шеннону: (1б) пр з — количество информации, содержащейся в симптоме Я; от- 1 носнтельно заболсвавия 11 . 31 Очевидно, что сели Р(У,./23 ) = Р(Ь,), то ао з —— О. На практике, однако, используют другие показатели информативности симптомов, которые соответствуют различным алгоритмам ВД. К таким показателям относятся ДК, информативность по Кульбаку, коэффициент корреляции симптома с вернфицированным диагнозом и аргумент распределения Стъюдснта.
Помимо применения в соответствующих диагностических алгоритмах ДК используется и как показатель диагностической информативности симптома. Чем больше абсолютное значение ДК, тем более информативным считают симптом. Этот показатель дает достаточно хорошее представление об информативности тех симптомов, которые ие слишком редко и не слишком часто встречаются хотя бы среди одного из заболеваний .0~ и 1Эъ Информативность относительно редких симптомов ДК может преувеличивать, информативность относительно часто встречающихся — преуменьшать.
Это объясняется тем, что ДК симптома зависит только от отношения его условных вероятностей при заболеваниях н не зависит от их абсолютных значений. Пример 7. Симптом Я~ встретился при заболевании Р, в 4 ' ИБ, а при заболевании 23з — в 2 ' . Симптом 5. встретился при заболевании 13, в 40 М ИБ, а при заболевании 13~ — в 20 ' . Вычислить ДК обоих симптомов и сравнить их друг с другом.
Решение: ДК, =10 1й(0,04/0,02) = 3,0, ДКз — — 1010(0,4/0,2) =-3,0. Хотя ясно, что диагностическая ценность симптомов различна, их диагностичсские коэффициенты имеют одинаковое значение. Коэффициент информативности по Кульбаку вычисляется следующим образом: 32 Коэффициент информативности по Кульбаку дает более объективную оценку диагностической ценности симптома, так как зависит не только от отношения его условных вероятностей при заболеваниях.0, и Юъ но и от их разности. Коэффициент корреляции симптома с верифицированным диагнозом дает наиболее объективную оценку приращения информативности симптомов при изменении вероятности их появления.
Вычисляется коэффициент корреляции в соответствии с (14). Аргумент распределения Стьюдента опрсделяется по формулс (18) РТйЯ%м где Значение г зависит от объема выборок, в которых проверяется данный симптом при обоих заболеваниях, и с этой точки зрения аргумент распределения Стыодента позволяет осуществить более дифференцированный, по сравнению с другими перечисленными показателями, подход к оценке информативности симптомов. В остальном аргумент г аналогичен коэффициенту корреляпии.
Показатели информативности целесообразно выбирать в зависимости от применяемого алгоритма, а также от параметров диагностической задачи. Если применяется теорема Байеса и все вытекающие из нее алгоритмы, то информативность симптомов лучше оценивать по ДК и коэффициенту Кульбака. Если диагноз ставится по сумме коэффициентов корреляции симптомов с верифицированным диагнозом, в качестве меры информативности целесообразно выбирать коэффициент корреляции г. Вне зависимости от выбранного алгоритма, если есть основания считать распределение симптомов при 33 диагностнруемых заболеваниях нормальным, контроль целесообразно проводить по и Отсев малоинформатннных симптомов.
Как следует из теории распознавания образов, чрезмерное увеличение числа симптомов, по которым проводится ВД, может привести к снижению достоверности результатов ВД. Поэтому среди всех имеющихся симптомов отбирают только информативные, которые и будут использованы а выбранном алгоритме ВД. Введем требования к информативности симптомов, не подлежащих отсеву.
При применении алгоритмов, вытекающих из теоремы Байсса, ~ДКг~>3; 1» >0,25. Прн применении коэффициентов корреляции Ц>0,25. Гели все симптомы признака Х оказались неинформативными, то нсинформагивным считается сам признак, и он исключается нз картъг признаков и симптомов. Однако нерсдко прн объединении неинформативных признаков и их симптомов образующиеся симптохомплексы могут оказаться информативными, н, следовательно, могут использоваться в ВД. Например, если признак Х~ с симптомамн 5~ н Я н признак Х~ с симптомами Яз н 5, оказались не- информативными, то один нли несколько снмптокомплексов среди набора Я,ъ Ям, Яяь 5м объединенного признака Х~ з вполне могут оказаться информативными.
На гграктике решение о целесообразности объсдиненггя неинформативных признаков принимается исходя нз врачебного опыта по диагностике рассматриваемых заболеваний. ЗЗ. Классификация Этап классификации заключается в последовательном решении следующих задач. 1. Диагностика по группе контроля по отобранным симптомам. 2. Коррсктировка построенной системы ВД. 3.
Применение системы ВД в клинике на основе выбранного диагностического алгоритма. Диагностика по информативным симптомам и симптокомплексам на основе выбранного алгоритма осуществляется по группе контроля. ИБ нз группы контроля предварительно кодируются так же, как и ИБ из группы обучения. Значения информативности симптомов уточняются с появлением каждой новой ИБ, и одновременно происходит поиск такой совокупности симптомов, диагностика по которой дала бы наиболее хорошие результаты. Для этого необходимо для текущих больных также кодировать симптоматику и после верификации диагнозов объединять новые данные со старыми, делая пересчет вероятностей и показателей информативности симптомов каждый раз послс того, как накопилось определенное число новых верифицироваиных случаев.
Поиск оптимального набора симптомов является достаточно сложной задачей. Один из возможных алгоритмов следующий: по ИБ с верифицированными диагнозами проводится ВД с использованием всех информативных симптомов. Определяется эффективность диагностики по формуле (19) ц=П, +Ш~П~+ШзПз, где ц — эффективность диагностики; Пч, — процент правильных дим'- нозов, Ш, — шграф за ошибку 1-го рода; П, — процент ошибок 1-го рода; Шг — штраф за опшбку 2-го рода; П~ — процент ошибок 2-го рода.
Затем исключается один из симптомов или снмптокомплексов и по тем же ИБ вновь ставится диагноз и определяется эффективность з) . Если новое значение эффективности больше предыдущего, то исключается другой симптом нлн симптокомплекс и опять опрсдсляется эффективность т) . Так продолжается до тех пор, пока не наступит момент, когда нельзя нн прибавить и ни убавить ни одного симптома или симптокомплекса или их группы с тем, чтобы не уменьшить значение т). Список симптомов и симптоком- плексов, прн котором з) = ц, считается оптимальным.
В процессе применения разработанной системы ВД на практике необходимо с постоянной периодичностью использовать накопленные вернфнцированные диагнозы для пересчета исходных данных и, следовательно, для коррекции системы ВД. 35 4. ПРИМЕР ПОСТРОЕНИЯ СИСТЕМЫ ВЫЧИСЛИТЕЛЬНОЙ ДИАГНОСТИКИ ДЛЯ ДИФФЕРЕНЦИРОВАНИЯ РАННИХ ФОРМ ХРОНИЧЕСКИХ АРТРИТОВ Достоверный диагноз любого хронического заболевания на ранней стадии является наиболее трулным и наиболее значимым. В згот период врач имеет гораздо больше возможностей влиять на патологический процесс, который является потенциальной причиной необратимых изменений как со стороны опорно-двигательного аппарата, так и внутренних органов. В настоящее время остро стоит вопрос о дифференциальной диагностике ранних хронических артритов (РХА), в частности, рсвматондного артрита (РА), псориатического артрита (ПсА) и податрического артрита (ПА).
К общим закономерностям ранних стадий РА, ПсА и ПА относятся определенное сходство их клинических проявлений, случаи агрессивного с самого начала течения болезни, необходимость использования базисных (болезнь-модифицирутощих) препаратов на протяжении длительного времени.
К основным преимуществам ранней диагностики н, следовательно, раннего назначения базисной терапии данных болезней относятся снижение выраженности клинических проявлений, улучшение функциональной активности и замедление прогрессирования, улучшение качества жизни и снижение риска потери трудоспособности, снижение смертности до популяционного уровня. Разработанные к настоящему времени диагностические критерии каждого из перечисленных заболеваний позволяют характеризовать лишь период развернутых клинических проявлений. Субъективная оценка и интерпретация данных критериев не позволяет проводить дифференциальную диагностику на ранних стадиях с нх помощью. В последние годы появились новые методики исследования ранних форм хронических артритов, основанные па антикератиновых анппелах, антипсринуклеарном факторе, антителах к РА-33 антигену, антицитруллиновых антителах, а также на использовании компьютерной томографии, остеосцинтиграфии, артроскопии для оценки ранних изменсний в суставах.
Однако эти методики являются сложными, дорогостоящими и не могут применяться в широкой клинической практике. Таким образом, задача построения системы ВД для дифферснциальной диагтюстики РА, ПсА и ПА по существующим критери- 36 ям на основе обобщения и формализации накопленного медицинского опыта является крайне актуальной.
Разработка системы ВД проводилась в соответствии с этапами, рассмотренными в разд. 3. 1. Сбор информации. Задача создаваемой системы ВД состоит в дифференциальной диагностике трех заболеваний: 23! — ревматоидного артрита, 23!— псориатичсского артрита, 231 — пода7рнческого артрита. Отбор ИБ с верифицированными диагнозами позволил сформировать выборку, состоящую из 304 ИБ, из которых М =138, ЮО, =85, А!и, = 81. Разбиение верифицированного материала на группу обучения и группу контроля дает возможность объективно судить о качестве созданной системы ВД, так как при проверке работы системы ВД только на группе обучения могут быть получены необоснованно завьппенные оценки.