Спиридонов И.Н., Самородов А.В. - Методы и алгоритмы вычислительной диагностики (1035409), страница 3
Текст из файла (страница 3)
Для этого используют различные подходы. В статистических приложениях величину Р(3~0) получают при помощи вычислений на основе принятой статистической модели, например, того, что наблюдаемые данные подчиюпотся нормальному распределению. При наличии согласованного мнения о значении Р(3~0) оно становится общепринятым. Однако в большинстве случаев далеко не все врачи приходят к общему мнению„и для большинства заболеваний не существует данных относительно Р(Я~Р) .
Английские ученыс Ледли и Ластед предложили рассматривать заболевание как некоторую причину, вызывающую появление самых различных симптомов. Тогда процедура оценки величины Р(Я~В) будет заключаться в определении вероятности появления симптомов и симптокомплексов при условии, что пациент страдает данным заболеванием (или комплексом заболеваний). То есп априори предполагается наличие данного заболевания, и условные вероятности симптомов определяются эмпирически как относительные частоты. Оценка априорной вероятности заболевания Р(В) также является необходимой длл использования формулы Байеса. Априорная вероятность Р(Ю) — зго вероятность заболевания до того, как собраны симптоматические данные.
Криппа применения формулы Байеса в основном сосредоточилась на трудности опенки величины РЯ) . Рассмотрим Р(0) более подробно. По сути априорная вероятность заболевания является СМВ, т. с. может быть вопросом мнения, но это не исключает возможности определения априорной вероятности как относительной частоты возникновения данного заболевания в рассматриваемой группе при ретроспективном анализе. Ледли и Ластед показали, что на величину Р(Р) влияют местные факторы: географическое положение, сезонные изменения, возникновение эпидемий и т. и. !2 Английские исследователи Мостеллер н Уоллес показали, что в случае достаточно полного набора экспериментальных данных среднее значение апостериорных вероятностей Р(Р(3) по всей исследуемой группе позволяет оценить величину РЯ). То есть, определяя апостериорные вероятности, мы уточняем значение РЯ).
С этим согласуется положение о том, что формула Байеса является оптимальным правилом для пересмотра исходной информации. В случае редких событий уместно определять величину РЯ) при помощи пуассоновского распределения — закона редких событий. Как известно, распределение Пуассона описывается выражением (ие ) л! где Є— вероятность того, что при среднем числе событий т на интервале измерения число действительных событий на этом интервале составит л. Если редким событием является диагноз П и мы хотим вычислить величину РЯ) из распределения Пуассона, то приведенная формула будет иметь следующий смысл: Є— вероятность того, что при среднем числе т случаев постановки диагноза Р на интервале измерения (например, в тскущсм году) число случаев, когда заболевание 1) будет действительно иметь место на следующем интервале (например, в следующем году), равно л. Пример 3.
Прогнозирование редкого заболевания. В клинике наблюдали в среднем трех пациентов в год с саркомой кости для определенной возрастной группы, пола и т. п. Определить вероятность того, что в будущем году встретится пять человек с данным заболеванием. (Зз -з) Решение; в = Э, и = 5, Р = = 0,1. 5 Априорная вероятность симптома Р(Я) обычно не представляет большого интереса. Она может быть исключена или вычисле- 13 на следующим образом.
Предположим, что.0; — это одно из набора единственно возможных и несовместных заболеваний. Применение формулы Байеса требует, чтобы Отсюда с учетом (2) легко можно установить следующее: 14) Если заболеваний два, РЯ = Р(Б(0) Р(0) + Р(Б~ 0) Р(0 ) Выбор группы несовместных заболеваний является важным, но в значительной степени произвольным. Этот выбор всегда должен оставлять место для категории «некоторое другое заболевание». Это означает, что в некоторых случаях диагноз остается неопределенным. Включение неопределенной категории в ВД необходимо для того, чтобы замкнуть круг рассматриваемых диагнозов.
Таким образом, если 0~ и Юз являются единственно возможными и взаимоисключающими диагнозами, формулу Еайеса (2) можно представить в следующем виде: Р®В,)Рф,) Ю)(Ю+Я)() Пример 4. Определение апостсриорных вероятностей. В группе обучения подобраны: 164 истории болезни с прободной гастродоуденальной язвой (Р,) и 81 история болезни с другими заболеваниями «острого живота» (Юз). Симптом Б <окивот как доска» встретился в 81 истории болезни с 21~ и в 9 историях болезни с Юь Определить апостериорвые вероятности диагнозов при наличии данного симптома РЯ (Б), Р1 Вз1 Б), и апостериорные вероятности диагнозов при отсутствии данного симптома 14 Решение.
Условные вероятности симптома Р(К(0~)= =049' Р(Я/132)= =011. 81 9 164 81 Так как наличие и отсутствие симптома являются единственно возможными и взаимоисключающими событиями, то условные вероятности отсугствня симптома РЯР,) =1- Р(К~В) = 0,89. Априорныс вероятности наличия и отсугствия симптома РЯ = = 0,37; РЯ = 1-Р(Я) = 0,63.
164+ 81 Априорные вероятности диапюзов Р(Р~)= =0 67' Р(Рг)=1 Рф~)=0*33. 164+ 81 Вероятность прободной гастродоуденальной язвы при наличии симптома «жнвот как доска» Вероятность других заболеваний «острого живота» прн наличии симптома 6 Р(13,Р) = 0,10. Вероятность |), при отсутствии симптома 5 15 Вероятность Рз при отсутствии симптома Я Если рассматриваются сразу несколько симптомов, то (при условии нх независимости при наличии заболевания 17!) их совместная условная вероятность в соответствии с теоремой об умножении вероятностей равна ' (о! о2 оз - ЬФ) ПР(б/~7). ! (б) Таким образом, формула Байеса для нескольких симптомов или симптокомплексов запишется в следующем виде: (7) !6 где А! — число учитываемых симптомов и/или симптокомплексов, М вЂ” число рассматриваемых диагнозов, у' = 1,..., М.
Алгоритм ВД с использованием формулы Байеса заключается в вычислении апостернорных вероятностей заболеваний в соответствии с формулой (7). Прн использовании формулы (7) предполагается независимость симптомов, это условие часто не выполняется на практике. Поэтому применение формулы Байеса требует осторожности. Тем не менее использование формулы (7) дает вполне обоснованные результаты при диагностике очень многих заболеваний.
Поэтому при практических применениях достаточно, выбрав не слишком коррелированные симптомы, ограничиться допущением об их условной независимости. Советским ученым М.Л. Быховским в 19б7 г. было доказано, что можно найти такое разбиение заболеваний, для которых симптомы будут условно независимыми. Существунл два случая вероятностной зависимости симптомов (относящихся к разным признакам): 1) непосредственная, при которой существующий физический механизм связи имеет стохастический характер и является инвариантным по отношению к рассматриваемым состояниям организма, например повышение температуры и головная боль„ 2) опосредованная — через третий фактор. Если этот третий фактор зафиксировать (выделить подмножество с одинаковым его значением), то симптомы становятся независимыми в рамках этого подмножества.
Как следует из теории вероятностей, сели симптомы зависимы, то их совместная плотность вероятности не равна произведению плотностей вероятности каждого из симптомов, т. е. Однако если нх зависимость опосредованная, можно вьщелить такое подмножество Рь что будет выполняться равенство т. е. в рамках этого подмножества симптомы становягся независимыми.
Теорема. Информативныс для диагностики симптомы, независимые на подмножествах диагнозов Рв зависимы на множестве, включающем все Р. Докажем теорему. Рассмотрим случай двух диагнозов Р, н Рм причем Р(Рз) =1-Р(Р1). Условием информативности симптома является неравенство его априорной и условной вероятностей: Совместная априорная вероятность двух симптомов может быть выражена через их условные вероятности: Р(И, й1Б,) =Р(Б, М,/П,)РЯ,)+Р(Б, М,/О,)Р(П) = = (Б,/ПжБ/НР1'М СБ/Ю СБ/~ )Р1.77 ) Последнее преобразование справедливо, так как по условию теоремы симптомы являются независимымн на подмножествах и! нр2. Кроме того, априорные вероятности каждого из симптомов равны соответственно: Р(Б,) = Р(Б,/О,) КЯ+ КБ,/7) ))КЮ,).