Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 13
Текст из файла (страница 13)
1.1. Частота случаев — (а -; еУ~п. Чувствительность критерия в обнаружении (предсказании) случая а/(а+ е), т. е. доля случаев, для которых у (Х) ( с. С чувствительностью связано введенное ранее понятие ошибки первого рода (а) в проверке гипотезы, что изучаемый объект есть случай. Чувствительность = 1 — и. Специфичность критерия — )l(Ь + )), т.
е. доля не-случаев, для ноторых у (Х) > с. Специфичность равна 1 — )3, где р -- ошибна второго рода в проверке гипотезы, что изучаемый объект случай. Относительный риск — отношение вероятности быть случаем при условии, что гипотеза «случай» принята, к вероятности быть случаем при условии, что эта гипотеза оти, е вергнута 1« =- — , ,— ь ' е-г! ' Доля ложноположительных — Ы(а+ (»), т. е. доля не- случаев среди объектов, признанных случаями. Доля ложноотрицательных — е!(е + )), т. е. доля случаев среди объектов, признанных не-случаями. Среди введенных характеристик только три независимых, остальные могут быть получены из них простым пересчетом.
Представляется целесообразным выбрать в качестве ведущих частоту случаев (как параметр, связанный с выборочной схемой) чувствительность и специфичность (как параметры, связанные с разделимостью распределений случаев и не-случаев) или, что то же самое, частоту случаев и ошибки первого и второго рода. Никание две из указанных характеристин не дают полного представления о ситуации. В прикладных исследованиях об этом часто забывают и сообщают только общий процент ошибочных диагностических заключений. При этом близость к нулю этого процента при низкой частоте случаев вообще не гарантирует высокую чувствительность критерия.
Неполные наборы характеристик встречаются даже в высшей степени интересных работах !49, с. 2621. 1.2.2. Йзменение порога критерия. Часто в приложениях возникает необходимость описать качество классифинации, достигаемое с помощью заданной функции у (Х) при различных значениях с. Для этой цели достаточно привести одно число — частоту случаев и одну кривую — график «чувствительность — специфичность». Предположим теперь дополнительно, что имеет место классическая модель Фишера (см.
л. 1.1.2), в качествет(Х) 6! используется логарифм отношения правдоподобия. В этом случае т (Х) является линейной функцией Х и, следовательно, для случаев и не-случаев у (Х) имеет нормальное распределение с одной и той же дисперсией. Обозначим ее ол и пусть (Е37) 4= (Е(у(Х) (Н) — Е(р(Х) ~ Нз))7о. ю ю ю ю ю ю ю ю ии Чуа~~а~айа О~~ь % Рис.
!.3. Кривые ччунстиительность — сиецифичностьа дли различных зиачени» л (модель Фишера) Тогда кривая «чувствительность — специфичность з (рнс. Е3) в параметрической форме имеет вид (1.38) (х(з), у(()) () — Ф(( — т(), Ф(()), где Ф (() — функция распределения стандартизованной нормальной величины. Если изменить масштабы по оси абсцисс и ординат по формулам и = ф (х), п =- ф (у), где ф — функция, обратная к Ф, то кривая (1.38) перейдет в прямую (Й вЂ” 1, 1)„— оо(1< оа.
(1.38') В самом деле, и = »Р (1 — Ф (1 — «()) =- — »Р (Ф (1 — «()) = — (1 — «(); о = ф (Ф (1)) = 1 Существует специальная бумага, называемая двойной нормальной, на которой описанное выше преобразование выполнено. Кривые на ней распрямляются (рис. 1.4). Когда распределения у(Х) для случаев и не-случаев по-прежнему нормальны, но имеют разные стандартные отклонения, кривая «чувствительность - -- специфичность» на двойной нормальной бумаге будет опять прямой, причем если ф— угол ее наклона к оси абсцисс, то отношение стандартного отклонения случаев к стандартному отклонению не-случаев равно Ц гр~ Опыт показывает, что кривые «чувствительность — специфичность>, построенные по реальным данным, при нанесении их на двойную нормальную бумагу часто распрямляются хотя бы в своей центральной части.
Это дает возможность в интересующем исследова~еля диапазоне чувствительности (специфичности) характеризовать приближенно разделяющую силу используемого критерия у (Х) одним числом Ы. 1.2.3. Условная вероятность быть случаем. В исследованиях, направленных на выявление риск-факторов стать за фиксированное время случаем, принято разбивать исходные объекты на несколько частей равного объема согласно увеличивающемуся риску стать случаем и для каждой части указывать соответствующую долю случаев (277, 322]. Если дополнительно предположить, что распределения для случаев и не-случаев приближенно нормальны с общей дисперсией, то по заданному значению «( и частоте случаев легко найти распределение доли случаев для разбиения изучаемой популяции согласно риску быть случаем.
В табл. 1.2 частота случаев указана для квартилей риска. Подобные таблицы можно использовать и в обратном направлении: по данной частоте случаев и долям случаев в квартилях (или децилях) найти соответствующее д. Аналогично, если при классификации используется трехградационное правило («объект являешься случаем», «отказ от классификации», «объект является не-случаем>), известны частоты принятия каждого из решений и соответствующие частоты ошибочных заключе- 63 33 О О ы съ а| а Ф О К О О с Ф а СОСЧ О|'О ььос оооо оооо ЪсОО| Ь вЂ” СО СЧ О О О са оооо оооо ЯОСО | о о о съ оооо оооо — са 3 О Ьь О СЧ оооо О| О|ОО| О ОЙФС оооо оооо оооо -ОсЪ| Ы С- О Ос оо —— оооо оооо оЯЗЗ оь-- оооо оооо а| 8 сч оЗоо оооо СО | |' |' |О С4 О| ь ь сч съ оооооо о ОЧССЧ О СЧ О| сО О| ООСЧ О о оов оооо СЧ| СЧ 3'СЪ'Ф ОЪ Ь - СО о оов о о о о СОЫО О сасОСЪ О О ЫьС| ооо о ьсъь Я СЧ '3'СЧ ооо о о о о йдь я о оьооо о Ь са О|СО.Ъ Я ооо о ос|о |- оьо о ооо о ооо о о о о о ооо о СЧ .Ф СЪ оооо |О Я о осч счяь съ ооо о Ч'СЧ О О| $яо о о о о о Ь ОСЪ С4 'ФСО О | Жо о о о о СььЫ О Эаьсь О ооо о ыь|О О $3 сч съоо ь | 3'СО 3' о .с Я о оо и» ооо о СЧ СО СО |О ЧЪ| О Оо- О оооо о о о о Ф4|О СО О Ч' О|О са~са| с ооо о дОЪ СЧ ъ-ь сч О С4 о о о о ооо о 'ъЯЗ с'4 Я-СЧ СЪ ооо о СЧ О| СС |ОСЪСО О счс-- д ооо о О| СЧ 00 СО СЧ В|ОО Ы С3 СЧ ооо о оооо ФЪ |'|О| | СОСО СЧ СО СО СО О СО |О О оооо ° СЧ СО С'3 оса ЯО оооо | СОС3|О ов-счо О |О С'Ъ СО О СО оооо ОЪ С4 СО оооо ФОЪ СЧЧ .О| оооо Г|ЯЧ' Г| О СЪ Ь Ч СЧ 'Ф НЪ | оооо сач СО СО оооо оооо оооо ний, то опять, зная общую частоту случаев в тех же предположениях о распределениях у (Х) для случаев и не-случаев, можно оценить Й.
Верны и обратные утверждения для известных с( н частоты случаев: !) для заданных частот каждого нз трех решений можно рассчитать соответствующие ,о 3,8 ЗЯ З.4 3.2 з.о 2,8 20 2,4 ао г,г г.о 1.8 0.4 О.г о Рис. !.4. Прямые «чувствительноссь — сиецифичность» для различных значений сг (модель Фишера) на двойной нормальной бумасе вероятности ошибок или 2) для заданных вероятностей ошибок найти частоты соответствующих решений. Таким образом, при известной доле случаев н дополнительных предположениях о распределении у (Х) величина И является очень удобной характеристикой разделения, позволяющей придать результатам классификации самую разнообразную форму: от трафиков «чувствительность — специфичность» до доли случаев в квартилах риска и доли оши- 3 Зава» № 29! ва 97 ач - 95 е й 90 е о 80 60 70 80 90 95 99 Чтя«тент«явность, % о.в О.б бочных заключений при заданном числе отказов от решения.
Желательна определенная стандартизация представления результатов классификации. Величина е(, определенная графически с помощью двойной нормальной бумаги, может служить универсальным эмпирическим параметром, характеризующим разделимость распределений. 1.2.4. Аналитические меры разделимости распределений. Пусть в модели Фишера (см.
п. 1.1,2) д определено как в (!.3?), тогда с учетом (1.16) и (!.17) из (!.12) получаем «(«= (м,— м,)' х — '(м,— м,). (!.39) Для невырожденных многомерных нормальных распределе- ний с общим л'. величина д«, определенная формулой (1.39), называетс я расстоянием Махаланобиса между распреде- лениями 1161. Она обладает следуюгцими важными свойст- вами: в задаче Фишера д однозначна определяет кривую «чув- ствительность — специфичностык При этом мннимаксная ошибка классификации с помощью критерия отношения правдоподобия выражается формулой 1п! п гпах (а, ()) = Ф ( — д/2), а т. е. чем д больше, тем минимаксная ошибка меньше.
При с( = 0 ошибка равна 0,5 и соответствующие распределения совпадают; если в задаче Фишера случайные векторы Е~ — — (Хь У;) (1 =1, 2) состоят издвух взаимно независимых векторов Х„ Уи то д (Л„г,) д (Х„Х,)+д (У„У,). (1.40) Свойство (1.40) называют аддитивностью по отношению к независимым компонентам; если Х; с У (М„л) (1 = 1, 2, 3) 1Х(~0, то е((Х,, Х„) ( «((Хо Х«)+с((Х„Х,) (1.41) (неравенство треугольника). В качестве обобщения расстояния Махаланобиса на про- извольные распределения в теоретических работах широко используется дивергениия (в 19! ! расхождение) или, как еще иногда говорят, расстояние Кульбака между распределе- ниями с плотностями !'; (! = 1, 2) л' = ) (?, (Х) — ?«(Х)) 1п (?, (Х)/?«(Х)) дХ.
(1 42) В модели Фишера ? = И«. Аналогично расстоянию Махала- нобиса: ? — 0 только тогда, когда распределения совпа- дают; У также адаптивно по отношению к независимым компонентам и инвариантно относительно любого взаимно однозначного отображения координат. Какого-либо простого анапа~а (!.40) в литературе не приводится. Другой мерой разделимости распределений является расстояние Бхатачария (160, гл.