Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 26
Текст из файла (страница 26)
Если условные распределения Р (Х ~ Н,) и Р (Х ~ Н«) основательно пересекаются, а это типичныи случай, то ошибки классификации (см. 2 1 2) будут высокими и такой подход индивидуального предсказания судьбы объекта малопродуктивен. Вместе с тем можно оценить Р (Н» ( Х) и тем самым отнести соответствующий объект к одной из групп риска Н« Такой прогноз, в отличие от первого, иногда называют групповым (не путать с групповой классификацией). Оба метода прогноза почти ие отличаются по используемому математическому аппарату, различны лишь формы представления результатов (см.
Ь 1.2). Однако с точки зрения приложения они принципиально различны. Нечетким предсказанием индивидуальной судьбы объекта (в терминах Н, и Н«) воспользоваться трудно. В то же время указание группы риска весьма информативно. В самом деле, если есть ограниченный дополнительный ресурс для более полного обследования объектов, то его, видимо, целесообразно применить к объектам, принадлежащим к группам более высокого риска. Так, например, поступают при диспансеризации населения. При лечении профилактические средства с заметным побочным действием также стоит давать только тем больным, у которых ожидаемый основной аффект лекарства будет выше ожидаемого ущерба от побочных действий, т. е. и здесь учет Р (Н, ~ Х) крайне существен В разобранной выше задаче лишь немного отклонились от традиционной формы представления результатов и сразу же получилп очень интересные варианты практического использования ДА.
4.1.2. Индикаторы и факторы риска. Предположим, что в разобранной в предыдущем пункте задаче хотим найти компоненты Х, наиболее тесно связанные с осуществлением события Н,. С помощью описанных в предыдущих главах 131 методов (см. $1.4, 2.5) можем выделить группу переменных <! > ° Х = (х<' ° >, ..., х ь~), такую, что сила прогноза при расширении набора Л до исходного Х на имеющемся в распоряжении материале статистически значимо не увеличивается. Переменные, входящие в Х, называют риси-индикаторами Н,. При этом в слове индикатор выделяются два смысловых оттенка: !) на индикатор не всегда можно воздействовать, например, как на возраст объекта и 2) индикатор не обяза<ельно причинно обусловливает возникновение Н,. Он, например, может быть только связан с внутренним механизмом, порождающим Н,.
Перевод части индикаторов в факторы риска. Предположим, что можно воздействовать на часть риск-индикаторов, например х<'>, ..., к< ' (ич- й), изменяя их значение на <! > и > <<т> новые л„' „..., х„, в то время как остальные риск-индикаторы остаются без изменения. Обозначим Х, „вектор риск- индикаторов для !'-го объекта после изменения. Если после различных воздействий частота события Н, останется сопоставимой с 2Р (Н, ~ Х, „)<2 1, где условная вероятность подсчитывается по установленным ранее для Х формулам н профессиональный ана,тиз показывает, что переменные к<>1>, <! > ..., х' ' ' можно рассматривать как непосредственные составляющие механизма возникновения Н„ то эти переменные называют риск-факторами Н,. На этом пути были, в частности, установлены риск-факторы развития ишемической болезни сердца, послужившие основой развертывания широкой программы профилактики сердечно-сосудистых заболеваний 1277, 322Е 4.1.3.
Сравнительные испытания. Предположим, что к описанным в п.4.1.1 объектам, признанным исправными при осмотре, применяются определенные воздействия с целью предотвратить их выход из строя за определенный промежуток времени. Для того чтобы эмпирически отобрать наиболее эффективное воздействие, проводятся так называемые сравнительные испытания. В простейшем случае они заключаются в следующем. Пусть требуется сравнить два воздействия: А — старое и  — новое.
Из объектов образуются две по возможности близкие по свойствам (Х,) группы: Π— основная и К в контрольная. К объектам основной группы применяется воздействие В, а к объектам контрольной группы — воздействие А. Об эффективности воздействий судят по альтернативному признаку: остался ли объект исправным (событие Н,) или вын>ел нз строя (собы- <32 тие Н,). Вопросам формирования сравниваемых групп посвящена обширная статистическая литература (85, 1021. Тем не менеедобиться полного сходства групп даже при умеренной разчерности Х удается редко.
Это обстоятельство мешает интерпретации результатов испытаний, поскольку априори известно, что Р(Н,1Х) зависит от Х. В случае, когда заранее известны риск-группы при старом воздействии А, поправку на неоднородность основной иконтрольнои ~рупп сделать не трудно. Для этого достаточно оценить разность б= Р(Н,1А, Х б 0) — Р(Н,) А, ХЕ К) (4.1) и далее проверять гипотезу, что Н, Р(Н,~В, Х~О)=-Р(Н,)А, ХСК)+б, (42) Частным, но практически важным случаем «испытаний» является анализ эффективности разных воздействий на ретроспективных данных Возможность такого анализа обусловлена тем, что четкие однозначные правила назначения воздействия в зависимости от Х обычно или отсутствуют, вли зоилу разных причин ие соблюдаются и поэгому в банках данных накапливается довольно обширная информация о различных сочетаниях пар (Х, воздействие) и соответствующих исходах.
Многочисленные примеры проведенных исследований показывают, что на основании априорных профессиональных соображений исследователь может разделить объекты на относительно однородные группы риска— страгы и проводить анализ эффективности внутри соответствующих групп (85, 179~ Видимо, целесообразно включать проведение подобного анализа в качестве специальной задачи информационных технологических систем с целью автоматизированного подбора гипотез для дальнейшего их анализа исследователем. В случае, когда риск-группы априори не известны и ие могут быть убедительно назначены исследователем, приходится рассматривать полную математическую модель ситуации.
Простейшая модель влияния Х и воздействия У Е (А,В) на условную вероятность Н, имеет вид: Р(Нх!Х, $') (1+ехр(О'"'+тт'Х+д(г)))-х, (43) где д (А) = — д (В) = д, 81'~, 0 — неизвестные параметры. Проверяемая в испытании гипотеза заключается в том, что эффект сравниваемых воздействий тождествен, т. е. что Н,:4= О. (4.4) 133 Очевидно, при д ~ О более эффективно новое воздействие, а при д ) Π— старое.
Предположения (4.3) и (4.4) надо дополнить предположениями, что при заданных Х и )Г результаты испытаний независимы и что распределения Х в основной и контрольной группах независимы между собой, и задать эти распределения. Например, положив, что в основной группе ХЕ У(Мо, Х), (4.5) а в контрольной ХЕ У(Мк, Х), (4.6) где Мо, Мх, У вЂ” неизвестные параметры, причем де1 Е ~0. Базовые предположения (4.3) — (4.6) погрузим в одну из асимптотик: традиционную или растущей размерности (см. п.2.2.1). Можно также пополнить модель упрощающими предположениями о взаимной близости векторов Мо и Мк и о структуре Е.
Сводку практических рекомендаций по методам интерпретации результатов сравнительных испытаний с учетом возможного несовпадения распределений в контрольной и основной группах можно найти в Н791. 4.2. Методы описания риска развития события 4.2.1. Мгновенный риск ифакторизация Кокса. В предыдущем параграфе для описания вероятности возникновения неисправности за время от одного осмотра до другого использовалось понятие риск-группы.
Но для той же цели можно использовать понятие мгновенного риска (или просто риска) г (1) =1пп Ь-' Р (объект неисправен в г+ ь-о +А)объект исправен в 1). (4. 7) Риск и вероятность события Н = (появление неисправности за интервал з ( 1 - з + Т) связаны соотношением в+г Р(Н 1 объект исправен до з) = 1 — ехр ( — ) г (1) бг)- (4.8) По аналогии с (4.?) можно ввести условный риск в момент г при условии, что в момент осмотра з(1объект имел вектор показателей Х(з) г (1 1Х(з)) = 1пп Л-' Р (неиспраь- о веи в 1+ Л 1 исправен в 1, Х (з)).
Понятие условного риска — более тонкий инструмент для описания закономерностей возникновения неисправности, чем Р(Н, 1 Х (э)) — понятие условной вероятности. Однако г (( 1 Х (з)), вообще говоря, требует для своей оценки заметно большего числа наблюдений. С целью частичного преодоления этой трудности в 1972 г. Д. Кокс [206) предложил факторизовать г (1 ~ Х (з)) путем представления г (( ~ Х (з)) = 9 (Х (з)). И (() нли г(((Х(з))=й(Х(з)) И(г — з), где И (М) в (4.9) — функция «возраста» объекта, а в (4.9')— функция времени, прошедшего после осмотра; д (...)— функция изучаемых признаков.