Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 27
Текст из файла (страница 27)
В зависимости от соображений предметной области выбирается одна из указанных моделей. Поскольку обе модели трактуются одинаково, в дальнейшем будет рассмотрена только первая из ннх. При предположении, что д (Х) =- 7 (Х, 8), где 1 — известная функция, а 6 — вектор неизвестных параметров, факторизация (4.9) позволяет оценивать д (Х) независимо от функции И. Для этого на шкалу возраста наносятся точки 1„С ....С (,, соответствующие возрасту 1~ объекта в момент наступления неисправности, и для каждой точки (, выписывается Р (( 11 ) — условная вероятность, что среди всех объектов возраста 1, в исследовании неисправность наступит только у (-го объекта при условии, что она действительно наступила у объекта возраста 1; Р (1'Г,) = д (Хд)/Хд (Х~), где суммирование проводится по всем объектам ), в возрасте (, находившимся в исследовании.
Полученные вероятности объединяются в общую функцию условного правдоподобия 1п(.= ~ 1п Р(1,(~,,). ю=1 Параметры 9 оцениваются из условия максимизации )пав. Наиболее часто используется функция д (Х) = = ехр (6'Х). Процедуры оценки 9 входят во многие статистические пакеты. Асимптотические свойства 9 изучены пока только в традиционной асимптотике. 4.2.2.
Связь между риском н линейной дискримииаитиой функцией. Формула (4.8) показывает, что всегда возможен переход от риска события (возникновение неисправности) к вероятности его осуществления за заданный промежуток времени. Проанализируем с этой точки зрения риск г((, Х) =п(Х) >>(() =ехр(8' Х) ехр(е,->-е(). (4.11) Эта формула важна для медицинских приложений, так как Й (1) = ехр (еа + е()достаточно хорошо описывает средний риск кардиоваскулярной смерти для лиц старше 30 лет, а я (Х) =- ехр (Э'Х) — наиболее часто используемое предположение о й (Х).
Пусть ̈́— как прежде, гипотеза, что неисправность не наступила. Если объект был обследован в возрасте з, имел при этом вектор показателей Х и пробыл в исследовании Т лет, то = ехр ( — ехр (а, + 6)' Х+ ез+ !п Нехр (еТ) — 1)/е))). (4.12) С другой стороны, в классической модели Фишера дискриминантного анализа для описания той же вероятности используется логистическая функция, в которой з — возраст объекта — в момент обследования рассматривается в качестве одной из переменных Р(Н> ! Х, з) = (! + ехр ( — с)" — с~ Х вЂ” со'>'> з) ) '.
(4.13» Формулы (4.12) и (4.13) похожи в том смысле, что в обеих в качестве аргумента используются линейные комбинации координат Х и з, но они различны аналитически. Если положить ссм = — (0,3665+е, + !и ((ехр (еТ) — 1) /е)у ', с)',>= — — Оо>у '(>=1, ..., р); с>р > = — еу ', то для у ж 0,80 —:0,90 оба выражения для вероятности численно близки. Это видно из табл. 4.1, в которой приведены значения функций (1+ехр( — х))-' н ехр( — ехр( — ух — 0,3665)) для у= = 0,80 —: 0,95. Это позволяет связать оба метода и, в частности, использовать оценки, полученные с помощью дискриминантного анализа, в качестве первого приближения в итеративных процедурах оценки г (Х, 1).
При работе с риском события информация, содержащаяся в исходных данных, используется более полно, чем при работе с вероятностью осуществления события за время Т, Таблица 4.1 () )- +~ р) )) овр 1 — охр)-тк — О,вббб)) т=о,об р=о,вв т — о оо т= о,во 0,5000 0,6498 0,7649 0,8095 0,8464 0,8768 0,9015 0,9215 О,')376 0,9607 0,9754 О,')846 О, 5000 0,6428 0.7544 0,7985 0,8355 0,8663 0,8917 0,9126 0,9295 0,9545 0,9707 0,9812 0 0,6 1,0 1,25 1,50 1,75 2,0 2,5 3.0 3,5 4,0 0,5000 0,6225 0,7311 О,?773 0,8176 0,8520 0,8808 0,9047 0,9241 0,9526 0,9707 0 9820 0,5000 0,6284 0,7324 0,7749 0,8116 0,8429 0,8694 0,8917 0,9105 0 9391 0.9587 0.9721 0.5000 0,6356 0,7436 0,7870 0,8239 0,8550 О,ВВ)1 09027 0,9205 0,9473 0,9652 0,9771 137 описывается ли она формулой (4.12) или (4.13) Если в факторизации (4.9) 0 (Х) ограничено снизу, а И(!) не убывает с ростом ), то при Т-з- оо «разрешающая» сила любого метода ДА стремится к нулю, поскольк1 все объекты становятся случаями При использовании функций риска это не страшно, так каь при оценке параметров используется инфорл)ация о том, когда объекты становятся случаями.
4.2.3. Измерение динамики силы влияния факторов. Естественно думать, что влияние того илп нного фактора или группы факторов различно в ближай)пем и отдаленном периодах. Несмотря на высокую практическую важность количественного изучения динамики силы фактора или интенсивности событий, строго документированные сведения в ряде областей знания практически отсутствуют. Немалую роль в этом сыграло отсутствие до последнего времени подходящего математического аппарата, позволяющего проводить исследование при сравнительно умеренных затратах. В 1271) показано, что повышенное систолическое артериальное дав пение у мужчины в возрасте 45 — 60 лет весьма информативно в отис)пении коронарной смерти в ближайшие 20 месяцев, что со временем информативность падает и что она весьма мала через 90 месяцев после первоначального измерения.
Ниже приводятся результаты этой работы с целью демонстрации возможностей„открываемых соответствующим математическим аппаратом. Пусть з — возраст в момент включения субъекта в исследование, когда проводилось начальное измерение систолического артериального давления, х — величина систолического артериального давления (в мм Нд); х)7, и х)74— нижний и верхний квартили распределения х; 1 — текущий возраст; г (1, з, х) — условный риск коронарной смерти для субъекта возраста 1 при условии, что в возрасте з он имел систолическое артериальное давление х. В исследовании использованы данные из Епископ Визгпеп Яибу, эпидемиологического исследования, направленного на выявление риск- , 1,2 а ь1 "и 1,о с б 0,9 О.з од о,а 0,0 о,а о,з ОД ол о ю 20 20 ю ао ао то ао оо 1оо ма 120 Время, масяцМ Рис.
4Д. Сила предсказания для двух математических моделек ~27Ц факторов, ведущих к развитию ишемической болезни сердца. В исследование были включены 684 л1ужчины в возрасте от 39 до 65 лет. Здоровье каждого из них прослеживалось в течение десяти и более лет. За это время случилось 66 кардиоваскулярных смертей. Если бы имею1циеся данные были разделены на несколько групп согласно возрасту и величине артериального давления, то численность наблюдений в каждой из получившихся групп была бы недостаточной для каких-либо выводов.
Только комплексное использование всего материала на базе предположений о форме зависимо- сти риска смерти от х, з и С делает анализ возможным. В качестве показателя прогностической силы использовано и = 1оящ (г (С, 3 хзгл)/г (С, 3, х1г4)) ° Модельные предположения о г (С, з, х): г,(С, з, х) =ехр ((а+сх) (1 — Ь))-Ь(С); (4.14) г, (С, з, х) = ехр ((а+ сх)/1 1+ Ьи)) Ь (С), (4.15) где а, Ь, с — неизвестные постоянные; и = 1 — з, а й (1) = = ехр (г, + е(), где е, и е, — постоянные.
Анализ можно было бы провести и без конкретизации вида Ь (С), но при атом на 25 'Ь возросла бы длина доверительных интервалов. На рис. 4 1 показатель прогностической силы, определенный в предположении (4.14), обозначен д,, в предположении (4.15) — дь Как видим, качественного различия при использовании моделей (4.14) и (4.15) нет. Предсказующая сила убывает очень быстро, уменьшаясь в два раза к концу второго года. Общая математическая модель для изучения динамики влияния нескольких факторов строится [107) из геометрических соображений модели Фишера классического дискриминантного анализа (см. 3 2.3). Пусть 1, з, Х определены как выше, М вЂ” вектор средних, а Х вЂ” ковариационная матрица Х, тогда г(С; з, Х)=ехр((Х вЂ” М)' Х-'0(и) 8) Ь(С), (4 16) где (1 — Ь.т» ... О 0(и) = ........,, и=С вЂ” з, 9, Ь„..., Ьр— О .'..
(1 — Ь )" (4. 17) неизвестные параметры модели. Асимптотическне свойства модели (4.16) в асимптотике растущей размерности пока не исследованы. 4.3. Другие применения ДА 4.3.1. Распознавание сигналов. До сих пор рассматривали задачи, в которых ресурсы, используемые на выработку решающего правила и на саму классификацию нового объекта, не учитывались. При распознавании сигналов картина, как правило, другая: и выработка решающего правила должна быть доступна используемому микропроцессору и классификация (идентификация) объекта должна произойти за конеч- 139 иое время (часто доли секунды).
В качестве примера подобной задачи рассмотрим речевое общение с ЭВМ. Сначала диктор начитывает ЭВМ используемый им словарный фонд (задает «эталоны>), а затем в ходе общения машина должна правильно идентифицировать произносимые им слова и принимать соответствующие, заранее предусмотренны«действия. В работе (144! образ слова в ЭВМ состоит из (1 хр)-матрицы чисел, столбцы которой соответствуют полосам частот в диапазоне от 200 до 5000 Гц и их число фиксировано, строки — последовательным отсчетам времени через 5- — 15 миллисекунд и их число зависит от длительности произнесения слова, а элементы соответствуют спектральной плотности сигнала на выходе фильтра соответствующей полосы, сцене~пои за соответствующий интервал времени, и отдельно числа и, показывающе~о, сколько пересечений нулевого уровня сделано сигналом при произнесении слова.
На повторное произнесение одного и того же слова диктор, вообще говоря, тратит разное время. Г!оэтому при идентификации слов обязательно производится выравнивание времен так, чтобы допустить неболыпие колебания в длительности произношения отдельных звуков. Отложим по оси абсцисс точки( = 1, ..., т, соответствующие последовательным отсчетам первого слова, а по оси ординат — точки 1 = 1, ..., и, соответствующие отсчетам второ~ о. Рассмотрим далее прямоугольник с вершинами (1, 1), (1, и), (т, и), (т, 1) (рис.