Лекция 11. Байесовские сети (skipped)_ анализ выживаемости (2015 Лекции (Сенько)), страница 2
Описание файла
Файл "Лекция 11. Байесовские сети (skipped)_ анализ выживаемости" внутри архива находится в папке "2015 Лекции (Сенько)". PDF-файл из архива "2015 Лекции (Сенько)", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
Выборки данных в задачах анализа выживаемости обычноимеют видSe = {s1 = (α1 , t1 , x1 ), . . . , sm = (αm , tm , xm )},где ti - время, прошедшее от начального момента до моментапоследнего наблюдения за объектом;αi - индикатор, равный 1, если в момент ti для объекта si былозафиксировано критическое событие, и равный , если в моменткритическое событие не наступило;xi = (xi1 , . . . , xin )- вектор переменных X1 , . . . , Xn , которыепотенциально могут оказывать влияние на форму кривойвыживаемости.Сенько Олег Валентинович ()МОТП, лекция 1212 / 29Анализ выживаемостиРассмотрим методы восстановления кривых выживаемости приигнорировании влияния на их форму переменных X1 , .
. . , Xn Одним изнаиболее популярных методов восстановления кривых выживаемости вэтих случаях является процедура Каплан-Майера, учитывающаясуществование цензурированных наблюдений. При отсутствии такихнаблюдений процедура Каплан-Майера эквивалентна вычислениюобычных эмпирических наблюдений. Предположим, что наблюдения внекоторой выборке Se фиксировались в моменты t1 , . . . , tN . Пусть ni число объектов, для которых критический момент не наступил домомента времени ti , di -число критических событий в момент ti .Оценка значения кривой выживаемости мо методу Каплан-Майера наполуинтервале (ti , ti+1 ] вычисляется по формулеS(t) =iYnj − dj.njj=1На рисунке 1 представлены примеры оценок кривых выживаемости пометоду Каплан-Майера.Сенько Олег Валентинович ()МОТП, лекция 1213 / 29Анализ выживаемостиРис.
1. Сравниваются оценки для кривых выживаемости по методуКаплан-Майера групп пациентов с двумя вариантами генотипа.Сенько Олег Валентинович ()МОТП, лекция 1214 / 29В настоящее время существует целый ряд методов оценки влиянияпеременных X1 , . . . , Xn на форму кривой выживаемости. Одной изпопулярных моделей до сих пор является модель Кокса, основанная наконцепции мгновенного риска.
Мгновенный риск λ(t) в момент tопределяется как пределlim =∆t→0f (t)P [T ≤ (t + ∆t)|T ≥ t]=,∆tS(t)где f (t) плотностью вероятности наступления критического события вточке t. То есть f (t) = dFdt(t) , где F (t) = 1 − S(t). Таким образомочевидна справедливость простого дифференциального уравненияλ(t)dt = −−dS(t).S(t)(2)Проинтегрировав левую и правую части уравнения (1) на отрезке [t0 , t]убеждаемся в справедливости равенствRtln[S(t)] = −Λ(t) или S(t) = exp[−Λ(t)] где Λ(t) = t0 λ(t).Сенько Олег Валентинович ()МОТП, лекция 1215 / 29В случае если форма кривой выживаемости зависит от переменныхX1 , .
. . , Xn , мгновенный риск также оказывается функциейпеременных X1 , . . . , Xn . В основе модели Кокса (моделипропорциональных рисков) лежит предположение о возможностипредставления мгновенного риска для произвольного объекта s∗ сописанием x∗ = (x∗1 , . . . , x∗n ) в виде произведенияλ(t|x∗ ) = λ0 (t) exp (β1 ∗ x∗1 + .
. . + βn ∗ x∗n ),где λ0 (t) - базовая компонента, зависящаятолько от времени. ПустьRtS0 (t) = exp[−Λ0 (t)], где Λ0 (t) = t0 λ0 (t). В результате получаем∗∗S(t) = S0 (t)[exp (β1 ∗x1 +...+βn ∗xn )] .Для поиска вектора параметров (β1 , . . . , βn ) используется методмаксимального правдоподобия.Сенько Олег Валентинович ()МОТП, лекция 1216 / 29Модель пропорциональных рисков КоксаПредположим, что для настройки модели пропорциональных рисковиспользуется обучающая выборкаSe = {s1 = (α1 , t1 , x1 ), .
. . , sm = (αm , tm , xm )}. Предположим, чтокритическое событие для объекта si произошло в момент времени ti .Вероятность того, что среди всех объектов, для которых критическоесобытие до момента ti не наступало, это событие в момент tiпроизошло именно с si оценим с помощью отношенияλ0 (ti ) exp (β1 ∗ xi1 + . .
. + βn ∗ xin )λ(ti |xi )=P=tj >ti λ(ti |xj )tj >ti λ0 (ti ) exp (β1 ∗ xj1 + . . . + βn ∗ xjn )Pexp (β1 ∗ xi1 + . . . + βn ∗ xin )tj >ti exp (β1 ∗ xj1 + . . . + βn ∗ xjn )=PСенько Олег Валентинович ()МОТП, лекция 1217 / 29Функционал правдоподобия записывается в видеL(β1 , . . . , βn ) =mYexp (β1 ∗ xi1 + . . . + βn ∗ xin ).tj >ti exp (β1 ∗ xj1 + . . . + βn ∗ xjn )Pi=1В модели используются значения (β1 , . . .
, βn ), при которыхL(β1 , . . . , βn ) достигает максимума. Наряду со значением параметров(β1 , . . . , βn ) неизвестным параметром модели пропорциональныхрисков является форма базовой функции выживаемости S0 (t). Однимиз возможных способов восстановления S0 (t) является подход,основанный на аппроксимация отношенияS(ti |β1 , . . . , βn , xi )S(ti−1 |β1 , . . . , βn , xi )величиной1− Pexp (β1 ∗ xi1 + . . . + βn ∗ xin )tj >ti exp (β1 ∗ xj1 + . .
. + βn ∗ xjn )(3)для произвольной пары последовательных моментов времени (ti−1 , ti ),для которых имели место критические события.Сенько Олег Валентинович ()МОТП, лекция 1218 / 29При этом предполагается, что вектор параметров (β1 , . . . , βn ) уже былранее найден с помощью описанного ранее варианта методамаксимального правдоподобия. Очевидно, что для вектора xi ,описывающего объект si из обучающей выборки, справедливоравенствоS(ti |β1 , . . . , βn , xi )S0 (ti ) exp(β1 ∗xi1 +...+βn ∗xin )=[].S(ti−1 |β1 , .
. . , βn , xi )S0 (ti−1 )(4)0 (ti )Обозначим отношение SS0 (tчерез γi . Из равенств (2) и (3) следуетi−1 )справедливость равенстваexp (β1 ∗ xi1 + . . . + βn ∗ xin )−1][exp(β1 ∗xi1 +...+βn ∗xin )]tj >ti exp (β1 ∗ xj1 + . . . + βn ∗ xjn )γi = [1 − PОчевидно, величина γi может быть рассчитана для каждого объектаиз выборкиe.Сенько Олег Валентинович ()МОТП, лекция 1219 / 29Оценка базовой функции выживаемости на отрезке времени [ti , ti+1 ]может оцениваться в виде произведения коэффициентов γi поe для которых критическое событиевсевозможным объектам S,наступило до момента ti . То естьYS0 (ti ) =γj .tj <tiСенько Олег Валентинович ()МОТП, лекция 1220 / 29Временные рядыПод временным рядом понимается множество значений некоторойпеременной Z, измеренных в моменты времени, разделённыеодинаковыми интервалами.
. . , Z(ti−1 ), Z(ti ), Z(ti+1 ), . . .Временной ряд считается многомерным, если в каждый моментвремени измеряются значения нескольких переменных. Многомерныйряд, содержащий значения переменных Z1 , . . . , Zk , может бытьпредставлен в виде набора последовательностей:. . . , Z1 (ti−1 ), Z1 (ti ), Z1 (ti+1 ), . . ....,...,...,...,...,.... . . , Zk (ti−1 ), Zk (ti ), Zk (ti+1 ), . . .Сенько Олег Валентинович ()МОТП, лекция 1221 / 29Временные рядыОсновной задачей анализа временных рядов является поискалгоритма, позволяющего предсказывать значения переменной Z илизначения переменных из некоторого подмножества Z1 , . .
. , Zk в ещё ненаступившие моменты времени. Дополнительными задачами анализвременных рядов является поиск существующих эмпирическихзакономерностей, включая поиск циклических изменений переменных.Прогнозирование временного ряда производится с помощьюалгоритма, обученного по доступному в результате наблюденийучастку временного ряда достаточной длины. Одним из способовпрогнозирования временных рядов является использованиеодномерной регрессионной функции f (t), зависящей от времени. В техслучаях, когда прогностическая способность f (t) являетсястатистически достоверной, а функция f (t) является линейной,говорят о наличии во временном ряду линейного тренда. Для поискалинейного тренда может быть использован метод простой одномернойрегрессии с использованием в качестве прогнозирующей переменнойX время t.Сенько Олег Валентинович ()МОТП, лекция 1222 / 29Временные рядыЗначения переменной Z в различных точках временного ряда.
. . , Z(ti−1 ), Z(ti ), Z(ti+1 ), . . .могут рассматриваться как реализации случайных функций. . . , Z̆i−1 , Z̆i , Z̆i+1 , . . . .Процесс, отображаемый временным рядом, называется стационарным,если совместное распределение вероятности для произвольных rпоследовательно расположенных в ряду случайных величинZ̆i+1 , . . . , Z̆i+rСовпадает с совместным распределением r случайных величинZ̆i+1+l , . . . , Z̆i+r+l , . . .при некотором целом l.Сенько Олег Валентинович ()МОТП, лекция 1223 / 29Временные рядыОчевидно, что процесс является стационарным, если переменные. . .
, Z̆i−1 , Z̆i , Z̆i+1 , . . .являются независимыми и одинаково распределёнными.Предположим, что функция f (t) полностью характеризует процесс.Это означает, что Z(ti ) = f (ti ) − εi , где . . . , εi−1 , εi , εi+1 , . . . независимые и одинаково распределённые ошибки с нулевымматематическим ожиданием. Тогда случайный процесс, отображаемыйвременным рядо. . . , [Z(ti−1 ) − f (ti−1 )], [Z(ti ) − f (ti )], [Z(ti+1 ) − f (ti+1 )], . . . ,оказывается стационарным.Сенько Олег Валентинович ()МОТП, лекция 1224 / 29Временные рядыДля прогнозирования временного ряда в произвольной точке ti нарядус методами, основанными на выделении тренда, используютсяметоды, основанные на поиске оптимального алгоритма A ,вычисляющего оценку Z(ti ) по набору предшествующих значений{Z(tj1 ), .